1 / 23

корпус русских спонтанных текстов: структура и единицы

Анатолий Владимирович Венцов , Юлия Олеговна Нигматулина , Ольга Васильевна Раева , Елена Игоревна Риехакайнен , Наталия Арсеньевна Слепокурова (СПбГУ). корпус русских спонтанных текстов: структура и единицы. Цель создания корпуса.

Download Presentation

корпус русских спонтанных текстов: структура и единицы

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анатолий Владимирович Венцов,Юлия Олеговна Нигматулина,Ольга Васильевна Раева,Елена Игоревна Риехакайнен,Наталия Арсеньевна Слепокурова(СПбГУ) корпус русских спонтанных текстов: структура и единицы

  2. Цель создания корпуса изучение особенностей сигнала, с которым слу­шающий сталкивается при восприятии речи в естественных усло­виях разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную по­следовательность лексических единиц функциональная модель восприятия речи

  3. Виды аннотирования: - орфографическая расшифровка; - акустико-фонетическая транскрипция

  4. Общая информация • расшифровки теле- и радиопередач; • орфографическая расшифровка: 224 минуты звучания; • Орфографическая расшифровка + акустико-фонетическая транскрипция: 90 минут звучания.

  5. Принципы транскрибирования

  6. Принципы транскрибирования

  7. Принципы транскрибирования

  8. Принципы транскрибирования Пример: pause 0,202 по [po+] 0,238 inh 0, 493 а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712 небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214

  9. Доступ к Корпусу Корпус русского литературного языка http://narusco.ru/ Раздел «Наши ресурсы» Создание конкорданса по текстам речевого корпуса

  10. Доступ к Корпусу • Речевой корпус: • монологическое (спонтанные монологи); • дикторское (радиосводки Ю.Б. Левитана); • прочитанное; • диалоги.

  11. Доступ к Корпусу

  12. Доступ к Корпусу

  13. Частотный словарь словоформ русской спонтанной речи потом [patu+m] 3 потом [pato+m] 8 потом [p*tu+] 1

  14. Граница между словами в корпусе устных текстов «Составные слова» = «сочетания эквивалентные слову» потому_что как_бы то_есть … и др. Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, 2004. С. 17–18. Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, 2008. 204 с.

  15. Граница между словами в корпусе устных текстов то_есть[tQs’ / tısj] потому_что [gua+S / guáʃ]

  16. Граница между словами в корпусе устных текстов человека_общаться [C*lE+kap$a+c* / ʨəlɛ+kapɕa+ʦə] Стяжение – слияние двух смежных звуков, приводящее к возникновению одного. театр [t’&tr / tʲætr] ему_уже [Qimu+Z / ɨmu+ʒ] дети_оттуда [d’Et’&tuda / dʲε+tʲætuda] при своём_мнении [pr* sa+emn’E+n’i / prə sa+emnʲɛ+nʲi]

  17. Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло

  18. Спектрограмма стяжения щи_ото[$&ta / ɕʲæta](из словосочетания вещи_отождествлять [v'E+$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ]) стяжение

  19. Стяжения гласных и согласных в Корпусе русских спонтанных текстов

  20. Стяжения в спонтанной и прочитанной речи

  21. Три вида единиц: • отдельные словоформы (я, четыре и т.д); • составные слова (то_есть, всё_равно и др.); • словоформы, подвергшиеся стяжению (что_он[Ston / ʃton], дайте_им [da+et’im / dáetjim] и др.)

  22. Перспективы • верификация со­зданной транскрипции; • дальнейшая фонетическая рас­шифровка записей; • пополнение общего объема корпуса, в том числе за счет привлечения записей подготовленной русской речи (дикторской речи, прочитанных текстов); • разработка более совершенной системы поиска.

  23. Спасибо за внимание!

More Related