230 likes | 363 Views
Анатолий Владимирович Венцов , Юлия Олеговна Нигматулина , Ольга Васильевна Раева , Елена Игоревна Риехакайнен , Наталия Арсеньевна Слепокурова (СПбГУ). корпус русских спонтанных текстов: структура и единицы. Цель создания корпуса.
E N D
Анатолий Владимирович Венцов,Юлия Олеговна Нигматулина,Ольга Васильевна Раева,Елена Игоревна Риехакайнен,Наталия Арсеньевна Слепокурова(СПбГУ) корпус русских спонтанных текстов: структура и единицы
Цель создания корпуса изучение особенностей сигнала, с которым слушающий сталкивается при восприятии речи в естественных условиях разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную последовательность лексических единиц функциональная модель восприятия речи
Виды аннотирования: - орфографическая расшифровка; - акустико-фонетическая транскрипция
Общая информация • расшифровки теле- и радиопередач; • орфографическая расшифровка: 224 минуты звучания; • Орфографическая расшифровка + акустико-фонетическая транскрипция: 90 минут звучания.
Принципы транскрибирования Пример: pause 0,202 по [po+] 0,238 inh 0, 493 а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712 небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214
Доступ к Корпусу Корпус русского литературного языка http://narusco.ru/ Раздел «Наши ресурсы» Создание конкорданса по текстам речевого корпуса
Доступ к Корпусу • Речевой корпус: • монологическое (спонтанные монологи); • дикторское (радиосводки Ю.Б. Левитана); • прочитанное; • диалоги.
Частотный словарь словоформ русской спонтанной речи потом [patu+m] 3 потом [pato+m] 8 потом [p*tu+] 1
Граница между словами в корпусе устных текстов «Составные слова» = «сочетания эквивалентные слову» потому_что как_бы то_есть … и др. Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, 2004. С. 17–18. Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, 2008. 204 с.
Граница между словами в корпусе устных текстов то_есть[tQs’ / tısj] потому_что [gua+S / guáʃ]
Граница между словами в корпусе устных текстов человека_общаться [C*lE+kap$a+c* / ʨəlɛ+kapɕa+ʦə] Стяжение – слияние двух смежных звуков, приводящее к возникновению одного. театр [t’&tr / tʲætr] ему_уже [Qimu+Z / ɨmu+ʒ] дети_оттуда [d’Et’&tuda / dʲε+tʲætuda] при своём_мнении [pr* sa+emn’E+n’i / prə sa+emnʲɛ+nʲi]
Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло
Спектрограмма стяжения щи_ото[$&ta / ɕʲæta](из словосочетания вещи_отождествлять [v'E+$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ]) стяжение
Стяжения гласных и согласных в Корпусе русских спонтанных текстов
Стяжения в спонтанной и прочитанной речи
Три вида единиц: • отдельные словоформы (я, четыре и т.д); • составные слова (то_есть, всё_равно и др.); • словоформы, подвергшиеся стяжению (что_он[Ston / ʃton], дайте_им [da+et’im / dáetjim] и др.)
Перспективы • верификация созданной транскрипции; • дальнейшая фонетическая расшифровка записей; • пополнение общего объема корпуса, в том числе за счет привлечения записей подготовленной русской речи (дикторской речи, прочитанных текстов); • разработка более совершенной системы поиска.