1 / 32

Корпус спонтанной компьютерно-опосредованной коммуникации:

Корпус спонтанной компьютерно-опосредованной коммуникации:. цель, принципы и методы формирования и разметки. Евгений Чухарев, РГПУ им. А. И. Герцена chukharev@gmail.com. План доклада. Определения Актуальность лингвистического исследования Обеспечение понимания

paniz
Download Presentation

Корпус спонтанной компьютерно-опосредованной коммуникации:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Корпус спонтанной компьютерно-опосредованнойкоммуникации: цель, принципы и методы формирования и разметки Евгений Чухарев, РГПУ им. А. И. Герцена chukharev@gmail.com

  2. План доклада • Определения • Актуальность лингвистического исследования • Обеспечение понимания • Корпус как инструмент верификации гипотез • Контроль надёжности

  3. Спонтанность • порождение речи: • латентный процесс (семиозис) – конструирование знаков • объективация • спонтанная письменная коммуникация продуктивна в квазисинхронных условиях

  4. Компьютерно-опосредованная коммуникация • Алфавитно-цифровой канал связи • Объективация высказываний путём набора на клавиатуре • Считывание сообщений с экрана монитора • Технологический субстрат – взаимосвязь открытых систем

  5. Синхронность • котемпоральность (cotemporality): задержка в канале связи субъективно мала • одновременность (simultaneity): дуплекс канала связи, одновременный приём и передача сигнала • квазисинхронность = котемпоральность – одновременность

  6. Чат • Многокомнатные многопользовательские чаты • Системы мгновенного обмена сообщениями (Instant Messengers) • Многопользовательские ролевые игры (MUD)

  7. Актуальность лингвистического исследования • Изучение характера речемыслительной деятельности по косвенным объективирующим показателям спонтанности • Фиксация в корпусе всей информации, которая передаётся в ходе коммуникации • Представление в форме, удобной для автоматической обработки

  8. Обеспечение понимания • Зашумлённость на графематическом, морфологическом и синтаксическом уровнях • Широкий диапазон синтаксического варьирования при сохранении семантики (О.А.Лаптева) • Базовая синтаксическая единица – клауза (А.А.Кибрик)

  9. Предикатное выражение • Языковая реализация пропозиции Примеры: • Инженеры выполняют работы по проведению эксплуатации системы • А я стою на тебя смотрю

  10. Значение vs. смысл • Смысл – информация (мыслительное содержание), передаваемая от отправителя получателю в ходе коммуникации Пример: • Только Иван успешно сдал экзамен

  11. «Здесь продаётся славянский шкаф»

  12. Значение vs. смысл • Ну, ты что? • Да я вот, тут… • А, ну ладно…

  13. www.justchat.ru

  14. Что? Где? Когда? • команды соревнуются в умении находить правильный ответ на поставленный перед ними вопрос в ограниченное время • игры проводятся в чате, без личного контакта игроков • время на обсуждение вопроса составляет четыре минуты, предупредительный сигнал подаётся за 30 секунд до окончания отведённого времени • количество игроков в команде не регламентируется

  15. Корпус протоколов чата • 11518реплик (сообщений) • 50027 словоупотреблений (с/у) • ~14176 русских словоформ (с/ф) • 42 продуцента всего • 36 продуцентов (испытуемых) • с количеством реплик 10 • кроме исследователей

  16. Распределение реплик по испытуемым

  17. Виды разметки корпуса • токенизация(автоматически) • орфографическая нормализация (вручную) • морфологический анализ (автоматически) • выделение предикатных выражений(вручную)

  18. Типы токенов • словоупотребление (W или L) • привет, кто-нибудь, д’Артаньян • пунктуатор (P) • цифровой комплекс (D) • 25, 10.02.21, 555-12-34 • электронный адрес(E) • ник одного из участников чата (A) • эмотикон(S)

  19. Комбинированные типы • WL (Windows’ный) • WD(17й, 40-летний) • *LD (17-th) • *WLD • PS – непарная круглая скобка: Привет)

  20. Орфографическая нормализация • нормативность определяется на основании собственной языковой интуиции и словарей • при отсутствии слова в словарях коррекция осуществляется по принципу аналогии (чегэкашник ~ кагэбэшник) • разделение нескольких нормативных слов, ошибочно объединённых в одно словоупотребление (незнаю; миру-мир) • объединение последовательности из нескольких токенов в одно словоупотребление (не навижу; кто - нибудь)

  21. Орфографическая нормализация • все аббревиатуры и сокращения, кроме собственных имён (МГУ, ЧГК, ЖЖ, А.С.Пушкин), разворачиваются в соответствии с контекстом • иноязычные слова, в том числе сокращения, не корректируются и не переводятся на русский язык • междометия не подвергаются орфографической коррекции, однако особым образом помечаются для дальнейшего анализа • нормализуются иноязычные собственные имена (в том числе аббревиатуры), официально употребляемые в латинской графике

  22. Орфографическая нормализация • в откорректированном варианте регистр букв выбирается согласно правилам для середины предложения • если единственным отклонением от нормы в исходном слове является употребление регистра, то оно не подлежит коррекции в случаях, когда заглавными является либо только первая буква (Молоток), либо все буквы слова (СТОЛ) • при наличии нескольких вариантов коррекции выбирается наиболее близкий корректируемому слову

  23. Орфографическая нормализация

  24. Выделение ПВ

  25. Лингвистические решения • алгоритмические (принимаются лингвистическим автоматом по формализованным правилам) • экспертные (вручную, на основании собственной языковой интуиции эксперта) – необходимо обеспечить достоверность

  26. Коэффициент надёжности – Reliability Index • инвариантен к количеству экспертов • основан на действительном распределении объектов по категориям • задаётся на численной шкале с двумя опорными точками • учитывает математическую природу параметра • характеризуется известным или по крайней мере вычислимым распределением

  27. Коэффициенты надёжности • процент согласия • Bennet et al.’s S • Scott’s  • Cohen’s  • Fleiss’s K • Cronbach’s C • Krippendorff’s 

  28. Альфа Криппендорфа

  29. Интерпретация надёжности

  30. Надёжность разметки предикатных выражений

  31. Выводы • Выделение предикатных выражений в корпусе чата оказывается очень надёжным. • Реальность порождения спонтанной речи семантическими «порциями» – предикатными выражениями – может быть верифицирована психолингвистически. • В чате широко используются механизмы смыслопорождения, повышающие эффективность коммуникации.

  32. Спасибо!

More Related