0 likes | 6 Views
Explore the world of Linguistic Information Resources (LIR) through the lens of renowned expert A.B. Antopolsky from INION RAN. Discover the importance of organized language data in digital form, the various tasks and technologies within LIR, and the evolving landscape in linguistic and AI domains. Uncover the significance of language resources, including lexicons, corpora, and metadata, and delve into specialized and thematic LIR types.
E N D
Лингвистические информационные ресурсы: что, где, зачем А.Б.Антопольский Д.т.н. профессор ИНИОН РАН
О чем лекция? • • как устроено информационное пространство ЛИР; какие организации этим занимаются, какие проекты они реализуют; какие технологические решения предлагаются в настоящее время; какие основные ресурсы создаются в каждой категории ЛИР; какое место в корпоративном сообществе и общем информационном пространстве занимают российские лингвисты и российские ЛИР; каковы тенденции развития ЛИР • • • •
Определение и сфера применения . Зачем? Организованные языковые данные в цифровой форме (ЛИР) •Общие задачи •Задачи в сфере информационных технологий и искусственного интеллекта
Общие задачи ЛИР • • • • терминологическая деятельность; переводческая деятельность; редакторская деятельность; контролируемая коммуникация с использованием ограниченного естественного языка; изучение и преподавании родного и иностранных и неродных языков; сохранение исчезающих и находящихся в опасности языков; проведение языковой политики при взаимодействии языков коммуникации для людей с ограниченными возможностями • • • •
Задачи ЛИР в сфере информационных технологий и искусственного интеллекта • • машинный перевод; речевые технологии (в частности, автоматический анализ и синтез устной речи); голосовое общение с системами искусственного интеллекта (ИИ); лингвистическое обеспечение информационного поиска; автоматическое извлечение данных (Data Mining); автоматическое реферирование текстов; создание электронных лексикографических ресурсов; корпусная лингвистика (создание и использование электронных корпусов текстов); • • • • • •
Типология ЛИР: узкий и широкий подход, специальные (языковые) и тематические ЛИР Специальные (по LLOD) • o корпуса • o лексиконы и словари • o терминологические ЛИР, тезаурусы, базы знаний • o метаданные ЛИР • o категории лингвистических данных • o типологические базы данных • o другие
Специальные ЛИР по Википедии 1. • • Данные лексические ресурсы, например, машиночитаемые словари; лингвистические корпуса, т.е. цифровые коллекции данных на естественном языке; лингвистические базы данных, такие как коллекция кросс-лингвистических связанных данных. Инструменты лингвистические аннотации и инструменты для создания таких аннотаций приложения для поиска и извлечения ЛИР Метаданные и словари словари, репозитории лингвистической терминологии и языковых метаданных • 2. • • 3. •
Тематические ЛИР по Linguist LIST • • • • • • • • • люди и организации вакансии конференции и другие мероприятия публикации языковые ресурсы словари языки области лингвистики лингвистические компьютерные средства
Тематические ЛИР по Метаиндексу Стэнфорда • • • • • • • • • • лингвистические теории и области списки конференций по лингвистике лингвистические журналы и другие материалы в Интернете онлайн-журналы открытого доступа онлайн-библиографии лингвистические общества грамматики и словари избранные языки кафедры и программы компьютерной лингвистики компании
Навигатор по языкознанию ИНИОН: общая часть • лингвистические ресурсы • Персональные ресурсы • периодика • библиографии • мероприятия • неопубликованные материалы • медиаресурсы • прочие интернет-ресурсы • • • • • библиотеки архивы музеи каталоги электронные коллекции и библиотеки информационные системы справочники, энциклопедии • •
Навигатор по языкознанию ИНИОН специальная часть • корпуса текстов • словарные БД и электронные картотеки • лингвистические процессоры • грамматические ресурсы • описания языков, реестры языков • лингвистические атласы • этно- и социолингвистические БД • комплексные лингвистические АИС (сайты) • информационные языки
Мировые собрания ЛИР • Сообщество открытых языковых архивов OLAC -450 тыс. ЛИР • Справочная система для поиска информации об языковых ресурсах Linghub - 100 тыс. ЛИР • Каталог Консорциума лингвистических данных LDC -900 ЛИР • Архив языков и культуры SIL - онлайн 48 тыс. ЛИР • Архив исчезающих языков ELAR - 450 языков • Проект архивирования лингвистических данных LACITO
Европейские собрания ЛИР • Европейская координация языковых ресурсов ELRC • Виртуальная языковая обсерватория (VLO) CLARIN - 1,2 млн зап. • Языковой архив The Language Archive (TLA) -150 тыс. ЛИР • Европейская ассоциация языковых ресурсов ELRA META-SHARE Catalogue of Language Resources // ELRA Карта LRE Universal Catalogue // ELRA • Оксфордский текстовый архив ОТА - 64 тыс. ЛИР • Центр лингвистических исследований LINDAT/CLARIN • Многоязычные текстовые инструменты и корпуса для языков Центральной и Восточной Европы MULTEXT-East • Российский архив уральских и алтайских языков на платформе ЛингвоДок
Международные институции в области ЛИР • Профессиональные ассоциации по компьютерной и прикладной лингвистике • Консорциумы • Организации по защите и сохранению исчезающих языков • Организации по терминологической и переводческой деятельности • Организации по цифровой гуманитаристике Всего в монографии 70 международных организаций
Общеевропейская исследовательская инфраструктура для языковых ресурсов и технологий CLARIN • Участники Национальные Консорциумы. Центры знаний CLARIN (К-центры) • Сервисы Депозитные услуги. Виртуальная языковая обсерватория (VLO). Легкий доступ к защищенным ресурсам. Коммутатор языковых ресурсов. Виртуальные коллекции. Реестр.. Инвентаризация ЛИР. Федеративный поиск. CLARIN для исследователей Ресурсные семьи. Реестр курсов по цифровой гуманитаристике. Мероприятия. CLARIN ежегодно проводит 12 конференций, семинаров и др
Другие европейские организации и проекты (8 из 16) • Европейская ассоциация лингвистических ресурсов ELRA • Трансевропейская инфраструктура лингвистических ресурсов TELRI • Сеть содействия языковым ресурсам FLaReNet • Европейская координация языковых ресурсов ELRC • Европейская Языковая Сеть ELG • Цифровая исследовательская инфраструктура для искусств и гуманитарных наук DARIAH • Европейская сеть лингвистических данных, ориентированная на Интернет, NexusLinguarum • Сеть передового опыта META-NET
Комитет ISO «Язык и терминология» (ISO/TК 37). • ПК1 Принципы и методы • ПК2 Рабочий процесс терминологии и языковое кодирование • ПК3 Управление терминологическими ресурсами • ПК4 Управление языковыми ресурсами • ПК5 Письменный, устный перевод и сопутствующие технологии Всего в ТК 37 разработано и действует 70 стандартов, и еще 31 находится в стадии разработки В России аналогичные функции выполняет Технический комитет по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле».
Другие институции связанные со стандартизацией ЛИР • Консорциум Всемирной сети W3C • Комитет ISO ISO/TК 45 «Информация и документация» • Инициатива по кодированию текстов TEI • Международные стандарты для языковых технологий ISLE • Инициатива по метаданным Дублинского ядра DCMI • Сообщество общей онтологии для лингвистических описаний GOLD • Международная федерация библиотечных ассоциаций и учреждений IFLA • Ассоциация отраслевых стандартов локализации LISA • Сообщество открытых языковых архивов OLAC • Организация по развитию стандартов структурированной информации OASIS
Тематика стандартизации ЛИР Разметка Знаковый уровень oязык разметки oязык ограничений oсегментация oкодировка символов oтранскрипция Метаинформация Лингвистическое аннотирование oметаязык oметаданные oкатегоризация данных oсхема oобщая аннотация корпуса oморфосинтаксическая аннотация oсинтаксическая аннотация oсемантическая аннотация oаннотация многоязычных данных Представление данных oформаты файлов oформатирование oпредставление знаний oсериализация oструктура функций oязык запросов oтрансформация Лексиконы oконтролируемый словарь oлексические знания oтерминология oтезаурус oонтология
Метаданные ЛИР: основные модели • Проект метаданных IMDI • Метаданные OLAC • Метамодель META-SHARE • Международный стандартный номер ЛИР (ISLRN) • Карта LRE • Инфраструктура компонентов метаданных (CMDI) CLARIN • ISO 24622 Управление языковыми ресурсами – Инфраструктура метаданных компонентов (CMDI). : ISO 24622–1:2015 Часть 1: Модель метаданных компонентов [20] ISO 24622–2:2019 Часть 2: Язык спецификации метаданных компонентов
Реестр категорий данных для ЛИР • Реестр категорий лингвистических данных (DCR) под эгидой ISO TC37 был создан в 2008 году в Институте психолингвистики Общества Макса Планка (MPI) в Неймегене, Нидерланды, под названием ISOcat • Репозиторий категорий данных (DCR), заменивший ISOcat • Новый реестр CLARIN Concept Registry (CCR) • Словарь лингвистических метаданных (LIME) - модуль пакета словарей OntoLex для определения интерфейсов онтологий и лексиконов
Исследование лексики метаданных российских ЛИР • ОПТЕЛ – онтология поисковых терминов по лингвистике • Реализованная версия ОПТЕЛ включает 55 словарей, использованных в 28 российских ЛИР разных типов. Всего в ОПТЕЛ представлено свыше 430 тыс. уникальных лексических единиц • Парадигматика словаре ОПТЕЛ приведена к тезаурусной форме • Исследование пересечений лексики и отдельно пересечения парадигматики
Лингвистическое аннотирование Лингвистическая аннотация, также известная как корпусная аннотация, представляет собой маркировку языковых данных в текстовой или устной форме. Лингвистическая аннотация направлена на выявление и маркировку грамматических, фонетических и семантических лингвистических элементов в тексте или аудиозаписи . Лингвистическая аннотация охватывает любые описательные или аналитические обозначения, применяемые к необработанным языковым данным. Данные могут быть динамическими, в виде временных рядов – аудио-, видео- и / либо физиологических записей, или текстовыми. Добавленные обозначения могут включать в себя транскрипции всех видов (от фонетических признаков до дискурсивных структур), метку части речи и смысла, синтаксический анализ, идентификацию «именованной сущности», аннотацию со ссылкой и т.д.
Типы лингвистических аннотаций • частеречная маркировка речи (или POS-маркировка) • фонетическая аннотация – добавление информации о том, как было произнесено слово в устном корпусе; • просодическая аннотация – также в устном корпусе – добавление информации о просодических особенностях, таких как ударение, интонация и паузы; • синтаксическая аннотация – добавление информации о том, как разбирается данное предложение с точки зрения синтаксического анализа в такие единицы, как фразы и предложения; • семантическая аннотация – добавление информации о семантической категории слов или для различения многозначности; • прагматическая аннотация – добавление информации о видах речевого акта (или акта диалога), которые происходят в устном диалоге; • дискурсивная аннотация – добавление информации об анафорических связях в тексте; • стилистическая аннотация – добавление информации о представлении речи и мысли (прямая речь, косвенная речь, свободная косвенная мысль и т.д.); • лексическая аннотация – добавление лексемы к каждой словоформе в тексте.
Языковая документация (документальная лингвистика) • Подраздел лингвистики, целью которого является описание грамматик и использования человеческих языков. • Языковая документация может варьироваться от индивидуальных лингвистических антропологических полевых исследований до создания обширных онлайн-архивов, содержащих десятки разных языков • Принципы и рабочие процессы – характеристика условий, устройств и проч. • Форматы данных
Международные проекты языковой документации • Сеть архивов цифровых языков и музыки, находящихся под угрозой исчезновения DELAMAN • Электронная метаструктура для данных по исчезающим языкам E-MELD • Документирование языков, находящихся под угрозой исчезновения DOBES • Сохранение и ревитализация языков FirstVoices • Проект «Языки под угрозой исчезновения» ELP • Формат данных для цифровой лингвистики DaFoDiL • Архив исчезающих языков ELAR • Архив языков коренных народов Латинской Америки AILLA • Тихоокеанский и региональный архив цифровых источников культур, находящихся под угрозой исчезновения, PARADISEC • Рекомендации библиотеки Йельского университета • Языковая документация и ресурсы для ревитализации языков Living Languages
Российские проекты языковой документации • Платформа ЛингвоДок - аудиословари и корпуса более чем на 900 исчезающих диалектах уральских и алтайских языков России • Тематическая сеть языковой документации и языковых технологий для приполярного региона • Проект «Малые языки России» • Список исчезающих языков в России ЮНЕСКО • Интерактивная карта «Полшага до немоты»
Мировые каталоги лингвистических программ • Исследовательские инструменты анализа текстов TAPoR 3.0 • Обработка естественного языка на GitHub • Каталог LINGUIST List • Каталог SIL International • Аннотированный список ресурсов Стэнфордского университета • Универсальный каталог лингвистического и переводческого программного обеспечения LINGTRANSOFT.INFO • Каталог инструментов для корпусной лингвистики М. Барбера • Набор инструментов для лингвистических исследований • Перечень программ для обработки лингвистических текстов, сформированных с использованием TeX/LaTeX
Европейские каталоги ПО • Обзоры лингвистических программ CLARIN • Карта LRE • ELRC-SHARE Repository • Языковые инструменты и ресурсы для польского языка
Российские каталоги лингвистического ПО • Портал знаний по компьютерной лингвистике • NLPub – каталог ресурсов для обработки естественного языка • Каталог лингвистических программ и ресурсов в Cети • Продукты Центра речевых технологий
Библиотеки лингвистических программ • Открытая библиотека ПО для NLP на Python spaCy • Общая архитектура обработки текстов GATE • База данных для полевой лингвистики FieldDB • Цифровая лингвистика DLx • Библиотека Python для исторической лингвистики LingPy • Библиотека программ OpenCCG • СТАРЛИНГ
Основные типы лингвистического ПО (по карте LRE) • Таггер / Парсер (400) • Инструмент аннотации (245) • Корпус Инструмент (83) • Распознаватель именованных объектов (60) • Инструмент машинного перевода (51) • Программный инструментарий (41) • Токенизатор (35) • Инструмент машинного обучения (32) • Инструмент моделирования языков (29) • Определитель смысла слов (17) • Распознаватель речи / Транскриптор (14) • Обработка сигналов / Извлечение признаков (14) • Веб-сервис (9) • Преобразование текста в речь (9) • Идентификатор языка (6) • Определитель говорящего (4) • Инструмент сентимент-анализа (4) • Просодический анализатор (3) • Анализатор изображений (3) • Инструмент устного диалога (1)
Российские разработчики лингвистического ПО (топ 12) • Яндекс • ABBYY • Лаборатория информационных исследований • Лингвистические платформы ИСП РАН • Центр речевых технологий • Институт прикладной семиотики АН РТ • PROMT • Информатик • Школа лингвистики ВШЭ • Кафедра математической лингвистики СПбГУ • Лаборатория компьютерной лингвистики ИППИ РАН • Цифровая документация русского языка ИППИ РАН
Текстовые корпуса (виды по CLARIN) • интернет-корпуса (корпуса компьютерно-опосредованной коммуникации, СМС) • корпуса научных текстов • исторические корпуса • учебные корпуса второго языка • литературные корпуса • аннотированные вручную корпуса • мультимодальные корпуса • газетные корпуса • параллельные корпуса • парламентские корпуса • референтные (эталонные) корпуса • корпуса устной речи
Банки деревьев (treebanks) Корпуса с синтаксической и / или семантической разметкой, кото рая обычно имеет древовидную структуру Примеры: The Penn Treebank, Groningen Meaning Bank (GMB), Deep- sequoia В англоязычной Википедии приводится список из 300 банков деревьев
Инструментальные средства корпусной лингвистики Специализированный сайт св. 250 средств Sketch Engine - самый известный ресурс – св. 500 корпусов на 90 языках, Для русского языка предлагаются: • Извлечение русских словосочетаний • Конкордант. • Извлечение русского термина. языка. • Извлечение двуязычных терминов. • Русский тезаурус. • Списки русских слов. • N-граммы на русском языке. • Тренды – диахронический анализ
Статистика корпусов по крупнейшим архивам Название архива Количество ЛИР Количество корпусов (Primary text) Lingust list 13 200 5400 Калифорнийский языковой архив 14 959 12 648 Коллекция устных цифровых корпусов (CoCoON ex- 15 515 13 102 CRDO) Кайпулеохоне 5359 3732 Архив языков и культур SIL 30 177 1658 Проект Rosetta: библиотека долговременного хранения 6571 1322 языков человечества
Корпусная лингвистика в России • Машинный фонд русского языка • Программа Президиума РАН «Корпусная лингвистика» • Портал Лингвистические корпуса и сервисы • Национальный корпус русского языка • Общие корпуса современного русского языка • Синтаксические корпуса русского языка • Учебные корпуса русского языка • Диалектные и диахронические корпуса русского языка • Корпуса языков народов России
Национальный корпус русского языка (св. 1 млрд словоупотреблений) • Основной корпус • Газетный корпус СМИ 2000 х гг. • Газетный региональный корпус • Диалектный корпус • Обучающий корпус • Параллельный корпус • Поэтический корпус • Устный корпус • Акцентологический корпус • Мультимедийный корпус • Древнерусский • Берестяные грамоты • Старорусский • Церковнославянский
Лексические ресурсы: типы по CLARIN • Лексиконы в основном используются в NLP-приложениях • Словари в основном для использования человеком • Концептуальные ресурсы – ономасиологические ЛИР, такие как словарные сети, фреймовые сети, тезаурусы и онтологии • Глоссарии –специализированные терминологические словари, • Списки слов – алфавитные или частотные перечни
Статистика лексических ресурсов по трем крупнейшим мировым архивам Архив Всего ЛИР lexicon lexical dictionary thesaurus glossary VLO 1 204 730 3429 3699 9559 86 114 OLAC 4 063 28 12 547 4020 4150 518 233 TLA 146 648 14 937 6297 2516 35
Международное сотрудничество по электронной лексикографии • Европейская сеть электронной лексикографии (ENEL) • Европейская ассоциация лекскографии EURALEX • AFRILEX – Африканская ассоциация лексикографии • ASIALEX – Азиатская ассоциация лексикографии • AustraLex – Австралийская ассоциация лексикографии • DSNA – Словарное общество Северной Америки • NFL – Скандинавская ассоциация лексикографии • Pangaealex – Пан ейская ассоциация лексикографии • Sealex – Лексикография Юго-Восточной Азии • Электронный журнал словарей Dictionaria
Концептуальные лексико-семантические ЛИР • Princeton WordNet (PWN) - образец семантических ЛИР • FrameNet - база семантических фреймов по Филмору • Стандарт ISO 22274: 2013 Concept-related aspects for developing and internationalizing classification systems • Рекомендации Консорциума W3C Семантика и абстрактный синтаксис языка веб-онтологий OWL • проект Ontology-Lexicon
Представление электронных словарей • Инициатива текстового кодирования ТЕI • Структура лексической разметки LMF • Простая система организации знаний SKOS • Общие рекомендации Dictionaria по представлению словарей и рекомендации по передовой практике для словарных статей
Средства программной поддержки электронных словарей • Sketch Engine • Lexonomy • OneClick Dictionary (OCD • Elexifier
Словарные службы и лекскографические сайты России • Грамота. ру , • Словари , • Lingvo , • Словари Онлайн , • Лексиколог • ФЭБ • Мультитран , • Академик , • Словари. СС, • LingvoDoc, • Русский Викисловарь (WIKT) • RWN Русский Wordnet
Терминологические базы данных • ТБД – это «база данных, содержащая информацию о специальных языковых понятиях и терминах, предназначенных для представления этих понятий, а также связанную с ними концептуальную, связанную с терминами и административную информацию» -ISO 30042:2008
Европейский опыт управления терминологией • проект POINTER • TermCoord – группа по координации терминологии при Европарламенте • Центр знаний по интерпретации - координирует переводческую деятельность в структурах Еврокомиссии • База данных DG Interpretation в настоящее время содержит 1089 глоссариев, содержащих более 200 тыс. терминов. • Поисковая система Lithos
Российские ТБД • Банк данных Российская терминология (терминологические словари) Ростерм • Терминологическая база знаний «Научная терминология» (ТБЗ НТ), • Отраслевые терминологические БД ( сельское хозяйство, медицина, литература, проч.) • Номенклатуры, классификации, таксономии
Память перевода (translation memory, TM) Запись в базе данных ТМ соответствует сегменту, или «единице перевода», за которую обычно принимается одно предложение (реже – фразеологический оборот либо абзац). Популярные программные системы TM Стандарты и форматы памяти переводов