1 / 8

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет. Особенности китайского языка. Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于 2 公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落 。.

Download Presentation

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет

  2. Особенности китайского языка • Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于2公斤TNT,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落。

  3. Особенности китайского языка 2. Невозможность однозначной сегментации текста на слова. • [1a] da-xue | sheng-huo | hen | you-qu • университет | жизнь | очень | интересная • Университетская жизнь очень интаересна. • [1b] da-xue-sheng | huo | bu | xia-qu | le • студент | жить | не | далее | (фразовая частица) • Студенты больше не могут жить. • [2a] ge-ren| de | li-liang • отдельный человек | DE (атр.) | сила • сила одного человека • [2b] san | ge | ren |de | li-liang • три | сч. частица | человек | DE (атр.) | сила • сила трёх человек • (примеры взяты из «On Chinese parsing without using a separate word segmenter» Wei Li.)

  4. Особенности китайского языка 3. Несловарная лексика. 哭跑 (孩子哭跑了客人。) kupao («плакать» + «бежать») |haizi |kupao |le |keren. |ребёнок |так плакал, что разбежались | ПСВ | гости (пример взят из Антонян К.В. «Единицы словаря и единицы текста в современном китайском языке»)

  5. Особенности китайского языка 4. Глагольно-объектные конструкции. • 1.睡觉 shuijiao («спать»), букв.: «спать + сон», (в словарях зафиксировано как слово); • 2.(觉)睡得很好(jiao) shuide henhao, букв.: (сон) спать+показатель наречия) + очень хорошо. • 3. 睡了三个小时的觉 shuile sange xiaoshide jiao («спал три часа»), букв.: «спать+ПСВ +три часа+DE (атр.) сон»); • 4. 睡懒觉 shui lanjiao («валяться в постели»), букв.: «спать ленивыйсон»;

  6. Особенности китайского языка • Имена собственные (десемантизация знака) 普京pujing Путин («везде» + «столица») 马来西亚 malaixiya – Малазия («лошадь»+«приходить»+«запад»+«азия»)

  7. Базовые единицы китайского языка • ЦЗЫ (логограмма, слогомофема) • ЦЗЫЦЗУ (сочетание ЦЗЫ, слогоморфемная ситнагма) • «Слово – лишь частный, к тому же не самый распространённый, случай слогоморфемной синтагмы» (В.Б.Касевич. «Семантика. Синтаксис. Морфология»)

  8. Предлагаемые решения • Для анализа крупных массивов информации за базовую единицу анализа можно взять ЦЗЫ. • Для лексико-синтаксического анализа (parsing) за основу также берётся ЦЗЫ, на основе анализа которых возможно выделение ЦЗЫЦЗУ (On Chinese parsing without using a separate word segmenter» Wei Li.)

More Related