1 / 18

Как мы побеждаем вьетнамскую лингвистику

Как мы побеждаем вьетнамскую лингвистику. WADA.vn : ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА . WADA.vn b. Бета - версия запущена в октябре 2011. Боевая версия — в год золотого дракона :) Весь «Вьетнет»: зона .vn , + вьетнамоязычные сайты в других зонах , + про Вьетнам

chavez
Download Presentation

Как мы побеждаем вьетнамскую лингвистику

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Как мы побеждаем вьетнамскую лингвистику WADA.vn:ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА

  2. WADA.vnb • Бета-версия запущена в октябре 2011.Боевая версия — в год золотого дракона :) • Весь «Вьетнет»: зона .vn, + вьетнамоязычные сайты в других зонах, + про Вьетнам • 200 тысяч сайтов, 350 млн документов, 36 Тб • Один конкурент (но очень большой) + Itim.vn (Нигма) – пока не опубликован+ кладбище вьетнамских поисковиков • Весной Google искал очень плохо.Мы лучше, чем он тогда, но пока хуже, чем он сейчас

  3. Вьетнамский язык: графика • Латинский алфавит:создан в XVII веке о. Александром де Род (Alexandre de Rhodes, вьет. A-Lịch-Sơn Đắc-Lộ);до того были иероглифы • Жесткая структура слога: truyền(tr-u-yề-n)используется системой ввода Telex • 6 тонов: a à ả ã á ạ • «Двуслойная» диакритика: ặ ễ ử

  4. Кодировка и нормализация • К счастью, почти только UTF-8 • Может собираться по частям:ẩ = â + ’ = a + ^ + ’ • Место тона – жесткие правила, + кое-где «старый» и «новый» стиль hủy/ huỷ • Орфографическая вариативность: bác sĩ / bác sỹ

  5. Восстановление диакритики • Бывают запросы без тонов (текстов без тонов мало) • Веб-мастера даже добавляют ключевые слова без тонов (иногда прямо в <title>):Recruitment - tuyen dung - tuyển dụng- viec lam, việc làm lao dong, lao động việt nam • Запросы без тонов предварительно восстанавливаются; искать «пониженные» варианты мало смысла • Восстановление тонов – статистика с небольшой примесью словарей • Проблемы в основном на стыке с английским: ấn độ

  6. Ошибки восстановления диакритики

  7. Вьетнамский язык: слоговой • ~ 8000 слогов, из них ~ 3000 только в составных словах • Огромная омонимия • Большинство слов составные • Вместо проблемы отождествления слов – проблема деления на слова • «Развалившиеся» слова – провал поиска • Пока выделяем слова в запросах

  8. Словарик nhà – дом máy – механизм, машина xe – повозка, транспорт nước – вода, страна đất – земля trà – чай lá – лист(ья) thuốc – яд, лекарство mua – покупать bán – продавать bay – летать hút – вдыхать ôm – обнимать Что это значит? lá trà – ? tràlá – ? nước trà – ? nhà trà – ? máy bay – ? nhà máy – ? nhà thuốc – ? nhà nước – ? đất nước – ? mua bán – ? bán nước – ? xe máy – ? xe ôm – ? hút thuốc – ? Немного примеров

  9. Еще примеры... Словарик máy – механизм, машина xe – повозка, транспорт thuốc – яд, лекарство ôm – обнимать hút – вдыхать Что это значит? xe máy – мотоцикл, устар. велосипед xe ôm – см. фото hút thuốc – ?

  10. И еще... Словарик thuốc – яд, лекарство hút – вдыхать Что это значит? hút thuốc – см. фото

  11. Конфликты • nước trà – чайbán nước – предатель (Родины)bán nước trà– ? • Слова могут вкладываться и пересекаться • Если в словаре есть АВ и ВС, а в тексте АВС, то, скорее всего, в этом тексте нет хотя бы одного из слов АВ и ВС

  12. Разрешение конфликтов • Вложенияcông tác / đổ bê tông • Максимальное покрытие1000 /năm /thăng long /hà nội • «Связанные» слогиlong • «Слабые» словаbán nước • «Префиксы» и «суффиксы»121 /năm /(ngày (sinh nhật))/hồ chí minh

  13. Синонимия • Сокращения • thành phố Hồ Chí Minh = TP Hồ Chí Minh = TP.HCM • сông ty cổ phần = сông ty cp = ctcp = cty cp = ct cp = cty cổ phần • Орфографические варианты • «Переводы» • Sài Gòn = Saigon • TP.HCM = HCMC • Заимствования

  14. Mát-xcơ-va Mat-xcơ-va Mátxcơva Matxcơva Matxcova Mat-xờ-cơ-va Mát-xờ-cơ-va Mat-x-cơ-va Mát-x-cơ-va Matxcva Mát-scơ-va Mátcơva Moskva Moscova Mạc Tư Khoa Moscow Moscou Заимствования: большая вариативность

  15. Словари • Составные слова • Коллокации («выражения»)máy tính điện tử - электронно-вычислительная машина • «Префиксные» и «постфиксные выражения»chim gà lôi – фазан, cây tre –бамбук, con cá – рыба(con cá sấu – крокодил) • Стоп-слова • «Префиксы» и «постфиксы» (в основном грамматика):cái, các (ô tô) • Связанные слоги • Словарь разрешения конфликтовbãi đậu xe buýt = [bãi đậu {xe}] [xe buýt] • Словари синонимов (заимствования, сокращения, ...) • Словари преобразования запросов • ...и др.

  16. Источники словарей • Толковый словарь VietLex (44000 слов) • Вьетнамско-английские словари (70 тыс. слов, 126 тыс. слов) • Специальные словари, словарь новых слов • География, имена (из разных источников) • Википедия • Статистика устойчивости словосочетаний • Разбор конфликтов, ...

  17. Что еще • Исправление опечаток • «Префиксы» и «суффиксы» запросов:cách sử dụng ... –способы использования... nghĩa là gì – что означает • Деление доменных имен на слова (с повышением тонов):http://thutuchanhchinh.vn = Thủ tục hành chính.vn • Отбор навигационных запросов • Варианты навигационных запросов • ...и др.

  18. СПАСИБО! Михаил Волович Руководитель лингвистического отдела mv@ashmanov.com Вьетнамский поиск (beta) www.wada.vn Информация о компании, услугах и технологиях www.ashmanov.com Анализаторы качества поиска www.analyzethis.ru

More Related