1 / 16

Поиск неестественных текстов

Поиск неестественных текстов. Е.А.Гречников , Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский. Яндекс , Лаборатория комбинаторных и вероятностных методов. RCDL’2009. Постановка задачи.

ila-pate
Download Presentation

Поиск неестественных текстов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL’2009

  2. Постановка задачи Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.

  3. Машинная модификация документа • текст является результатом работы синонимайзера или иной системы уникализацииконтента; • текст является результатом перевода с иностранного языка на русский.

  4. Пример работы синонимайзера Фраза Однако потом пришла перестройка, а за ней – капитализм. превращается в Однако далее пришла переделывание, а после ней – господин купон.

  5. Функция Cor Пусть Aи B – пара слов русского языка. P(AB) – частота пары слов ABв русском языке, P(A)и P(B) – частоты слов Aи Bсоответственно. Рассматриваются лишь 2000 самых частых слов. Число Cor(A,B) измеряетхарактерность парыAB для языка.

  6. Распределение пар по Cor Четырестолбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами.

  7. Методы решения исходной задачи Сравнение с данными из заведомо хороших текстов. 2. Машинное обучение с использованием гистограммы текста по Corв качестве источника факторов.

  8. Сравнение с заведомо хорошими текстами Пусть N(T) – число редких пар в T. Для машинно сгенерированных или модифицированных текстов N(T)больше, чем для нормальных текстов примерно той же длины.

  9. Статистика P(T) M(T) – среднее число редких пар в 10 ближайших к Tподлине текстах T0, …, T9из выборки хороших документов; D(T) – дисперсия, соответствующаявыборкечисел N(T0),…,N(T9).

  10. Параметры длины 10 близких к Tтекстоввыбираются в трехмерном пространстве параметров (L1, L2, L3)с евклидовой метрикой, где L1– число всех пар слов в T, L2– число пар слов из 10000 самых частых слов русского языка, L3– число пар слов из 2000 самых частых слов русского языка.

  11. Результаты – 1 • P(T) было вычислено для: • 41298 текстов из базы ruscorpora, • 165 неестественных текстов. Критерий: P(T)≥3.0. • Результаты: • точность – 97.7%, • полнота – 41.5%.

  12. Машинное обучение • Алгоритм: Gradient Boosting Machine (TreeNet); • Обучающая выборка: 2000 оригинальных и 250 неестественных текстов; • Тестовая выборка: 500 оригинальных и 245 неестественных текстов.

  13. Результаты – 2 • точность – 99.00% • полнота – 77.95% • точность – 95.00% • полнота – 90.61%

  14. Сравнение с известными подходами • Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly “Detecting spam web pages through content analysis” • точность – 99.00% • полнота – 90.61% • точность – 95.00% • полнота – 96.73%

  15. Совместные результаты • точность – 99.00% • полнота – 93.06% • точность – 95.00% • полнота – 97.95% При ошибке в 1% ловится около четверти оставшегося спама

  16. Спасибо!

More Related