Поиск неестественных текстов

Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL’2009

Постановка задачи Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.

Машинная модификация документа • текст является результатом работы синонимайзера или иной системы уникализацииконтента; • текст является результатом перевода с иностранного языка на русский.

Пример работы синонимайзера Фраза Однако потом пришла перестройка, а за ней – капитализм. превращается в Однако далее пришла переделывание, а после ней – господин купон.

Функция Cor Пусть Aи B – пара слов русского языка. P(AB) – частота пары слов ABв русском языке, P(A)и P(B) – частоты слов Aи Bсоответственно. Рассматриваются лишь 2000 самых частых слов. Число Cor(A,B) измеряетхарактерность парыAB для языка.

Распределение пар по Cor Четырестолбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами.

Методы решения исходной задачи Сравнение с данными из заведомо хороших текстов. 2. Машинное обучение с использованием гистограммы текста по Corв качестве источника факторов.

Сравнение с заведомо хорошими текстами Пусть N(T) – число редких пар в T. Для машинно сгенерированных или модифицированных текстов N(T)больше, чем для нормальных текстов примерно той же длины.

Статистика P(T) M(T) – среднее число редких пар в 10 ближайших к Tподлине текстах T0, …, T9из выборки хороших документов; D(T) – дисперсия, соответствующаявыборкечисел N(T0),…,N(T9).

Параметры длины 10 близких к Tтекстоввыбираются в трехмерном пространстве параметров (L1, L2, L3)с евклидовой метрикой, где L1– число всех пар слов в T, L2– число пар слов из 10000 самых частых слов русского языка, L3– число пар слов из 2000 самых частых слов русского языка.

Результаты – 1 • P(T) было вычислено для: • 41298 текстов из базы ruscorpora, • 165 неестественных текстов. Критерий: P(T)≥3.0. • Результаты: • точность – 97.7%, • полнота – 41.5%.

Машинное обучение • Алгоритм: Gradient Boosting Machine (TreeNet); • Обучающая выборка: 2000 оригинальных и 250 неестественных текстов; • Тестовая выборка: 500 оригинальных и 245 неестественных текстов.

Результаты – 2 • точность – 99.00% • полнота – 77.95% • точность – 95.00% • полнота – 90.61%

Сравнение с известными подходами • Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly “Detecting spam web pages through content analysis” • точность – 99.00% • полнота – 90.61% • точность – 95.00% • полнота – 96.73%

Совместные результаты • точность – 99.00% • полнота – 93.06% • точность – 95.00% • полнота – 97.95% При ошибке в 1% ловится около четверти оставшегося спама

Спасибо!

Поиск неестественных текстов

Поиск неестественных текстов

Presentation Transcript

Поиск ошибок в многопоточном приложении (на примере Thread Checker )

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Географический поиск в информационных системах с использованием ретроспективного тезауруса

Эргономичный интерфейс Эффективный поиск Удобная работа с результатами поиска

Поиск эффективных форм привлечения абитуриентов

Информационный поиск с использованием татарской морфологии

Поиск информации в Интернет

Учебно-исследовательская конференция «Творческий поиск молодых в науке и практике»

Извлечение метаинформации и библиографических ссылок из текстов русскоязычных научных статей

Варианты классификациии

Отраслевая база знаний «ВикиПро» – Бережливый поиск справочной информации

Работа с текстовой информацией

Поиск диссертационных работ

Окружная научно-практическая конференция секция «Английский язык»

ПОИСК ИЛЛЮСТРИРОВАННОГО СПИСКА ЗАПАСНЫХ ЧАСТЕЙ ( IPL ) В ИНТЕРНЕТЕ

Поиск эффективных каналов продаж. Корпоративные и частные клиенты - плюсы и минусы.

I Международная научно-практическая конференция «Поиск»

Национальный цифровой ресурс «Руконт»

Доступность фондов РНБ: поиск новых путей

Алгоритмы планирования перемещения на плоскости

Поиск диссертационных работ