210 likes | 492 Views
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации. Михаил Киселев Megaputer Intelligence Ltd.
E N D
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил Киселев Megaputer Intelligence Ltd
Автоматическая кластеризация текстов - актуальная и до сих пор не имеющая хорошего универсального решения проблема.Основные трудности: • Неоднозначность определения смысловой близости текстов. • Часто - необходимость работать с очень высоко размерными пространствами. • Требования интерпретируемости - смысловая пометка кластеров, объяснение отнесения текста к кластеру.
Наиболее распространенный подход - метрический пространство признаков тексты кластеры
Идеи предлагаемого альтернативного подхода: • Каждый текст представляется как множество его ключевых термов (а не как точка в пространстве признаков – с одним и тем же набором признаков для всех термов) • Близость текстов вычисляется на основе попарной близости их ключевых термов • Оценка близости термов производится на основе иерархического тезауруса (онтологии)
Статистический подход к построению множества ключевых термов • Критерий – существенное превышение частоты терма в тексте над средней частотой • Дополнительное условие – никакие два ключевых терма не должны быть связаны отношением гипернимии
Мера значимости превышения частоты терма над средней: f(t) – средняя частота терма t n(t) – число термов t в тексте n – общее число термов в тексте p(t) - вероятность того, что, сделав n испытаний с априорной вероятностью успеха f(t), мы получим n(t) или более успехов
Критерий включения терма в множество ключевых термов
Средняя частота терма Частота терма в большом текстовом корпусе (по возможности – относящемся к той же тематике, что и кластеризуемый корпус), из текстов которого исключены все ключевые термы
Близость 2 термов Величина, обратная расстоянию между этими термами в графе, представляющем онтологию, + 1
Автоматическое построение иерархического тезаурусаТеоретические основы: • Распределительная гипотеза. Семантически подобные термы встречаются, как правило, в похожем лингвистическом контексте. • Частотная гипотеза. Частота встречаемости гипернимов в текстах больше, чем у любого их гипонима.
Автоматическое построение иерархического тезаурусаИсходные данные: Матрица совместной встречаемости лексем, рассчитанная на большом текстовом корпусе. Ее элементы – вероятности, что два терма будут обнаружены в N или более текстов одновременно при предположении об их независимом распределении в корпусе. Здесь N – наблюдаемое число документов, включающих оба этих терма.
Автоматическое построение иерархического тезаурусаАлгоритм: Бинарная аггломеративная кластеризация термов с мерой расстояния между термами, задаваемой матрицей совместной встречаемости лексем Пометка кластеров – узлов образующегося дерева 3мя наиболее частыми лексемами
Пример – фрагмент получившегося иерархического тезауруса
Метрические методы кластеризации, использованные для целей сравнения • MSEL – отбор размерностей, соответствующих лексемам с максимальной суммой tfidf по кластеризуемому корпусу • MLSA – отбор размерностей на основе латентного семантического анализа
Критерии сравнительной оценки • Точность кластеризации – насколько найденные кластеры соответствуют заранее заданному разбиению корпуса на смысловые категории • Интерпретируемость кластеризации – насколько понятна и адекватна смысловая пометка найденных кластеров
Точность кластеризации – мера взаимной информации Шеннона между идентификатором кластера и смысловой категорией m(i,j) - количество текстов из смыслового класса I,отнесенных к кластеру j
Текстовые корпуса, использованные для сравнения • Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим объемом 4.2 MB. 36 классов. • Корпус Wh. Та же выборка, 59 классов. • Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной Яндексом, которые содержат фамилию Столыпин. 56 текстов общим объемом 1.7МВ. 7 классов. • Корпус Qh. Тот же корпус, 12 классов. • Корпус N. Выборка текстов новостей, из архива, предоставленного компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов. • Корпус H. Заголовки новостей из того же самого архива. Общий объем – 135kB. Количество текстов – 2020. 431 класс. • Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6 разделов этой части УК. • Корпус Ch. Статьи УК, но классифицированные по 19 его главам.
Результаты по точности кластеризации
Пример сравнения пометки кластеров
Выводы • Результаты сравнения подтверждают предположение о том, что предлагаемый метод должен иметь преимущество в случае сильного тематического разнообразия анализируемого корпуса либо малого размера отдельных текстов. • Предлагаемый метод приводит к гораздо более понятной и точной смысловой пометке найденных кластеров. • Дополнительный результат - разработан метод автоматического создания напоминающей иерархический тезаурус структуры на базе матрицы совместной встречаемости лексем, построенной на большом текстовом корпусе.