Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора оптимального набора информативных признаков для задач классификации текстов Борисова Татьяна 3 курс ВМК МГУ

Для чего нужен выбор признаков? • Количество признаков может достигать 10 000 – 100 000 • Это слишком много для многих алгоритмов обучения (нейронные сети, наивная байесовская модель и т.д.) – «проклятье размерности»

Достоинства выбора признаков • Лучше работают алгоритмы обучения • Проще понять природу данных • Меньше размер хранилищ

Методы выбора признаков • Filters (методы-фильтры) • Wrappers (методы-обертки) • Embedded (встроенные методы)

Filters (методы-фильтры) • Этап препроцессинга • Не зависит от результата работы классификатора • Достоинства: • Вычислительно быстрые • Простая реализация • Хорошо масштабируются

Независимое ранжирование признаков • Information gain (прирост информации) • Mutual information (взаимная информация) • Критерий хи-квадрат • Term strength («мощность признака») • mRMR (minimum redundancy-maximum relevance, минимальная избыточность-максимальная релевантность)

Обозначения • – обучающая выборка: множество пар • = – k-й входной объект, • – число входных объектов • – выходные переменные (классы) • – классы, • – число признаков • – i-й признак • Предполагаются бинарные признаки

Принцип работы • Вычисляем ранг каждого признака • Выкидываем признаки, для которых ранг меньше заданного значения порога • Значение порога можно подобрать на кросс-валидации(или путем выделения из тестовой выборки специального подмножестваи тестирования на нем различных значений порога)

Information gain (прирост информации) Сколько бит информации необходимо, чтобы классифицировать объекты с использованием признака А без его использования? Берем разницу

Mutual information (взаимная информация) Вначале посчитаем взаимную информацию признака и категории:

Mutual information (взаимная информация) Обозначения: • A: = и = 1 • B: ≠ и = 1 • C: = и = 0 • D: ≠ и = 0

Mutual information (взаимная информация) При введенных ранее обозначениях Теперь можно посчитать оценку для признака

Mutual information (взаимная информация) Недостаток критерия взаимной информации Ранг редких признаков выше, чем ранг частых

Критерий хи-квадрат

Term strength («мощность признака») • Основан на кластеризации документов • Не использует информацию о классах , – «связанные» документы Для оценки связанности можно использовать косинусную меру

mRMR(minimum redundancy-maximum relevance) • Не использует информацию о категориях • Может использовать взаимную информацию, критерий корреляции и т.д. • Показано, что этот метод приближает теоретически оптимальный maximum-dependency метод

mRMR(minimum redundancy-maximum relevance) • Не использует информацию о категориях

Wrappers (методы-обертки) • Алгоритм обучения используется как «черный ящик» • Оценивается информативность конкретного подмножества признаков для алгоритма обучения

Принцип работы • Выполняется поиск по пространству подмножеств исходного множества признаков • Для каждого шага поиска используется информация о качестве обучения на текущем подмножестве признаков

Принцип работы – «вес» признака • Бинарный случай: • Непрерывный случай:

Экспоненциальныеалгоритмы поиска • Сложность • Exhaustive search • Алгоритм ветвей и границ • FOCUS

Последовательныеалгоритмы поиска • На каждом шаге выбираем одного последователя • Не можем идти «назад» • Сложность • Можно на каждом шаге рассматривать возможных последователей • Сложность в этом случае

Последовательныеалгоритмы поиска • Прямой жадный алгоритм (forward selection) • Обратный жадный алгоритм (backward elimination) • Алгоритм восхождения на вершину(hill climbing)

Рандомизированные алгоритмы поиска • Использование рандомизации для выхода из локальных минимумов • Anytime-алгоритмы

Рандомизированные алгоритмы поиска • Симуляция отжига • Генетические алгоритмы

Прямой и обратный жадный алгоритмы • Пример • прямой жадный алгоритм • обратный жадный алгоритм

Прямой и обратный жадный алгоритмы 0.1 0.9 0.0 0.7 0.1 0.8 0.5 0.6 прямой жадный алгоритм обратный жадный алгоритм

Embedded (встроенные методы) Выбор признаков является одним из этапов алгоритма обучения Достоинства: • Наилучшим образом приспособлены для конкретной модели • Не нужно проводить кросс-валидацию или разбивать тренировочную выборку

Embedded (встроенные методы) • Линейная регрессия • LASSO • SVM • SVM-RFE (Recursive Feature Elimination) • Полиномиальная логистическая регрессия • RMNL (Random Multinomallogit): основан на случайном лесе

Методы построения признаков • PCA (Principal Component Analysis, метод главных компонент) • Кластеризация • Автокодировщик • Регуляризованный случайный лес (RRF) • Применяют также спектральные и волновые преобразования

Пример работы

Спасибо за внимание!

Методы выбора оптимального набора информативных признаков для задач классификации текстов

Методы выбора оптимального набора информативных признаков для задач классификации текстов

Presentation Transcript