1 / 32

Методы определения семантической близости документов

Методы определения семантической близости документов. Области применения: Текстовый поиск в интернете. Поиск «близких» документов. Классификация текстов. Устранение многозначности. Методы: По тексту По связям. Методы: По тексту По связям. Латентно-семантический анализ.

inari
Download Presentation

Методы определения семантической близости документов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Методы определения семантической близости документов

  2. Области применения: • Текстовый поиск в интернете. • Поиск «близких» документов. • Классификация текстов. • Устранение многозначности.

  3. Методы: • По тексту • По связям

  4. Методы: • По тексту • По связям

  5. Латентно-семантический анализ

  6. Задача: кластеризовать новости по заголовкам.

  7. Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс против россиянина, рассылавшего спам Церемонию вручения Нобелевской премии мира бойкотируют 19 стран В Великобритании арестован основатель Wikileaks Джулиан Ассандж Украина игнорирует церемонию вручения Нобелевской премии Шведский суд отказался рассматривать апелляцию основателя Wikileaks НАТО и США разработали планы обороны стран Балтии против России Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

  8. Подготовка: • Удаление стоп-слов • Стемминг • Удаление слов в единст- венном экземпляре

  9. Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс против россиянина, рассылавшего спам Церемонию вручения Нобелевской премии мира бойкотируют 19 стран В Великобритании арестован основатель Wikileaks Джулиан Ассандж Украина игнорирует церемонию вручения Нобелевской премии Шведский суд отказался рассматривать апелляцию основателя Wikileaks НАТО и США разработали планы обороны стран Балтии против России Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

  10. Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.

  11. Сингулярное разложение матрицы: M = U*W*Vt U и Vt – ортогональные W – диагональная (элементы в порядке неубывания)

  12. Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение. Оставим только 2 самых весомых.

  13. Методы: • По тексту • По связям

  14. Методы, использующие связи: абстрагируемся от текста, важны только связи между документами. Унификация.

  15. Локальные • Глобальные

  16. Локальные • Глобальные

  17. Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.

  18. Ближайшие соседи:

  19. N(a) – множество ближайших соседей узла a

  20. СимКос: Коэффициент Жаккара: Коэффициент Дайса:

  21. Для направленных графов: • Со-цитирование • Библиографическое сочетание

  22. Локальные • Глобальные

  23. Глобальные: вычисляют близость между всеми вершинами графа.

  24. SimRank: два объекта похожи, если на них ссылаются похожие объекты C – коэффициент затухания.

  25. Метод итеративен.

  26. Затраты времени и памяти. Базовый подход. O(n2) памяти. O(Kn2d2) времени, где: K – количество итераций d2 – среднее значение |I(a)||I(b)| по всем (a, b)

  27. Затраты времени и памяти. Улучшенный подход: рассматриваем только близкие вершины в графе. Пусть r – радиус в котором рассматриваются соседи. dr – среднее количество соседей в r. O(drn) памяти O(Kndrd2) времени

  28. ??

More Related