Download
1 / 14

Спектральные характеристики в задачах обработки текстовой информации - PowerPoint PPT Presentation


  • 150 Views
  • Uploaded on

Спектральные характеристики в задачах обработки текстовой информации. Зябрев Илья Николаевич генеральный директор, AlterTrader Research Ltd. Базовая метрика спектральной модели -SLM. Нормализованная частота. TF ( L , d ) - внутренняя частота леммы L в документе d ,

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Спектральные характеристики в задачах обработки текстовой информации' - lew


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Спектральные характеристики в задачах обработки текстовой информации

Зябрев Илья Николаевич

генеральный директор, AlterTrader Research Ltd.


Базовая метрика спектральной модели -SLM

Нормализованная частота

TF(L,d) - внутренняя частота леммы L в документе d,

len(d) – длина документа d

SF(L,v) – спектральная частота слова, число документов коллекции,

в которых слово L имеет нормализованную частоту, равную v.


Bm25 slm
Графики модели BM25 и SLM местоимения «Я», приведенные к одному масштабу


Характерные свойства модели SLM

Характеристика основана на реальных вероятностных распределениях слов по документам коллекции, а не на теоретических, как во многих других вероятностных подходах к взвешиванию слов, например в DFR.

Вес слова определяется уникальным для каждого слова спектром, в отличие от большинства других характеристик, в которых разные слова при одинаковых значениях TF и DF характеристик равнозначны.

Немонотонностьизменения значений частотного спектра с ростом нормализованной частоты.



Ранжирующие алгоритмы для сравнения моделей

-Оценка релевантности документа определяется только по исследуемой модели

где q – запрос, d – оцениваемый документ

-Оценка релевантности документа определяется по различным структурным элементам документа

где kdoc, ktitle, kbegin – коэффициенты, полученные на основе машинного обучения. Обучение проводилось независимо для каждой модели на основе таблиц релевантностей.

– Mdoc(q, d) – вклад всего документа в оценку его релевантности;

– Mtitle(q, d) – вклад заголовка документа;

– Mbegin(q, d) – вклад начальной части документа;


Ранжирующие алгоритмы для сравнения моделей

– для SLM:

– для BM25:

– для DFR:




Степенная функция аппроксимированной SLM

– Аппроксимированная спектральная частота лексемы:

– Соответствующая аппроксимированная SLM (при переходе к другим константам)


Slm slm
Графики базовой SLM и аппроксимированной SLM местоимения «Я»





ad