Откриване на взаимовръзки в колекции от документи чрез ЛСА

Откриванена взаимовръзкив колекцииот документичрез ЛСА Димитър Вулджев, НПМГИван Стефанов, ПМГ Казанлък Консултант: д-р Преслав Наков

Какво представлява? Вход: 30 стенограми от заседания на МС Резултат: Йорданка Фъндъкова 0,864 Българо-албанскакомисия за икономическо и търговскосътрудничество

Какво представлява? „Проект на Решение за одобряване на позицията и състава на българската делегация за участие в петата сесия на българо-албанска комисия за икономическо и търговско сътрудничество, която ще се проведе на 24 и 25 март 2011 г. в София.“

Латентен семантичен анализ Съществуват латентни връзки между отделните думи. • Изграждане на честотна матрица; • Декомпозиране по сингулярни стойности; • Изчисляване на матрица, която съдържа векторите на субектите.

Латентен семантичен анализ Субект = реално съществуващ обект (имена на хора, градове, организации; термини и др.)

Какво получаваме? • Обща приложимост; • Откриване на индиректни (косвени) връзки; • Качество на резултатите ~ размер на колекцията;

Операции със субекти • Намиране на връзка между два субекта: • Евклидово разстояние; • Косинусова мярка; • Коефициент на Пиърсън. • Извеждане на n най-близки по смисъл думи на даден субект; • Групиране на субекти спрямо латентно значение (k-means); • Намиране на връзка между документи.

Как да получим по-добри резултати? • Стоп-думи; • Псевдоними; • Оценка на дума при честотната матрица: • Брой срещания в док.; • Term Frequency – Inverse Document Frequency; • Сегментация на думите; • Автоматизирано извличане на субекти (NER). • Повече документи!!!

Реализация • Многонишково изчисление на честотната матрица; • Използване на ортогоналенсписък: • 9674 док. с 74538 думи => 5,37GB; само 410MB ненулеви данни => 0,83GB • Използване на хеш-таблици; • Четене на файлове чрез потоци; • Използване на високо оптимизирана C++ библиотека за ДСС.

Демонстрация на общата приложимост…

Компютър срещу хора

Демонстрация

Бъдещи перспективи • Провеждане на задълбочено проучване относно качеството на резултатите с определена колекция от данни (голяма). • Развиване на възможността за облачни изчисления.

Благодарности на: д-р Преслав Наков, г-ца Николова, Рая Юнакова (Microsoft), доц. д-р Минчев и УчИМИ

Благодарим Ви за вниманието!

Откриване на взаимовръзки в колекции от документи чрез ЛСА

Откриване на взаимовръзки в колекции от документи чрез ЛСА

Presentation Transcript