150 likes | 262 Views
Откриване на взаимовръзки в колекции от документи чрез ЛСА. Димитър Вулджев, НПМГ Иван Стефанов, ПМГ Казанлък. Консултант: д-р Преслав Наков. Какво представлява?. Вход: 30 стенограми от заседания на МС Резултат:. Йорданка Фъндъкова. 0,864.
E N D
Откриванена взаимовръзкив колекцииот документичрез ЛСА Димитър Вулджев, НПМГИван Стефанов, ПМГ Казанлък Консултант: д-р Преслав Наков
Какво представлява? Вход: 30 стенограми от заседания на МС Резултат: Йорданка Фъндъкова 0,864 Българо-албанскакомисия за икономическо и търговскосътрудничество
Какво представлява? „Проект на Решение за одобряване на позицията и състава на българската делегация за участие в петата сесия на българо-албанска комисия за икономическо и търговско сътрудничество, която ще се проведе на 24 и 25 март 2011 г. в София.“
Латентен семантичен анализ Съществуват латентни връзки между отделните думи. • Изграждане на честотна матрица; • Декомпозиране по сингулярни стойности; • Изчисляване на матрица, която съдържа векторите на субектите.
Латентен семантичен анализ Субект = реално съществуващ обект (имена на хора, градове, организации; термини и др.)
Какво получаваме? • Обща приложимост; • Откриване на индиректни (косвени) връзки; • Качество на резултатите ~ размер на колекцията;
Операции със субекти • Намиране на връзка между два субекта: • Евклидово разстояние; • Косинусова мярка; • Коефициент на Пиърсън. • Извеждане на n най-близки по смисъл думи на даден субект; • Групиране на субекти спрямо латентно значение (k-means); • Намиране на връзка между документи.
Как да получим по-добри резултати? • Стоп-думи; • Псевдоними; • Оценка на дума при честотната матрица: • Брой срещания в док.; • Term Frequency – Inverse Document Frequency; • Сегментация на думите; • Автоматизирано извличане на субекти (NER). • Повече документи!!!
Реализация • Многонишково изчисление на честотната матрица; • Използване на ортогоналенсписък: • 9674 док. с 74538 думи => 5,37GB; само 410MB ненулеви данни => 0,83GB • Използване на хеш-таблици; • Четене на файлове чрез потоци; • Използване на високо оптимизирана C++ библиотека за ДСС.
Демонстрация на общата приложимост…
Бъдещи перспективи • Провеждане на задълбочено проучване относно качеството на резултатите с определена колекция от данни (голяма). • Развиване на възможността за облачни изчисления.
Благодарности на: д-р Преслав Наков, г-жица Николова, Рая Юнакова (Microsoft), доц. д-р Минчев и УчИМИ