1 / 15

Откриване на взаимовръзки в колекции от документи чрез ЛСА

Откриване на взаимовръзки в колекции от документи чрез ЛСА. Димитър Вулджев, НПМГ Иван Стефанов, ПМГ Казанлък. Консултант: д-р Преслав Наков. Какво представлява?. Вход: 30 стенограми от заседания на МС Резултат:. Йорданка Фъндъкова. 0,864.

Download Presentation

Откриване на взаимовръзки в колекции от документи чрез ЛСА

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Откриванена взаимовръзкив колекцииот документичрез ЛСА Димитър Вулджев, НПМГИван Стефанов, ПМГ Казанлък Консултант: д-р Преслав Наков

  2. Какво представлява? Вход: 30 стенограми от заседания на МС Резултат: Йорданка Фъндъкова 0,864 Българо-албанскакомисия за икономическо и търговскосътрудничество

  3. Какво представлява? „Проект на Решение за одобряване на позицията и състава на българската делегация за участие в петата сесия на българо-албанска комисия за икономическо и търговско сътрудничество, която ще се проведе на 24 и 25 март 2011 г. в София.“

  4. Латентен семантичен анализ Съществуват латентни връзки между отделните думи. • Изграждане на честотна матрица; • Декомпозиране по сингулярни стойности; • Изчисляване на матрица, която съдържа векторите на субектите.

  5. Латентен семантичен анализ Субект = реално съществуващ обект (имена на хора, градове, организации; термини и др.)

  6. Какво получаваме? • Обща приложимост; • Откриване на индиректни (косвени) връзки; • Качество на резултатите ~ размер на колекцията;

  7. Операции със субекти • Намиране на връзка между два субекта: • Евклидово разстояние; • Косинусова мярка; • Коефициент на Пиърсън. • Извеждане на n най-близки по смисъл думи на даден субект; • Групиране на субекти спрямо латентно значение (k-means); • Намиране на връзка между документи.

  8. Как да получим по-добри резултати? • Стоп-думи; • Псевдоними; • Оценка на дума при честотната матрица: • Брой срещания в док.; • Term Frequency – Inverse Document Frequency; • Сегментация на думите; • Автоматизирано извличане на субекти (NER). • Повече документи!!!

  9. Реализация • Многонишково изчисление на честотната матрица; • Използване на ортогоналенсписък: • 9674 док. с 74538 думи => 5,37GB; само 410MB ненулеви данни => 0,83GB • Използване на хеш-таблици; • Четене на файлове чрез потоци; • Използване на високо оптимизирана C++ библиотека за ДСС.

  10. Демонстрация на общата приложимост…

  11. Компютър срещу хора

  12. Демонстрация

  13. Бъдещи перспективи • Провеждане на задълбочено проучване относно качеството на резултатите с определена колекция от данни (голяма). • Развиване на възможността за облачни изчисления.

  14. Благодарности на: д-р Преслав Наков, г-ца Николова, Рая Юнакова (Microsoft), доц. д-р Минчев и УчИМИ

  15. Благодарим Ви за вниманието!

More Related