Systemy Question Answering

Systemy Question Answering. Autor: Piotr Jach. Systemy Question Answering. Idea Troche historii Metody Przykłady systemów. Idea – o co w ogóle chodzi?. Idea systemów QA polega na uzyskiwaniu informacji na pytania zadane w naturalnym języku.

Systemy Question Answering

  1. Systemy Question Answering Autor: Piotr Jach

  2. Systemy Question Answering • Idea • Troche historii • Metody • Przykłady systemów

  3. Idea – o co w ogóle chodzi? • Idea systemów QA polega na uzyskiwaniu informacji na pytania zadane w naturalnym języku. • System musi radzić sobie z szeroką gamą różnych typów pytań, zarówno prostych, np. what, where, jak i definicji i hipotetycznych. • Możemy podzielić systemy na: Closed-domain – operujące na pytaniach z jakieś wąskiej dziedziny Open-domain – odpowiedzi na niemal wszystko ;)

  4. Trochę historii • Pierwsze systemy QA zostały rozwinięte w 1960 roku. Dwa wówczas najpopularniejsze to: BASEBALL i LUNAR. • Pierwszy odpowiadał na pytania dotyczące jednego sezonu w amerykańskiej lidze baseballa a drugi na temat próbek skał przywiezionych przez Apollo podczas misji księżycowych.

  5. Trochę historii cd. • Dość duży rozwój w latach 70-tych i 80-tych. • Powstał wtedy np. projekt LILOG działający w dziedzinie turystyki w niemieckich miastach. • W późnych latach 90-tych Text Retrieval Conference (TREC) uruchomiło test dla systemów QA, który działa do dziś. Systemy rywalizujące muszą odpowiedzieć na pytania z różnych dziedzin w tekstach, które co roku są zmieniane. W 2004 roku najlepszy system uzyskał 77% poprawnych odpowiedzi.

  6. Metody • Powierzchniowa – używa słów kluczowych do znalezienia interesujących zdań z uzyskanych dokumentów. Kolejność ustalana na podstawie cech składniowych, np. kolejność wyrazów, • Głęboka – użycie wielu kompleksowych metod NLP do lepszego zrozumienia pytania, szczególnie przydatne do bardziej złożonych pytań, np. why?, how?, hipotezy itp.

  7. AnswerBus QAS • www.answerbus.com • System otwarto domenowy oparty na pozyskiwaniu informacji na poziomie zdań • Akceptuje pytania w sześciu językach: angielskim, niemieckim, francuskim, hiszpańskim, włoskim i portugalskim • Wynajduje odpowiedzi w internecie

  8. AnswerBus QAS cd. W pozyskiwaniu informacji korzysta z: • Google • Yahoo • WiseNut • AltaVista • Yahoo News

  9. AnswerBus QAS – jak to działa • System pobiera od użytkownika pytanie w języku naturalnym • Prosty moduł sprawdza, czy pytanie jest w języku angielskim • Jeśli nie, przesyła pytanie do mechanizmu tłumaczącego w Altaviscie

  10. AnswerBus QAS – działanie cd. • Wybór dwóch mechanizmów z pięciu do uzyskania imformacji. Formowanie specjalnych zapytań opartych o pytanie. • Kontakt z wyszukiwarką i pozyskanie dokumentów z czołówki listy trafień. • Wyodrębnienie zdań z dokumentów potencjalnie będących odpowiedzią. • Uszeregowanie odpowiedzi i zwrócenie czołowych linków do użytkownika. Odpowiedzi zwracane są w postaci zdań.

  11. AnswerBus QAS – wyodębnianie odpowiedzi • Parsowanie dokumentów na zdania i ustalenie poprzez proces dopasowania wyrazów, czy dane zdanie jest kandydatem na odpowiedź. • Klasyfikacja wyrazów w oryginalnym pytaniu lub uzyskanym zdaniu na wyrazy nie- i pasujące.

  12. AnswerBus QAS – wyodębnianie odpowiedzi cd. • Do filtrowania uzyskanych zdań służy wzór:

  13. AnswerBus QAS - przykłady In which country is Bucharest located? • Bucharest (Romanian: Bucure ti ) is the capital city and industrial and commercial centre of Romania, located in the southeast of the country, on the D�mbovi a river. • The capital Bucharest, located in the south, is the economic and political centre of the country. • On the Bucharest Region' territory is located the largest country's airport (the International Otopeni Airport), which ensures the capital's flight lines with many towns or capitals from other countries from all the continents. • The Inditex Group has been present in the country since last October, when Pull and Bear launched its first store, also located in Bucharest. • The first four cities are somehow grouped together in the northwestern corner of the country, thus quite far from Bucharest located in the southeastern part of Romania. • Bucharest (population 2.3 million, Romanian : Bucure ti ) is the capital city and industrial and commercial centre of Romania , located in the southeast of the country, on the Dâmbovi a river .

  14. AnswerBus QAS - przykłady Why is the species Galapagos giant tortoise endangered? • Have students do research on endemic and introduced species in the Galapagos, explaining how one endemic species has been endangered by one or more introduced species. • Galapagos giant tortoise - Geochelone spp.: More Information - ARKive Search Homepage Species Global Reptiles Galapagos giant tortoise More Information • Beck was not only himself an endangered species in the world of scientific collectors (he was placed in a class by himself in this regard), but he also played an important role in our knowledge of endangered species in the Galapagos • Programs in the Galapagos National Park strongly mirror major emphases of biological research capabilities of the USGS (endangered species, introduced species management, GIS, and ecosystem management. • This is why the Galapagos Tortoise is classified as an Endangered Species while the Aldabra is classified as Threatened. • The Galapagos giant tortoise is endangered because sailors and whaling ships captured thousands of tortoises for adult shells and their eggs.

  15. START QAS http://start.csail.mit.edu/ START - SynTactic Analysis using Reversible Transformations Pierwszy oparty na Web QAS, w sieci od grudnia 1993 roku. Rozwinięty przez Borisa Katza. Ideą systemu jest zapewnienie użytkownikowi tylko dokładnej informacji zamiast listy trafień.

  16. START QAS cd. Obecnie system potrafi odpowiedzieć na miliony angielskich pytań na temat: • Miejsc (miasta, państwa, jeziora, pogoda, demografia, systemy ekonomiczne itp.) • Filmów (tytuły, aktorzy itp.) • Ludzi (daty ur., biografie) • Definicji

  17. START - działanie • Oparte na tzw. "natural language annotation”(NLA). Traktowanie zdań lub fraz w naturalnym języku jako opisy zawartości skojarzonej z segmentami informacji. • Komponent przetwarzający język naturalny w Starcie składa się z dwóch modułów dzielących tę samą gramatykę.

  18. START – działanie cd. • Pierwszy tzw. Understanding module analizuje tekst angielski i tworzy bazę, która koduje informację znalezioną w tekście. • Drugi moduł – generujący, po uzyskaniu odpowiedniego segmentu bazy tworzy zdania. • W połączeniu z NLA moduły te tworzą sprawny system użyteczny np. w dostępie do informacji o multimediach.

  19. START - przykłady ===> What cities are within 250 miles of the capital of Italy? Using this information, I determined what cities are within 250 miles of Rome, Italy: In Italy, the following cities are within 250 miles of Rome: Naples, Italy is 118 miles (189.90298 kilometers) from Rome. Florence, Italy is 143 miles (230.13666 kilometers) from Rome. Pisa, Italy is 148 miles (238.18338 kilometers) from Rome. Bologna, Italy is 178 miles (286.4638 kilometers) from Rome.

  20. START – przykłady cd. ===> Show me a metro map of Moscow.

  21. AskEd QAS http://asked.jp/ Projekt Eda Whittakera. W odróżnieniu od innych systemów zastosowano tu czysto statystyczne, nie lingwistyczne podejście do problemu. Bazuje na poszczególnych słowach. Przy takim podejściu potrzebne jest użycie ogromnej ilości danych.

  22. AskEd - działanie • Zamiast konwertowania pytania do postaci w jakiej można odszukać informacje, system przegląda dane w poszukiwaniu tekstu, którego forma mniej więcej pasuje do pytania i pozwala na uzyskanie odpowiedzi. Pozostaje problem, jakiego typu odpowiedzi oczekujemy, np. na pytanie who czy when, jednak obecność poprawnej odpowiedzi w wielu dokumentach skutecznie niweluje ten problem.

  23. AskEd - przykłady HOW HIGH IS MOUNT EVEREST Mount Everest 2002... Route     Schedule     News     Everest History     Everest Statistics     Masthead   MountEverest 2002 Welcome to the ... homepage of our "miniature" Mount ... http://www.everest-2002.de/home_e.html (explain) (anchors) Everest Trekking, Everest treking, Everest trek, Everest treks, Everest trekking, Nepal everest trekEverest Trekking, Everest treking, Everest trek, Everest treks, Everest trekking, Nepal everest trekking, Everest trekking Nepal, Everest treks, everesttreks, Everesttrek, Everesttrekking ... http://www.nepaltrekkinginfo.com/nepal/trekking/everest/everest_trekking.html (explain) (anchors) Mount Everest-360 degree panorama view from Top - Climb Mt Everest - QTVR panoramic photo from summi... panoramas. THE TOP Links: Everest - MountEverest by climbers, news Everest News, Where Everest Climbers Come for News ... http://www.panoramas.dk/fullscreen2/full22.html (explain) (anchors)

  24. AskEd – przykłady cd. HOW HIGH IS MOUNT EVEREST [1] 29028 feet Mount Everest On Mount Everest you can climb up to 8848 meters high 29028 feet.[2] 29035 feet Mount Everest @Everything2.com More recent calculations using GPS equipment reveal that Everest is 8850 meters 29035 feet high.[3] High Altitude 1997 Expedition Consultant Climbing Leader Indonesian National Everest Expedition 1996 Principal High Altitude Guide Mount Everest Expedition.[4] high winds Mount Everest Because of the high winds of Mount Everest at that time Maegan Carney abandoned her first summit attempt.[5] high peaks Mount Everest Encyclopædia Britannica Like other high peaks in the region Mount Everest has long been revered by local.[6] Exactly

  25. BrainBoost • http://www.brainboost.com/ • System tłumaczy pytanie na wiele zapytań, które zwiększają prawdopodobieństwo znalezienia odpowiedzi. • Kilkaset czołowych wyszukanych stron jest czytanych. • Znajduje odpowiedzi i szereguje w kolejnosci dopasowania zgodnie z technologią AnswerRank.

  26. BrainBoost - przykład Where is Bucharest located? • The NH Bucharest is located in the heart of financial city and close to the central district, Piata Unirii and Casa Poporulul.… Más información - . http://www.bookings.org/searchresults.es.html?aid=303916;landmark=1953 [Read More] • Bucharest Resources and Attractions This section will contain details of other resouces of interest to the traveller visiting Bucharest. This will include restaurants and tourist attractions. Location Bucharest is located in , Bucuresti , Rumanía at 44.4333333 N - , 26.1 E (latitude, longitude) The local timezone is UTC+0200 (EET - Eastern Europe Time) Nearest Airports to Bucharest Bucharest Baneasa - BBU (5 miles) Bucharest Otopeni - OTP (5 miles) Craiova - CRA (113 miles) - Official Links - This section is reserved for community councils and local tourist boards. http://www.simplehotels.com/es/ro/bucharest/information.html [Read More] • A Few Words about Bucharest. Bucharest is located in the southern part of the country, in the middle of the Romanian Plain. It stretches on a 238 sq area and its population counts around 2,300,000 inhabitants. Bucharest has been the center of numerous historical events and it has been mentioned for the first time in 1459, in a document issued by Vlad the Impeller. http://www.iaim.ro/en/eaae2005/travel_info [Read More]

  27. Inne QAS Question Answering Demo http://qa.wpcarey.asu.edu/ Language Computer – Power Answer http://www.languagecomputer.com/

  28. Jeszcze raz linki  http://www.answerbus.com http://start.csail.mit.edu/ http://asked.jp/ http://www.brainboost.com/ http://qa.wpcarey.asu.edu/ http://www.languagecomputer.com/ TREC competition: http://trec.nist.gov

