1 / 20

Wiktoria

Wiktoria. Anna Andrzejczuk Wojciech Żółtak Instytut Podstaw Informatyki PAN Instytut Języka Polskiego PAN. Internetowy słownik onomazjologiczny. Podstawy materiałowe – dane wynikowe z innych projektów. Słownik gramatyczny języka polskiego

Download Presentation

Wiktoria

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wiktoria Anna Andrzejczuk Wojciech Żółtak Instytut Podstaw Informatyki PAN Instytut Języka Polskiego PAN Internetowy słownik onomazjologiczny

  2. Podstawy materiałowe – dane wynikowe z innych projektów Słownik gramatyczny języka polskiego Z. Saloniego, W. Gruszczyńskiego, M. Wolińskiego i R. Wołosza Słownik języka polskiego (www.sjp.pl) W planach – ręcznie anotowanypodkorpus NKJP

  3. Założenia budowy struktury hierarchicznej Budowana jest od dołu. Relacje wyznaczające strukturę to głównie relacje hiponimiczne. Struktura jest antropocentryczna.

  4. Typy haseł Ze względu na rolę, jaką pełną w słowniku leksem grupa pojęciowa Ze względu na położenie względem innego (nadrzędnego i podrzędnego) hasła rodzic dziecko Ze względu na miejsce w hierarchii korzeń rozgałęzienie liść

  5. Wizualizacje • Całościowy obraz wizualizacji • Miejsce konkretnego leksemu w strukturze

  6. Leksem • Część mowy – rzeczowniki • Jednowyrazowe • 1 znaczeni e - 1 hasło, np. adidas ale mokasyn • Forma hasłowa - mianownik l. poj. lub l.mn. • Rodzaj • Paradygmat odmiany • Definicja • Problem gramatyczny sprzężony z klatkami semantycznymi • Indywidualne cechy semantyczne (w planach)

  7. Grupa pojęciowa Zwykle wyrażenie wielowyrazowe, ale bywają też jednowyrazowe. Przypisane są jej jedynie informacje związane z położeniem w strukturze hirarchicznej. Pełni funkcję budującą, grupującą.

  8. Siatka haseł rzeczowniki plurale tantum rzeczowniki dwuliczbowe mające w liczbie mnogiej identyczne paradygmaty jak rzeczowniki PT uzupełnienie słownictwa w poszczególnych grupach pojęciowych

  9. Relacje (formalno-)semantyczne • Synonimy • Uzupełniki • Meronimy/Holonimy • Konwersy • Powiązane • Niepowiązane

  10. Korelacja cech semantycznych z gramatycznymi Problem gramatyczny Grupa gramatyczna Warstwa gramatyczna

  11. Użyte narzędzia Python 2.7 Django 1.3.x PostgreSQL Jquery Serwer produkcyjny:Apache + modWSGI

  12. Schemat modeli (automatycznie wygenerowany)  Niezbyt czytelny... ale działa na wyobraźnię

  13. Schemat modeli (przepisany ręcznie)

  14. Rdzeń - drzewo

  15. Problemy gramatyczne

  16. Informacja gramatyczna

  17. Zapytania do SGJP Obecnie: Lokalna kopia bazy SGJP w formacie SQLite. Zapytania generujące odmianę żądanych słów bezpośrednio z bazy. Docelowo: Zapytania on-line do internetowego API SGJP. Możliwość zgłaszania przez redaktorów uwag do otrzymywanych wyników.

  18. Trudności techniczne Django mało elastyczne Narzucony schemat projektu (podział na "aplikacje") bardziej przeszkadzał niż pomagał. ORM nie wspiera polimorfizmu (użyto dodatkowego modułu, ale oczywiście są z nim problemy). Łatwo pisać mało wydajny kod. Niewygodne środowisko testowe. Wizualizacja Brak naprawdę wydajnych bibliotek do rysowania grafów w JavaScript.

  19. Dużo pracy przed nami... Wydajna reprezentacja dużych grafów. Izolacja użytkowników podczas pracy jednoczesnej. Lepsze porównywanie węzłów. Dodanie nowych pamięci podręcznych, przeniesienie obecnej do oddzielnej warstwy. Bardziej intuicyjna wyszukiwarka (wyszukiwarki?). Integracja z innymi projektami (np. SGJP).

  20. Zakończenie Dziękujemy za uwagę

More Related