1 / 26

PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …

PolUKR Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl 2004 - …. Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008. Czy można mówić o lingwistyce korpusowej?. Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów:

sabin
Download Presentation

PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PolUKRPolsko-Ukraiński Korpus Równoległyhttp://corpus.domeczek.pl2004 - … Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008

  2. Czy można mówić o lingwistyce korpusowej? • Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: • „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia) • jednojęzyczny - dwu-/wielojęzyczne • równoległe - porównawcze • korpus referencyjny (benchmark korpus): BNC, ?IPI PAN

  3. Czym jest korpus równoległy? • Zbiór par tekstów (eng. bitexts) w dwóch językach Запропонована модель виглядає доволі переконливо... Proponowany model wygląda dość przekonująco...

  4. Czemu służy korpus równoległy • baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy • baza danych dla konfrontatywnej analizy lingwistycznej • punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych

  5. Statystyki

  6. Wyszukiwanie (obecnie) • Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL • Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych: . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii) Іalternatywa; )koniec fragmentu ciągu [ i ] początek i koniec oznaczania klasy znaków ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień + 1 albo więcej wystąpień \sdowolny znak spacji, interpunkcji \wdowolna litera, liczba, znak podkreślenia \bkoniec wyrazu, \escape

  7. Przykłady formuł wyszukiwania /jako/ „jako” /jako\s/ „jako, niejako, dwojako” /\bjako/ „jakość’ /norma\./ „norma” przed kropką

  8. Metodologia tworzenia korpusu • zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska) • jeżeli są w postaci papierowej, to: • skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron; • OCRowanie, redakcja poOCRowa; • konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów; • jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego); • sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne); • konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8); • konwertowanie z MSWord .doc na .txt • dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji); • konwertowanie z .txt do .xml • dodawanie do serwera

  9. Co się dzieje na serwerze • Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu • Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach <p>-</p> • Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym • Oprogramowanie: Magdalena Turska

  10. W opracowywaniu: a) Dodawanie informacji gramatycznych • polski • ukraiński • sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset) NB: stopnie porównania dla przymiotników i przysłówków ukraińskich b) Wyrównanie na poziomie zdań • problem podziału na zdania (skróty) • demonstracja programu TextAlign 1.1.1.1 • Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)

  11. Źródła informacji morfosyntaktycznej • Język polski:tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.) • Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator) • Język ukraiński: słownik gramatyczny ULIF NANU, 250tys. słów (Igor Szewczenko, Ołeksandr Rabulec) • Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)

  12. Ukraiński tekst nietagowany • Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук­раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

  13. Ukraiński: tagi wejściowe z lematami Львів<JDJAJIJK><Львів 0|Львів 0|Лев 1|Лев 1|>розташований<BDBAV?><розташований 0|розташований 0|розташувати 0|> на<N0N0Z0PF><на 4|на 3|на 2|на 1|> етнічних<AVATAX><етнічний 0|етнічний 0|етнічний 0|> українських<AVATAXJIGIJKGKJMGM><український 0|український 0|український 0|Український 0|Український 0|Український 0|> землях<FM><земля 2|> і<SSSCN0Z0><і 1|і 3|і 2|> є<UPUOUNUKUMUL><бути 0|бути 0|бути 0|бути 0|бути 0|бути 0|> одним<HUHQHERQRERU><один 0|один 0|один 0|оден 0|оден 0|оден 0|> з<PE><з 0|> головних<AVATAX><головний 0|головний 0|головний 0|> нервових<AVATAX><нервовий 0|нервовий 0|нервовий 0|> вузлів<MIMI><вузол 2|вузол 1|> українського<ANADABJDJBKB><український 0|український 0|український 0|Український 0|Український 0|Українське 0|> народу<MBMCMBMC><народ 0|народ 0|нарід 0|нарід 0|>, найважливішим<AQAEAU><найважливіший 0|найважливіший 0|найважливіший 0|> клапаном<ME><клапан 0|> його<FGODOBODOB><йога 0|воно 0|воно 0|він 0|він 0|> серця<NKNHNBNN><серце 0|серце 0|серце 0|серце 0|>, вічним<AQAEAU><вічний 0|вічний 0|вічний 0|> збудником<MEME><збудник 1|збудник 2|> честолюбства<NB><честолюбство 0|>, гордості<FCFBFF><гордість 0|гордість 0|гордість 0|> й<SSSCZ0><й 1|й 2|> потягу<MFMCMGMBMCMFMGFDGD><потяг 2|потяг 2|потяг 2|потяг 1|потяг 1|потяг 1|потяг 1|потяга 0|Потяга 0|> до<NGNFNENDNCNBNANHNINJNKNLNMNNPB><до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 1|> волі<UOFCFBFFGCGBGFGFGCGBGHGNNFMF><воліти 0|воля 0|воля 0|воля 0|Воля 2|Воля 2|Воля 2|Воля 1|Воля 1|Воля 1|Воля 1|Воля 1|воло 0|віл 0|>.

  14. Przykłady kodów gramatycznych ULIF (384)

  15. Polski tekst nietagowany • W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.

More Related