Polukr polsko ukrai ski korpus r wnoleg y http corpus domeczek pl 2004
Download
1 / 26

PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - … - PowerPoint PPT Presentation


  • 93 Views
  • Uploaded on

PolUKR Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl 2004 - …. Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008. Czy można mówić o lingwistyce korpusowej?. Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …' - sabin


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Polukr polsko ukrai ski korpus r wnoleg y http corpus domeczek pl 2004

PolUKRPolsko-Ukraiński Korpus Równoległyhttp://corpus.domeczek.pl2004 - …

Natalia Kotsyba

Zebranie naukowe IS PAN

2.XII.2008


Czy mo na m wi o lingwistyce korpusowej
Czy można mówić o lingwistyce korpusowej?

  • Metodologia, a nie osobna branża lingwistyki

    Rodzaje korpusów:

  • „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia)

  • jednojęzyczny - dwu-/wielojęzyczne

  • równoległe - porównawcze

  • korpus referencyjny (benchmark korpus): BNC, ?IPI PAN


Czym jest korpus r wnoleg y
Czym jest korpus równoległy?

  • Zbiór par tekstów (eng. bitexts) w dwóch językach

Запропонована модель виглядає доволі переконливо...

Proponowany model wygląda dość przekonująco...


Czemu s u y korpus r wnoleg y
Czemu służy korpus równoległy

  • baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy

  • baza danych dla konfrontatywnej analizy lingwistycznej

  • punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych



Wyszukiwanie obecnie
Wyszukiwanie (obecnie)

  • Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL

  • Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych:

    . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii)

    Іalternatywa; )koniec fragmentu ciągu

    [ i ] początek i koniec oznaczania klasy znaków

    ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień

    + 1 albo więcej wystąpień

    \sdowolny znak spacji, interpunkcji

    \wdowolna litera, liczba, znak podkreślenia

    \bkoniec wyrazu, \escape


Przyk ady formu wyszukiwania
Przykłady formuł wyszukiwania

/jako/ „jako”

/jako\s/ „jako, niejako, dwojako”

/\bjako/ „jakość’

/norma\./ „norma” przed kropką


Metodologia tworzenia korpusu
Metodologia tworzenia korpusu

  • zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska)

  • jeżeli są w postaci papierowej, to:

  • skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron;

  • OCRowanie, redakcja poOCRowa;

  • konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów;

  • jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego);

  • sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne);

  • konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8);

  • konwertowanie z MSWord .doc na .txt

  • dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji);

  • konwertowanie z .txt do .xml

  • dodawanie do serwera


Co si dzieje na serwerze
Co się dzieje na serwerze

  • Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu

  • Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach <p>-</p>

  • Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym

  • Oprogramowanie: Magdalena Turska


W opracowywaniu
W opracowywaniu:

a) Dodawanie informacji gramatycznych

  • polski

  • ukraiński

  • sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset)

    NB: stopnie porównania dla przymiotników i przysłówków ukraińskich

    b) Wyrównanie na poziomie zdań

  • problem podziału na zdania (skróty)

  • demonstracja programu TextAlign 1.1.1.1

  • Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)


R d a informacji morfosyntaktycznej
Źródła informacji morfosyntaktycznej

  • Język polski:tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.)

  • Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator)

  • Język ukraiński: słownik gramatyczny ULIF NANU, 250tys. słów (Igor Szewczenko, Ołeksandr Rabulec)

  • Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)


Ukrai ski tekst nietagowany
Ukraiński tekst nietagowany

  • Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук­раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.


Ukrai ski tagi wej ciowe z lematami
Ukraiński: tagi wejściowe z lematami

Львів<JDJAJIJK><Львів 0|Львів 0|Лев 1|Лев 1|>розташований<BDBAV?><розташований 0|розташований 0|розташувати 0|> на<N0N0Z0PF><на 4|на 3|на 2|на 1|> етнічних<AVATAX><етнічний 0|етнічний 0|етнічний 0|> українських<AVATAXJIGIJKGKJMGM><український 0|український 0|український 0|Український 0|Український 0|Український 0|> землях<FM><земля 2|> і<SSSCN0Z0><і 1|і 3|і 2|> є<UPUOUNUKUMUL><бути 0|бути 0|бути 0|бути 0|бути 0|бути 0|> одним<HUHQHERQRERU><один 0|один 0|один 0|оден 0|оден 0|оден 0|> з<PE><з 0|> головних<AVATAX><головний 0|головний 0|головний 0|> нервових<AVATAX><нервовий 0|нервовий 0|нервовий 0|> вузлів<MIMI><вузол 2|вузол 1|> українського<ANADABJDJBKB><український 0|український 0|український 0|Український 0|Український 0|Українське 0|> народу<MBMCMBMC><народ 0|народ 0|нарід 0|нарід 0|>, найважливішим<AQAEAU><найважливіший 0|найважливіший 0|найважливіший 0|> клапаном<ME><клапан 0|> його<FGODOBODOB><йога 0|воно 0|воно 0|він 0|він 0|> серця<NKNHNBNN><серце 0|серце 0|серце 0|серце 0|>, вічним<AQAEAU><вічний 0|вічний 0|вічний 0|> збудником<MEME><збудник 1|збудник 2|> честолюбства<NB><честолюбство 0|>, гордості<FCFBFF><гордість 0|гордість 0|гордість 0|> й<SSSCZ0><й 1|й 2|> потягу<MFMCMGMBMCMFMGFDGD><потяг 2|потяг 2|потяг 2|потяг 1|потяг 1|потяг 1|потяг 1|потяга 0|Потяга 0|> до<NGNFNENDNCNBNANHNINJNKNLNMNNPB><до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 1|> волі<UOFCFBFFGCGBGFGFGCGBGHGNNFMF><воліти 0|воля 0|воля 0|воля 0|Воля 2|Воля 2|Воля 2|Воля 1|Воля 1|Воля 1|Воля 1|Воля 1|воло 0|віл 0|>.



Polski tekst nietagowany
Polski tekst nietagowany

  • W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.


ad