html5-img
1 / 14

A Magyar Nemzeti Szövegtár

A Magyar Nemzeti Szövegtár. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu. Tartalom. Rövid jellemzés Kiknek készült? Nemzetközi előzmények Összetétele Mitől „nemzeti”? Hogyan készült? Hogy néz ki belülről? Hogyan használható? Intelligens keresés

kaipo
Download Presentation

A Magyar Nemzeti Szövegtár

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Magyar Nemzeti Szövegtár A Magyar Nemzeti Szövegtár Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu

  2. Magyar Nemzeti Szövegtár Tartalom • Rövid jellemzés • Kiknek készült? • Nemzetközi előzmények • Összetétele • Mitől „nemzeti”? • Hogyan készült? • Hogy néz ki belülről? • Hogyan használható? • Intelligens keresés • Hogyan tovább?

  3. Magyar Nemzeti Szövegtár Rövid jellemzés • Az írott nyelvhasználat hiteles tükre • 150 millió szavas reprezentatív minta • Válogatott szövegek, egységesen kódolva • nyelvhasználatunk keresztmetszete • válogatás nem ‘érdem’ alapján • Intelligens korpusz • nyelvtanilag elemzett és egyértelműsített • lekérdezés nyelvtani jellemző szerint is

  4. Magyar Nemzeti Szövegtár Kiknek készült? • Nyelvészeknek, szótárszerkesztőknek pontos, számszerűsíthető kép napjaink írott magyar nyelvhasználatáról • Számítógépes nyelvészeknek értékes forrás számítógépes alkalmazások számára • Társadalomtudósoknak, a magyar kultúra kutatóinak a nyelvhasználatban kódolt finom „üzenetek”

  5. Magyar Nemzeti Szövegtár Nemzetközi előzmények • 60-as évek: BROWN, LOB korpusz 1 millió szavas gondos összeállítás • 80-as évek: COBUILD szótár 20 m  450 m szó Bank of English • 90-es évek: British National Corpus 100m szó, 10 m szó beszélt nyelvből • 90-évektől: nemzeti korpuszok Cseh, szlovén, német, francia, USA, ausztrál stb.

  6. Magyar Nemzeti Szövegtár Az MNSZ összetétele

  7. Magyar Nemzeti Szövegtár Mitől „nemzeti”? • Mérete szerint • egyedülálló vállalkozás • Tartalma szerint • nem csak az „írástudó elit” nyelvezete • nem csak budapesti nyelvhasználat • határon túli nyelvhasználat is • Kárpát-medencei Magyar Korpusz • előkészületben az MNSZ alapján

  8. Magyar Nemzeti Szövegtár Hogyan készült? • Elektronikus források • Előfeldolgozás • Nyelvtani elemzés • Egyértelműsítés • Összefűzés, indexálás • Lekérdező szoftver • 1998 – 2000 között OTKA támogatás • 2002-2003 SZT-IS-7 pályázat

  9. Magyar Nemzeti Szövegtár Hogy néz ki belülről? Annotált korpusz - részlet belülről <!-- HVG ./0116/0116009.htm --> <div type="article" column="unspec"> <opener> <dateline> <w lemma="HVG" msd="N.NOM" ctag="NS3NN">HVG</w> <w lemma="2001/16" msd="DIG" ctag="Q">2001/16</w> <c lemma="." msd="SPUNCT" ctag="SPUNCT">.</c> <w lemma="szám" msd="N.NOM" ctag="NS3NN">szám</w> <date iso8601="04-21-2001"> <w lemma="2001._április_21." msd="DATUM" ctag="DATUM">2001._április_21.</w> </date> </dateline> </opener> <head rend="IT" type="unspec"> <s> <w lemma="egészségügyi" msd="A.NOM" ctag="AS_A">Egészségügyi</w> <w lemma="szigorítás" msd="N.PL.NOM" ctag="NP3NN">szigorítások</w> </s> </head> <head> <s> <w lemma="sok" msd="Num.NOM" ctag="Q">Sok</w> <w lemma="zseb" msd="N.ELA" ctag="NS3NE">zsebből</w> <w lemma="vérzik" msd="V.e3" ctag="VS3RI">vérzik</w> </s> </head> <head rend="BO" type="display"> <s>

  10. Magyar Nemzeti Szövegtár Hogyan használható? - Keresés

  11. Magyar Nemzeti Szövegtár Hogyan használható? - Találatok

  12. Magyar Nemzeti Szövegtár Intelligens keresés • Keresés szófaj és nyelvtani alak alapján • pl. „az”: 656272 előfordulás • névelő és mutatószó egyaránt • 15542 esetben mutatószó • Két szó együttes előfordulása • állandósult szókapcsolatok • igei vonzatok

  13. Magyar Nemzeti Szövegtár Hogyan tovább? • állapotfelvétel a 90-es évek második feléről • a nyelvhasználat dokumentálása • újabb és újabb állapotfelvétel • élő nyelvtörténet • minden eddiginél pontosabb adatokkal

  14. Magyar Nemzeti Szövegtár Magyar Nemzeti Szövegtár http://corpus.nytud.hu/mnsz varadi@nytud.hu

More Related