1 / 17

Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi

Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi. Özlem Aktaş Dokuz Eylül Üniversitesi Bilgisayar Mühendisliği Bölümü. 10 Şubat 2006 Akademik Bilişim 2006 Pamukkale Üniversitesi - Denizli. İçerik. Doğal Dil İşleme (DDİ) DDİ nedir, nerelerde kullanılır ?

vonda
Download Presentation

Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi Özlem Aktaş Dokuz Eylül Üniversitesi Bilgisayar Mühendisliği Bölümü 10 Şubat 2006 Akademik Bilişim 2006 Pamukkale Üniversitesi - Denizli

  2. İçerik • Doğal Dil İşleme (DDİ) • DDİ nedir, nerelerde kullanılır? • DDİ’de Analiz Çeşitleri: • Biçimbilimsel (Morphological) Analiz • İstatistiksel (Statistical)Analiz • Derlem nedir? • Cümle Sonu Belirleme • Neden gereklidir? • Yeni Yöntem Nasıl Çalışır? • Yeni Önerilen Yöntemin Sonuçları Nelerdir? • Sonuç

  3. Doğal Dil İşleme (DDİ) nedir? • “Doğal Dil” insanlar tarafından kullanılan dildir. • “Doğal Dil İşleme” (DDİ) doğal dili işleyen ve anlayan bir sistemin oluşturulması olarak tanımlanabilir. • DDİ çok farklı amaçlarda kullanılan bir araştırma alanıdır; akademik araştırmalar ve ticari amaçlar için kullanılabilir.

  4. DDİ Nerelerde Kullanılır? • Doğal dilin yapısının belirlenmesi, bilgi şifreleme işlemleri, konuşma tanımlama, optik karakter belirleme, yazı doğrulama gibi işlemlerde yardımcı olur. • Yazılan bir kelimeye göre bir sonraki kelimenin tahmin edilebilmesini de sağlar, bu işlem özellikle engelli insanların haberleşmesi için çok önemlidir.

  5. Biçimbilimsel ve İstatistiksel Analiz • “Biçimbilimsel analiz” dilin biçimbilimsel özelliklerini inceler: • cümle sonu belirleme • kelime türlerini (isim, sıfat, vb.) belirleme • kelimelerin parçalarını (kök, ek, vb.) belirleme vb. • “İstatistiksel analiz” iki türlü uygulanabilir; • Harfler: • Sesli ve sessiz harflerin dizilimi, • Harflerin n-gram analizleri vb. • Kelimeler: • Bir kelimedeki harf sayısı, • Kelimelerin n-gram frekansları, • Kelimelerin cümle içindeki dizilimi vb.

  6. Derlem Nedir? • Derlem çeşitli şekillerde tanımlanabilir: • Dilbilimsel bilginin koleksiyonudur, yazılı yada kaydedilen konuşmalar şeklinde olabilir. • Doğal olarak meydana gelen metinlerden dilin çeşitliliğini ve durumunu belirlemek amacıyla seçilen ve bir araya getirilen metinlerdir. • Doğal Dil İşleme alanında kullanılmak için, yazılı veya sözlü metinlerden oluşturulmuş özel bir veritabanıdır; kelimeleri hızlı şekilde bulma ve işleme gibi özel işlemleri yapmaya izin verir.

  7. Cümle Sonu Belirleme Yöntemi • Türkçe’nin Karakteristik Özellikleri : • Sondan eklemeli • Kurallı • Cümle sonunun belirlenmesi doğal dil işleme işlemlerinde özellikle derlem oluşturma işleminin ilk aşamasını oluşturur. • Cümle sonu işaretleri (“.”, “!” gibi) kullanılarak cümle sonu belirlenebilir. • Bazı cümle sonu işaretleri, kısaltmalar vb. işaretleri göstermek için de kullanılabilir. Bu duruma “Karmaşa Durumu (ambiguity)” denir. • Tüm diğer dillerde de karmaşalar mevcuttur ve cümle sonu belirleme işlemlerini oldukça zorlaştırmaktadır.

  8. Cümle Sonu Belirleme Yöntemi - 2 • Karmaşa yaratan durumlara örnekler : • Cumartesi akşam 5 p.m.’de geldi. • www.cs.deu.edu.tr okulumuzun web sitesidir. • E-posta adresi bilgi@cs.deu.edu.tr ‘dir. • Cumhuriyetimizin 75. yılı coşkuyla kutlandı. • Tahta çıkan IV. Murat emirler yağdırdı. • Olimpiyatlar için uzun zamandır çalışan Ahmet koşuda 2. uzun atlamada ise ancak 4. olabildi. • Uluslar, bu ekonomik buhran sonucunda 2. Dünya Savaşı’nı yaşamıştır. • Bu sezon kaybedilen maç sayısı 2. Dünya Kupası’na katılma şansı azalıyor. • A. Mehmet YILDIZ size uğradı. • Alfabenin ilk harfi A. Mehmet’e bunu öğretmeniz gerekiyor.

  9. Kural Listesi Kısaltma Listesi Girdi (Metin) Çıktı (XML dosyası) Yeni Önerilen Cümle Sonu Belirleme Yöntemi • Yeni önerilen yöntemde, Türkçe’de bunun gibi karmaşa durumlarını çözebilmek için kural-tabanlı (rule-based) bir yaklaşım denenmiştir. Kural tabanlı yaklaşımla Türkçe için cümle sonu belirme işlemi doğru ve verimli bir şekilde yapılabilecektir. • Yeni geliştirilen cümle sonu bulmayöntemi şeması:

  10. Yeni Önerilen Cümle Sonu Belirleme Yöntemi - 2 • Cümle sonunu belirlemek için öncelikle XML formatında, üçlü yapıda, bir kural listesi oluşturulmuştur:

  11. Yeni Önerilen Cümle Sonu Belirleme Yöntemi - 3 • Karmaşaya neden olan kısaltmalar için de kural listesi gibi XML yapısında bir kısaltma listesi oluşturulmuştur:

  12. Yeni Önerilen Cümle Sonu Belirleme Yöntemi - 4 • “IV. Murat” gibi roma rakamlarının kullanıldığı cümlelerde belirsizliklerin çözümlenmesi için kısaltma listesine roma rakamları da eklenmiştir. • Kural ve kısaltma listeleri kullanılarak yazılar cümlelere daha verimli biçimde aşağıdaki şekilde yine bir XML yapısında ayrılabilmektedir:

  13. Yeni Önerilen Cümle Sonu Belirleme YöntemiSonuçlar • Program farklı metin gruplarında test edilmiş ve aşağıdaki gibi sonuçlar alınmıştır:

  14. Yeni Önerilen Cümle Sonu Belirleme YöntemiSonuçlar - 2

  15. Yeni Önerilen Cümle Sonu Belirleme YöntemiSonuçlar - 3 Bazı özel durumlar: Çözülemeyen Karmaşa Durumu:

  16. SONUÇ • Doğal diller konuşma, yazma ve dilbilgisi açısından çok karmaşık yapıdadırlar. Dili konuşan kişi bile bazı durumlarda karşısındaki kişinin konuşmasını yanlış algılayabilir. Bu karmaşık durumlar, cümle sonu belirleme işlemini oldukça zor hale getirmektedir. • Yeni önerilen kural tabanlı cümle sonu belirleme yöntemi ile Türkçe cümlelerin sonları, önceden belirlenen kural ve kısaltma listeleri kullanılarak daha doğru ve verimli bir şekilde, %98.96 başarı oranıyla belirlenebilmiştir. • Karmaşa yaratan durumlar, makine öğretimi yöntemi ve istatistiksel analizler kullanılarak büyük oranda çözüme ulaşabilir. • Bu çalışma gelecekte yapılacak araştırmalara kaynak olabilmeyi hedeflemektedir.

  17. Teşekkürler… Özlem AKTAŞ

More Related