1 / 48

Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية

Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية For Academia in the Arab World. Eslam Kamal, Developer Achraf Chalabi, Architect. Agenda. Introduction مقدمة Arabic Toolkit Architecture التصميم العام للأدوات

ivrit
Download Presentation

Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Arabic NLP Toolkit (ATK) 11/2012 حزمة أدوات اللغة العربية For Academia in the Arab World Eslam Kamal, Developer Achraf Chalabi, Architect

  2. Agenda • Introduction مقدمة • Arabic Toolkit Architecture التصميم العام للأدوات • Arabic Toolkit Components مكونات الحزمة • Q&A أسئلة Microsoft Research - Advanced Technology Lab, Cairo

  3. ATLC Advanced Technology Lab in Cairo – Microsoft Research مركز ميكروسوفت للأبحاث المتطورة بالقاهرة Bing Cairo البحث على الويب NLP معالجة اللغة العربية Computer Vision معالجة الوسائط المتعددة Microsoft Research - Advanced Technology Lab, Cairo

  4. NLP Group Mission Provide comprehensive best Arabic NLP support for partners and developers تزويد الشركاء والباحثين والمطورين بأفضل الأدوات لمعالجة اللغة العربية آليا Microsoft Research - Advanced Technology Lab, Cairo

  5. Arabic Is Special Unique Complexities Omitted Diacritics (short vowels) غياب التشكيل Free Word-Order الترتيب الحر High WER الأخطاء الإملائية Long Sentences طول الجمل Highly-Inflectional التصريف والإشتقاق • Available resources are limited الموارد اللغوية نادرة • Components الأدوات • Linguistic References المراجع • Training Data المكانز المرمزة Best Quality? => “Genuinely Address These Problems” Microsoft Research - Advanced Technology Lab, Cairo

  6. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  7. Transliterator الترجمة الصوتية Microsoft Confidential

  8. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  9. Transliteratorالترجمة الصوتيةDefinition • Conversion of text from one script to another تحويل النص من أبجدية لغة الى أبجدية لغة أخرى • Translation of named entities ترجمة أسماء الأعلام • Conversion of text from Romanized Arabic to native Arabic script. تحويل النص العربي المكتوب بحروف أعجمية الى الحروف العربية

  10. Transliteratorالترجمة الصوتيةMotivation Honda - Хонда - هوندا – הונדה - 本田 >> /ˈhɒndə/ وجد فريق في جامعة ميتشيجن أن الجين، الذي يطلق عليه إيه جي تي آر 1، تسبب في عمل خلايا الثدي العادية كخلايا سرطانية Machine Translation without Transliteration The team found that gene ميتشيجنUniversity, called AG t r 1, causing regular breast cells work as cancerous cells Machine Translation with Transliteration The University of Michigan team found that a gene called AG t r 1, causing regular breast cells work as cancerous cells Microsoft Confidential

  11. Transliteratorالترجمة الصوتيةAPIs Transliterate Text: Convert text from the script of the source language to the target language تحويل النص من أبجدية لغة المصدر الى أبجدية اللغة الهدف Generate Candidates: Provide one or more candidate transliteration for a given word انتاج اقتراحات متعددة للترجمة الصوتية للكلمة المدخلة

  12. Transliteratorالترجمة الصوتيةExamples ezayak 3amel 2eh? إزيك عامل إيه؟ Transliterator كوكب kawkab Celine Dion سيلين ديون الترجمة الصوتية mahmud, mahmoud, mohamud, mehmood, mahmod… محمود

  13. Transliteratorالترجمة الصوتيةApplications • Machine Translation الترجمة الآلية • Named Entity Normalization توحيد كتابة الأسماء • Pre-processing of colloquial Arabic text المعالجة المبدئية للنص العربي العامي Microsoft Research - Advanced Technology Lab, Cairo

  14. Morphological Analyzer (SARF) المحلل الصرفي Microsoft Confidential

  15. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  16. Morphological Analyzer (SARF) المحلل الصرفيArabic Word Structure وسيحاكمونهم Arabic Word Prefixes Suffixes Stem وهم يحاكم وس هم وا يُفَاعِلْ ح ك م س و ObjPro (them) SubjPro (they) Morphological Pattern Root Future (will) Conj (and) قسم الكلم (فعل) Morpho-syntactic Features: Verb, Present, Indicative, Plural, 3rdPerson سمات صرفية: فعل, حاضر, مرفوع, جمع, مذكر, مؤنث, غائب Microsoft Confidential

  17. Morphological Analyzer (SARF) المحلل الصرفيDefinition Validation of Arabic words التحقق من صحة كلمة عربية Prefixes السوابق Suffixes اللواحق Diacritized Word الكلمة مشكلة Word Synthesis إعادة تكوين كلمة Stem الساق Morphological Analysys التحيلات الممكنة SARF Generation of Derivatives انتاج المشتقات (مشتركة الجذر) Part of Speech قسم الكلم Generation of Inflections (انتاج التصريفات (مشتركة الساق Morpho-syntactic Features سمات صرفية Morphological Pattern الميزان الصرفي Root الجذر Awareness of input diacritics مراعاة النص المشكل مسبقا

  18. Morphological Analyzer (SARF) المحلل الصرفيExamples

  19. Morphological Analyzer (SARF) المحلل الصرفيExamples

  20. Morphological Analyzer (SARF) المحلل الصرفيApplications SARF Analyze Token Generate Inflections Generate Derivatives Word Synthesis Auto-correction Spell checking Part of Speech Tagging Diacritization Search Machine Translation Diacritization Colloquial Conversion

  21. Autocorrector &Speller المصحح الآلي والمدقق الإملائي Microsoft Confidential

  22. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  23. Speller المدقق الإملائيMotiviation • Arabic content has a very high Word Error Rate (WER). • Analysis of 1000-Article Tagged Corpus: the Average WER is 6% in News text. Microsoft Confidential

  24. Speller المدقق الإملائيMotiviation Microsoft Confidential

  25. Speller المدقق الإملائيDefinition • Detection and correction of misspelt words اكتشاف الأخطاء وتصحيحها • Auto-correction of Common Arabic Mistakes التصحيح الآلي للأخطاء العربية الشائعة • Improving the accuracy of the various Arabic text processing components. تحسين جودة مكونات معالجة النص العربي الأخرى

  26. Speller المدقق الإملائيAPIs • Detect Mistakesin Modern Standard Arabic اكتشاف الأخطاء في النص العربي الفصيح • Auto-correct common Arabic mistakes تصحيح آلي للأخطاء العربية الشائعة • Spell Check by providing more than one candidate for misspelt words توفير اختيارات متععدة لتصحيح الكلمات الخطأ

  27. Speller المدقق الإملائيExample وتم تقديم تقرير مقصل حول إمكانيات مصر في هذا المجال وخاصة في ضوء ماتتمتع به مصر من ميزة نسبية في هذين المجالين، وهو الأمر الذي أظهر معه الإتحاد الأوروبي إهتماما ملحوظا لتطوير التعامل مع مصر في هذا المجال نظرا للإمكانيات الموجوده والتي لو أحسن إستغلالها مع دراسات الجدوي المطلوب به، تستطيع مصر أن تلبي جزءا مهما من إحتياجاتها من الطاقة الكهربائية عن طريق الطاقة الشمسية وطاقة الرياح. وتم تقديم تقرير مقصل حول إمكانيات مصر في هذا المجال وخاصة في ضوء ماتتمتع به مصر من ميزة نسبية في هذين المجالين،وهو الأمر الذي أظهر معه الإتحاد الأوروبي إهتماما ملحوظا لتطوير التعامل مع مصر في هذا المجال نظرا للإمكانيات الموجودهوالتي لو أحسن إستغلالها مع دراسات الجدوي المطلوب به، تستطيع مصر أن تلبي جزءا مهما من إحتياجاتها من الطاقة الكهربائية عن طريق الطاقة الشمسية وطاقة الرياح. وتم تقديم تقرير مقصل حول إمكانيات مصر في هذا المجال وخاصة في ضوء ما تتمتعبه مصر من ميزة نسبية في هذين المجالين، وهو الأمر الذي أظهر معه الاتحاد الأوروبي اهتماما ملحوظا لتطوير التعامل مع مصر في هذا المجال نظرا للإمكانيات الموجودة والتي لو أحسن استغلالها مع دراسات الجدوى المطلوب به، تستطيع مصر أن تلبي جزءا مهما من احتياجاتها من الطاقة الكهربائية عن طريق الطاقة الشمسية وطاقة الرياح. مفصل، مقال، مقتل، مصل، مقصلة ... Speller

  28. Speller المدقق الإملائيAuto-correction Example Autocorrector Saved 95% of Mouse Clicks

  29. Speller المدقق الإملائيApplications Speller / Autocorrector Preprocessor Machine Translation Office Applications Plugins & Add-Ons Microsoft Confidential

  30. Named Entity Recognizer (NER) مستخرج الأعلام Microsoft Confidential

  31. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  32. Arabic NERمستخرج الأعلامDefinition • Detects and classifies Named Entities استخراج و تصنيف أسماء الأعلام • Persons, Locations and Organizations التصنيف: أشخاص و أماكن و منظمات

  33. Arabic NERمستخرج الأعلامExample وقد أبدي خافيير سولانا المنسق الأعلي للسياسة الخارجية في الاتحادالأوروبي‏،‏ تفاؤلا كبيرا بالمبادرة المصرية‏،‏ مرجحا احتمال وقف إطلاق النار قريبا،‏ وتوقعت مصادر فرنسية انسحاب القوات الإسرائيلية من غزة خلال ثمانية أيام،‏ وأوضح سولانا أن دعوة مصر لإسرائيل لبحث وقف الهجوم قد تؤتي ثمارها خلال الساعات القليلة المقبله‏،‏ مؤكدا أن الدول دائمة العضوية بمجلس الأمن استقبلت المبادرة المصرية بترحاب شديد‏. Recognize NEs Microsoft Confidential

  34. Arabic NERمستخرج الأعلامExample Persons Locations Named Entities: وقد أبدى خافيير سولانا المنسق الأعلى للسياسة الخارجية في الاتحاد الأوروبي‏،‏ تفاؤلا كبيرا بالمبادرة المصرية‏،‏ مرجحا احتمال وقف إطلاق النار قريبا،‏ وتوقعت مصادر فرنسية انسحاب القوات الإسرائيلية من غزة خلال ثمانية أيام،‏ وأوضح سولانا أن دعوة مصر لإسرائيل لبحث وقف الهجوم قد تؤتي ثمارها خلال الساعات القليلة المقبلة‏،‏ مؤكدا أن الدول دائمة العضوية بمجلس الأمن استقبلت المبادرة المصرية بترحاب شديد‏. Organizations Microsoft Confidential

  35. Arabic NERمستخرج الأعلامApplications Arabic NER Spell Checking Machine Translation POS Tagging Search Plugins • By-pass spell checking of named entities • Avoid Segmenting NE phrases • Auto-augment phrase table • Align NEs during training • Identify Named Entities and tag as Proper • Identify Named Entity in query and propose instant answers • Extract Named Entities at Indexing time • Identify Celebrities and Cities to hyperlink with knowledgebase Microsoft Confidential

  36. Diacritizer المشكل الآلي Microsoft Confidential

  37. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  38. Diacritizerالمشكل الآليDefinition • Vowel restoration on Arabic text التشكيل الآلي للنص العربي • Handling both Stem and Case Ending تشكيل ساق الكلمة و كذلك العلامة الإعرابية

  39. Diacritizerالمشكل الآليExample Diacritizer دشنت هيئة الوثائق والمحفوظات الوطنية العمانية بمسقط فعاليات المعرض الوثائقي الثالث، تزامنا مع احتفالات السلطنة بعيدها الثاني والأربعين. ويضم المعرض الذي سيستمر ستة أيام أكثر من ألف وثيقة ومخطوطة وخريطة وصورة نادرة تتعلق بفترات مختلفة من تاريخ السلطنة. دَشَّنَتْ هَيْئَةُ اَلْوَثَائِقِ وَالْمَحْفُوظَاتِ اَلْوَطَنِيَّةِ اَلْعُمَانِيَّةِ بِمَسْقَطِ فَعَّالِيَّاتُ اَلْمَعْرِضِ اَلْوَثَائِقِيِّ اَلثَّالِثِ، تَزَامُنًا مَعَ اِحْتِفَالَاتِ اَلسَّلْطَنَةِ بِعِيدِهَا اَلثَّانِي وَالْأَرْبَعِينَ. وَيَضُمُّ اَلْمَعْرِضُ اَلَّذِي سَيَسْتَمِرُّ سِتَّةَ أَيَّامٍ أَكْثَرَ مِنْ أَلْفِ وَثِيقَةٍ وَمَخْطُوطَةٍ وَخَرِيطَةٍ وَصُورَةٍ نَادِرَةٍ تَتَعَلَّقُ بِفَتَرَاتٍ مُخْتَلِفَةٍ مِنْ تَارِيخِ اَلسَّلْطَنَةِ. دشنت هيئة الوثائق والمحفوظات الوطنية العمانية بمسقط فعاليات المعرض الوثائقي الثالث، تزامنا مع احتفالات السلطنة بعيدها الثاني والأربعين. ويضم المعرض الذي سيستمر ستة أيام أكثر من ألف وثيقة ومخطوطة وخريطة وصورة نادرة تتعلق بفترات مختلفة من تاريخ السلطنة. المشكل الآلي

  40. Diacritizerالمشكل الآليApplications • Text-to-Speech قرائة النص الآلي • Arabic language Edutainment تعليم اللغة العربية • Reading experience enhancement تحسين قراءة النص العربي Microsoft Research - Advanced Technology Lab, Cairo

  41. Part of Speech Tagger المرمز الآلي Microsoft Confidential

  42. ATL Cairo Solution Arabic NLP Architecture TRANSLITERATORالترجمة الصوتية DIAC MODEL DIACRITIZERالمشكل الآلي Diacritize Sentence PARSER POS-TAG Sentence POS MODEL POS TAGGERالمرمز الآلي Parse Sentence INDUCED RULES NE RECOGNIZERمستخرج الأعلام NE ? Correct Text Speller ERROR MODEL CORRECTORالمصحح الآلي LEXICAL PROBABILITIES Valid Word ? Colloquial MORPHOLOGICAL ANALYZER المحلل الصرفي Get Word Analyses المحلل النحوي MSR-LM / ML TAGGING SYSTEMنظام الترميز TAGGED CORPUS المكنز المرمز – 4 MW Microsoft Research - Advanced Technology Lab, Cairo

  43. Part of Speech Tagger المرمز الآليDefinition • Identifying the correct partofspeech التعرف على قسم الكلم الصحيح • Relies heavily on the Morphological Analyzer يعتمد بقوة على المحلل الصرفي • Relies on the Autocorrector يعتمد على المصحح الآلي

  44. Part of Speech Tagger المرمز الآليFeatures • Detailed Tagset مجموعة مفصلة من الرموز • Stem Level Disambiguation فك اللبس على مستوى الساق • Case Ending Disambiguation فك اللبس على مستوى الحالة الإعرابية

  45. Part of Speech Tagger المرمز الآليExample وقالت صحيفة الخبر الجزائرية إن العملية العسكرية تحتاج إلى ما لا يقل عن ثمانمائة مليون دولار خلال العام. POS Tagger وقالت<Wa*V.Sing.Fem.Pst.Act*Subj.Sing.Fem.3> صحيفة <N.Ttl.Sing.Fem.Nom>الخبر<Al*N.Sing.Masc.Gen> الجزائرية<Al*Adj.Sing.Fem.Nom> … Noun Title Singular Feminine Nominative

  46. Part of Speech Tagger المرمز الآليExample • Machine Translation الترجمة الآلية • Search Engines محركات البحث • Term Extraction استخراج التراكيب Microsoft Research - Advanced Technology Lab, Cairo

  47. Access Request and Documentation Access request, full documentation and how-to-use instructions at http://nlptoolkit.cloudapp.net

  48. Thank You… Questions? Microsoft Confidential

More Related