1 / 40

5 èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007

La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-’Imtâ‘ wa l-mu’ânasa de Taw h îdî (932-1024). 5 èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007 Zoubeïr MOUELHI ICAR

Download Presentation

5 èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La richesse lexicale dans une perspective de lexicométrie arabeEtude contrastive de cinq méthodes de mesureApplication à al-’Imtâ‘ wa l-mu’ânasa de Tawhîdî(932-1024) 5èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007 Zoubeïr MOUELHI ICAR Université Lumière-Lyon2

  2. PLAN • Autour de la notion de richesse lexicale • Les méthodes de mesure • La méthode de comparaison des indices • La formule de Guiraud • L’indice W de Brunet • La méthode binomiale de Muller • L’indice Vm de Yule-Herdan • Bilan • Conclusion

  3. Richesse lexicale  difficile à définir • Lexicométrie  un dénominateur commun : «lieu de comparaison entre deux ou plusieurs textes en fonction de leur étendue respective et du nombre de vocables relevés dans chacun d’eux»[1] • Décrire la structure lexicale ou la comparer à d’autres corpus  indépendante du contenu  propriété quantitative • Notion absolue ou relative ? • "Neutralité" du terme Richesse  « mieux vaut donc comprendre le mot "richesse" comme un terme neutre, un peu comme font les physiciens pour qui "vitesse" ne se confond pas avec "rapidité" »[2] [1] Nathan Ménard, Mesure de la richesse lexicale. Théorie et vérifications expérimentales :Etudes stylométriques et sociolinguistiques, 1983, p. 16 [2] Thoiron, Ph., Richesse lexicale et classement des textes, dans Études sur la richesse et la structure lexicales, 1988, pp. 141-163, p.142.

  4. Les méthodes de mesure de la richesse lexicale • Problèmes : objectivité, comparaison, évaluer V en fonction de N, influence de l’étendue sur la RL, existe-t-il un indice/échelle (≈ thermomètre)? • Solutions multiples : V/N, V1/V et V1/N  influence de l’étendue  d’autres méthodes • La méthode de comparaison des indices, la formule de Guiraud ( ), l’indice W de Brunet, la méthode binomiale de Muller et l’indice Vm de Yule-Herdan

  5. q1= = Comparaisons binaires Méthode des indices :Comparaison binaire des textes en confrontant les 4 indices

  6. Interprétation des combinaisons d’indices

  7. Valeurs des indices pour chacunedes nuits al-’Imtâ‘ wa l-mu’ânasa

  8. Résultat des comparaisons binaires des Nuits selon la méthode des indices

  9. Préambule A B A B Nuit 02 A est plus riche que B Nuit 01 comparaison non résolue Nuit 14 Nuit 03 Nuit 06 Nuit 04 Nuit 07 Nuit 15 Nuit 09 Nuit13 Classement de quelques Nuits en fonction de la richesse lexicale selon la méthode des indices Nuit 2Nuit 1Nuit 7 Nuit 13Nuit 2Nuit 14Nuit 15PréambuleNuit 14Nuit 15PréambuleNuit 7Nuit 13PréambuleNuit 4Nuit 9Nuit 3Nuit 13Nuit 3Nuit 15Nuit 6Nuit 9Nuit 6Nuit 13

  10. Classement des Nuits selon l’indice de richesse lexicalede Guiraud

  11. Selon la formule de Guiraud (1 / 3)

  12. Selon la formule de Guiraud (2 / 3) Test de corrélation des rangs de Spearman

  13. Selon la formule de Guiraud (3 / 3)

  14. Classement des Nuits selon l’indice W de Brunet

  15. Selon l’indice W de Brunet (1 / 3) Traduit une réduction de l’influence de l’étendue

  16. Selon l’indice W de Brunet (2 / 3)

  17. Selon l’indice W de Brunet (3 / 3)

  18. T (N = 61177) T’ (N’ = 5062) T - T’ p = 0,083 q = 0,917 Classement des Nuits selon la méthode binomiale de Muller

  19. Selon la méthode binomiale de Muller (1 / 4)

  20. Selon la méthode binomiale de Muller (2 / 4) Réduction de l’influence de l’étendue

  21. Selon la méthode binomiale de Muller (3 / 4)

  22. Selon la méthode binomiale de Muller (4 / 4)

  23. Classement des Nuits selon l’indice Vm de Yule-Herdan

  24. Selon l’indice Vm de Yule-Herdan (1 / 4) Sous l’influence de N et de V1

  25. Selon l’indice Vm de Yule-Herdan (2 / 4)Confirmation de l’influence de V1 sur l’indice Vm en comparant les deux diagrammes de la richesse lexicale, selon l’indice Vm et le quotient V1/V

  26. Selonl’indice Vm de Yule-Herdan (3 / 4)

  27. Selon l’indice Vm de Yule-Herdan (4 / 4)

  28. BILAN Récapitulatif des classements selon les différentes méthodes utilisées

  29. BILAN Nombre total, pour chaque méthode, des rangscommuns et contigus à ceux des autres méthodes

  30. BILAN

  31. BILAN Corrélation des rangs de Spearman entre les classements obtenus par les 4 principales méthodes

  32. BILAN

  33. Sur la base de la contiguïté Sous l’influence inverse de N et de V1 BILAN Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale :Représentations graphique des méthodes

  34. Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des nuits

  35. BILAN La dispersion des nuits interprétée selon l’axe F1

  36. BILAN La dispersion des nuits interprétée selon l’axe F2

  37. Interprétation globale, selon les deux axes F1 et F2, de la représentation graphique de l’analyse factorielle des variables latentes

  38. Classement, en fonction de la richesse lexicale, des nuits d'al-ÞImtâÝ wa l-muÞânasa résultant de la représentation graphique de l'analyse factorielle des variables latentes Nuit 00 Nuit 02 Nuit 04 Nuit 05 Nuit 03 Nuit 16 Nuit 01 Nuit 06 Nuit 08 Plus riche que Nuit 10 Nuit 15 Nuit 07 Nuit 14 Nuit 09 Nuit 13 BILAN

  39. BILAN Corrélation entre les classements calculéset le classement inféré

  40. Conclusion • Commencer, tout d’abord, par la méthode des indices. Les cas résolus (surtout les cas sûrs) pourront ouvrir la voie par la suite, aux autres méthodes de mesure (21 / 22 comparaisons résolues sont confirmées). • S’il ne faut choisir qu’une seule méthode de mesure de la richesse lexicale, la méthode binomiale proposée par Charles Muller est la plus apprpopriée ("logique irréprochable" et bien-fondé théorique). • À défaut d’utiliser la méthode binomiale l’indice W de Brunet est fortement recommandé (stabilité, à l’instar de la loi binomiale). • Sinon, l’on peut imaginer une utilisation coinjointe des quatre méthodes. L’analyse factorielle pourrait dans ce cas servir d’outil d’aide à la prise de décision dans le choix de l’une ou l’autre des méthodes (voire même déduire un classement qui soit la résultante des autres).

More Related