70 likes | 172 Views
Human Knowledge. La nouvelle génération de moteurs sémantiques. Human Knowledge. HK fondée par des chercheurs en linguistique , ethnologie et informatique. Notre problématique: celle de la compréhension automatique , de textes en langue naturelle, appropriée en contexte .
E N D
HumanKnowledge La nouvelle génération de moteurs sémantiques
HumanKnowledge • HK fondée par des chercheurs en linguistique, ethnologie et informatique. • Notre problématique: celle de la compréhension automatique, de textes en langue naturelle, appropriée en contexte. • Obtention d’une méthode universelle de construction dynamique de sens • Le sens n’est pas pris pour un donné • Universaux sémantiques Wierzbicka, grammaires de dépendance, analyse structurale de Tesnière… • La connaissance linguistique: morphologie, syntaxe, sémantique linguistique • Analyses du contexte : texte et cognition • Par essence multilingue • Langage écrit (formats eml, txt…)
Enjeux du TAL (1) • Internet est un monde mouvant • Difficultés rencontrées: des contextes fluctuants. • Modes de communication évoluent, du mail vers les réseaux sociaux • Vocabulaires, produits/marques, orthographes… utilisés évoluent constamment • Organisation interne de chaque « client entreprise » structure le tri: process, produits, FAQ, risque… Sans compter le « client particulier » • Cette évolution permanente nécessite classiquement le travail de « linguistes cachés » • Peu acceptable pour le client, prix du produit cache prix d’un service • Investisseurs? Rentabilité non durable, coût adaptation permanente • Outils actuels TAL : répondent mal à la dynamique accélérée du web
Enjeux du TAL (2) • Internet fournit une partie des solutions • Internet/ monde digital fournissent des Corpus de textes • Offre une connaissance statistique des usages • Permet de replacer des textes dans un contexte • Existence d’une structure organisée à travers le réseau à travers les liens hypertextes • Réseaux sociaux • Permettent d’envisager des applications où les utilisateurs participent au classement des concepts • Modèle du # • Limite des méthodes purement statistiques / structurelles / web dans un contexte donné => théorie linguistique nécessaire
Expérience / Marchés • Analyses de Corpus dans le but de trier les emails: • Assurance / prêt conso • APCE • Tri des emails en fonction de 200 catégories de FAQ • Toute question portant sur la création d’entreprise • Stand-by • Fraude • SignalSpam et Pacitel, en cours • Documentation (ex. CV, juridique) • Analyse qualitative (sondages, twitter…) • Web
Méthode de HK (1) • Approche de HK fondée sur l’analyse du contexte • Ex. « Système d’application » sur google • mauvaise traduction française de « système d’exploitation » • « Système d’application de la loi dans le temps » • « Que pensez-vous du système d’application? » de Genifique Yeux Light-PearlTM? • HK propose un système permettant à un client de catégoriser, i.e. partitionner les corpus, automatiquement • Administration par un client lambda de ses types de catégories • Tri automatique des corpus
Méthode de HK (2) • Linguistique: confrontation universel/particulier • Ars Magna de Lulle / logique de Leibniz : créer un système logique universel, à la manière d’un moteur sémantique ou d’une ontologie modernes… • … mais: nécessité de créer une encyclopédie qui organise le classement des lexies • … et un tel classement est en fait descriptif du contexte • Internet fournit une sorte « d’encyclopédie » mais pas ne dispose pas d’un système qui lui permettrait de « penser » les contextes et les idées… • Non disputemus, calculemus (Leibniz) • Investisseurs ou clients: besoin d’un produit « scalable », réellement automatique, notamment création des catégories • A partir du contexte donné par un corpus, construction du sens par étapes successives • Pas de réduction du langage, toute la richesse de la langue prise en compte • Ontologie « universelle » permet d’organiser les concepts indépendamment des langues