[GramOOo] Les différentes méthodes de tagging


Tue 08 March 2005 By nuxeo

Il existe plusieurs méthodes de tagging, soit à partir de
règles, soit à partir de probabilités. La méthode basée sur
des probabilités prend en entrée un corpus étiqueté sur lequel
va s'effectuer un apprentissage automatique. Cela signifie que
les résultats seront entièrement dépendants de ce corpus qui
doit donc contenir un maximum de mots et sans erreurs
d'étiquetage pour être efficace. On peut y ajouter des règles
qui permettront de tagger les mots inconnus. Par exemple, "si
un mot se termine par -isme, c'est un nom masculin
singulier".

Il n'existe à l'heure actuelle aucun corpus taggé libre de
droits, et la construction d'un tel corpus est un travail
colossal devant être effectué à la main par plusieurs
linguistes.



La méthode basée sur des règles s'appuie sur un lexique (ou
dictionnaire) contenant des informations morphosyntaxiques,
c''est-à-dire la catégorie, le genre, le nombre, le temps, le
mode... Chaque mot est étiqueté à partir de ce lexique, puis
est désambiguïsé à l'aide de règles. Par exemple, si un mot
est suivi par un adjectif et un nom, ce doit être un
déterminant.

Des lexiques du français libres de droits existent. On en
trouve par exemple sur www.lexique.org ou http://abu.cnam.fr/DICO/mots-communs.html.


Lors d'un projet universitaire, nous avons utilisés ces deux
dictionnaires pour les fusionner et créer un dictionnaire
destiné aux TAL (traitement automatique des langues).
Malheureusement, le résultat n'est pas encore définitif et il
n'est donc pas utilisable dans l'immédiat.



Conernant les méthodes de tagging, il a été réalisé une
campagne d'évaluation  de corpus, GRACE
(Grammaire et Ressources pour les Analyseurs de Corpus et leur
Évaluation) de 1994 à 1998. Cette campagne a testé plusieurs
taggers et plusieurs méthodes de tagging.

(Post originally written by Myriam Lechelt on the old Nuxeo blogs.)


Category: Product & Development