Nous avons pu nous procurer les outils de la campagne de GRACE afin de mesurer l'avancement
de notre tagger.
Nous avions déjà mesuré la décision qui atteint, après l'ajout de quelques
règles "brutes", un taux de 97%. Cela signifie que 97 mots reconnus sur 100
(les mots inconnus n'entrent pas en compte) ne sont pas ambigus.
Pour mesurer si ces mots sont correctement étiquetés, il nous faut le taux
de précision. Pour le moment, comme nous travaillons encore sur ces mesures
nous avons pu comparer uniquement les catégories grammaticales (noms,
verbes, pronoms, etc.) et nous avons obtenu un taux de 73%.
73% des mots sont donc étiquetées correctement vis-à-vis de leurs
catégories grammaticales.
La perfection serait évidemment d'atteindre 100 % tant en décision qu'en
précision (ce qui se traduit par une position en haut à droite sur le
graphique décision/précision).
Mais en attendant, il nous faut faire un choix en fonction du moteur de
grammaire qui va détecter les fautes.
Peut-on garder des ambiguïtés ou faut-il que chaque mot ne comporte
absolument qu'une seule étiquette quitte à ce que celle-ci ne soit pas
forcément correcte? En effet, gagner en décision peut faire perdre en
précision et inversement.
Les règles "brutes" qui disent par exemple que "n'importe quel nom
ambigu est un nom
", permettent de friser les 100% de décision (les mots
ne sont plus ambigus). Mais elles nécessitent d'être affinées si l'on veut
progresser en précision.

(Post originally written by Myriam Lechelt on the old Nuxeo blogs.)