Pour le travail de
Myriam sur un correcteur grammatical, plusieurs étapes sont nécéssaires
:


  • Un dictionnaire taggué

  • Un étiqueteur de texte

  • Un ensemble de règles grammaticales


Chacune de ces étapes est un travail à part entière qui amènera un résulat
exploitable indépendemment.

Ainsi, la première de ces étapes aboutit-elle à InDico, dictionnaire taggué
(association d'un mot à une catégorie grammaticale et des traits comme
genre/nombre pour les noms ou adjectifs et temps/mode/personne pour les
verbes par exemple)
Ce dictionnaire, basé sur les listes de l'abu filtrées et réétiquetées pour les besoins
de l'étiqueteur, en est à sa génèse mais trouve déjà des applications
concrètes :


  • COOnjugaison est
    une feuille Calc crée par Bernard Siaud contenant plus de 6500 verbes et
    donnant leur conjugaison à tous les temps et tous les modes. InDico a servi
    à proposer de nouveaux verbes non initialement pris en charge


  • Le thesaurus français d'OpenOffice.org pour la version 2.0 a
    changé de format et permet désormais d'indiquer une signification et
    une catégorie grammaticale. InDico a donc servi à enrichir le thesaurus de
    cette information. Notons cependant que le thesaurus mériterait d'être
    repris car issu de la version 1.0, il mélange les différentes
    significations qu'un mot peut avoir alors qu'elles peuvent être dissociées
    dans le nouveau format. Pour ce qui est de InDico, j'ai mis
    systematiquement toutes les catégories grammaticales possibles quand elles
    étaient multiples. Il est actuellement en appel
    à tests auprès de la communauté francophone.


Un dictionnaire taggué, au délà de son utilisation dans un correcteur
grammatical, trouve donc son utilité. Néanmoins, il faut qu'il soit fiable
et vérifié de manière intensive vis à vis de l'étiquettage.

Ce sera la prochaine étape : crééer une dynamique autour de InDico
permettant d'auditer simplement les entrées de ce dictionnaire contenant
environ 450 00 formes et de l'enrichir. Ceci se ferra par l'intermédiaire
d'un espace de travail collaboratif dédié. Il pourra alors servir à d'autres
projets libres ... stay tuned ...

(Post originally written by Laurent Godard on the old Nuxeo blogs.)