Nous avons donc commencé l'étape de tagging du correcteur
grammatical sur le modèle de Gramadoir.

Pour cela, nous avons besoin d'un lexique taggé c'est-à-dire
une liste de mots avec les étiquettes morphosyntaxiques qui
leur correspondent. Nous avons choisi DICO le dictionnaire de
l'ABU,
la bibliothèque universelle. Il a fallut réadapter ce
dictionnaire au format dont nous avions besoin. Nous avons
aussi créé une liste de tags qui nous serons
nécessaires.

DICO est de la forme:

abaisse    abaisse   
Nom:Fem+SG

abaisse    abaisser  
Ver:IPre+SG+P1:IPre+SG+P3:SPre+SG+P1:SPre+SG+P3:ImPre+SG+P2

Et Laurent a fait un programme permettant de le transformer
avec les tags:

abaisse    <N f s>

abaisse    <V ind pres s 1>

abaisse    <V ind pres s 3>

abaisse    <V sub pres s 1>

abaisse    <V sub pres s 3>

abaisse    <V imp pres s 2>

...



Nous pouvons noter que ces tags sont très proches d'une
structure XML. Nous ferons dans peu de temps un autre
programme permettant de transformer ces tags en réel format
XML. De celle manière, notre tagger pourra étiquetter des
textes en format XML, ce qui augmentera son utilité.



Ensuite, nous avons transformé les tags en codes numériques,
ce qui nous donne le fichier suivant, moins lourd qu'un
fichier balisé:

abaisse 37

abaisse 230

abaisse 236

abaisse 261

abaisse 265

abaisse 216

...



Nous avons également dû faire quelques modifications sur
DICO. En effet, c'est un dictionnaire qui a été étiqueté
automatiquement, il comporte donc des bugs et quelques petites
incohérences, parfois, d'étiquetage.

Nous avons donc maintenant un lexique prêt à être employé,
qui comporte 345338 entrées et de nombreuses informations
morphosyntaxiques qui nous seront nécessaires. Il n'est sans
doute ni parfait ni complet, mais nous pourrons le mettre à
disposition de quiquonque voudra bien signaler erreurs et/ou
omissions.

(Post originally written by Myriam Lechelt on the old Nuxeo blogs.)