Intérêt des chunks et de l'unification pour la correction grammaticale


Mon 18 June 2007 By nuxeo

L'intérêt le plus évident concerne les accords entre les divers éléments de
la phrase. Il peut s'agir aussi bien d'accords dans un groupe nominal que
d'accords entre le sujet et le verbe par exemple.

Correction "intra-chunk"


Les mots fonctionnels contenus dans un chunk sont dépendants de la tête du
chunk et contraints de s'accorder avec elle. En attribuant des traits
morpho-syntaxiques à tous les éléments d'un syntagme et en utilisant une
méthode d'unification des traits, il est assez facile, au niveau de la
correction grammaticale, de détecter une erreur au sein d'un syntagme.
Tous les éléments d'un chunk doivent avoir leurs traits qui s'unifient
entre eux. Si ça n'est pas le cas, c'est qu'il y a une erreur.


Autrement dit, dans un chunk nominal qui serait du type "DET ADJ N" (ex:
les grandes vacances), le déterminant "DET" et l'adjectif "ADJ"
doivent tous deux s'accorder avec le nom "N" qui est la tête du chunk. Leurs
traits doivent donc s'unifier.

En utilisant un découpage par chunks et l'unification de traits, on ne fait
plus d'accord mot à mot et entre catégories de mots. On n'accorde plus un
"déterminant masculin singulier" avec un "nom masculin singulier", mais un
élément "masculin singulier" avec un autre "masculin singulier". En
s'intéressant aux traits et non plus aux catégories, on évite ainsi d'avoir
à prévoir toutes les combinaisons de mots pouvant constituer un syntagme
nominal par exemple ("DET NOM", "DET ADJ NOM", "DET NOM ADJ", "DET ADV ADJ
NOM ADJ", etc).

Correction "inter-chunks"


La détection des fautes de grammaire passe ensuite par une bonne mise en
relation des éléments dans la phrase. De la même manière que tous les
éléments d'un chunk doivent s'unifier entre eux, tous les chunks d'une
phrase doivent aussi s'unifier
. La méthode d'unification des traits
peut donc permettre d'accorder facilement les syntagmes, en fonction des
relations qu'ils entretiennent entre eux et avec le syntagme
verbal.


Par exemple, si le chunk verbal a le trait "3ème pers sing", alors le chunk
sujet doit obligatoirement avoir le trait "3ème pers sing" pour que
l'unification des 2 chunks puisse se faire. Dans le cas contraire, une
erreur d'accord sujet-verbe sera détectée.

Les accords se font entre groupes. Il n'est plus nécessaire de construire
un nombre très important de règles décrivant toutes les combinaisons
possibles. On évite par exemple d'avoir à prévoir toutes les combinaisons de
mots que l'on peut trouver avant un verbe, en tant que sujet, ce qui est par
ailleurs impossible. Les chunks permettent le traitement par groupes de
mots, ayant chacun des règles spécifiques selon leur type, ce qui permet de
beaucoup simplifier l'analyse syntaxique.

Correction dans les relations distantes


Ce type de traitement peut aussi s'avérer utile pour traiter certaines
relations de dépendance distantes
, qui posent beaucoup de problèmes aux
correcteurs grammaticaux. Un simple accord entre un sujet et un verbe
éloignés peut être très difficile à vérifier. Or, une propriété du chunk
sujet est d'être généralement le premier syntagme à gauche du chunk verbal,
à condition que ce syntagme soit nominal. Le découpage en chunks peut donc
aider à résoudre les problèmes de détection de certaines fautes auxquels se
heurtent une grande partie des correcteurs.

Aide à la désambiguïsation


Par ailleurs, la segmentation en syntagmes peut avoir un intérêt au
niveau de la désambiguïsation.
Par exemple, même si cela semble évident,
un chunk nominal doit obligatoirement contenir un nom. Si un syntagme
nominal ne contient pas de nom, le système recherche dans le chunk un mot
ambigu qui peut avoir le tag "nom" mais qui ne lui a pas été attribué, et
rectifie alors l'étiquetage afin que le chunk contienne un nom. Un chunk
nominal sans nom peut être défini lorsque le système rencontre un
déterminant (condition d'ouverture d'un chunk nominal) et lorsque le nom qui
le suit est ambigu (avec un verbe par exemple) et mal étiqueté. On obtient
ansi un chunk nominal constitué d'un déterminant, puis d'un verbe.

Conclusion


L'utilisation combinée des chunks et de l'unification peut donc nous
permettre de réduire considérablement le nombre de règles nécessaires à la
bonne correction de la grammaire française. Elle peut aussi aider à la
détection problématique de certaines fautes entre chunks distants, et
éventuellement compléter la désambiguïsation.


(Post originally written by Agnes Souque on the old Nuxeo blogs.)


Category: Product & Development