Correcteur (informatique)

Un article de Wikipédia, l'encyclopédie libre.

Cet article est une ébauche concernant les logiciels.

Vous pouvez partager vos connaissances en l’améliorant. (Comment ?).

Un correcteur est, en informatique, un outil logiciel permettant d'analyser un texte afin de détecter, et éventuellement de corriger, les fautes d'orthographe et les coquilles qu'il contient.

Sommaire

1 Description
2 Spécificités des langues
3 Sensibilité au contexte
4 Quelques correcteurs
- 4.1 Orthographiques seulement
- 4.2 Grammaticaux
5 Notes et références
6 Voir aussi
- 6.1 Article connexe

[modifier] Description

On ne doit pas confondre le correcteur orthographique et le correcteur grammatical (également appelé vérificateur grammatical). Le correcteur orthographique compare les mots du texte aux mots d'un dictionnaire. Si les mots du texte sont dans les dictionnaires, ils sont acceptés, sinon une ou plusieurs propositions de mots proches sont faites par le correcteur orthographique. Le correcteur grammatical vérifie que les mots du texte, bien qu'ils soient dans les dictionnaires, sont conformes aux règles de grammaire (accords, ordre des mots, etc.) et aux règles de la sémantique (phrase ayant un sens, absence de confusion d'homophones, etc.).

Ce logiciel peut être autonome et fonctionner sur un bloc de texte brut, mais la fonction de correction est souvent intégrée dans les logiciels où l'utilisateur est amené à saisir du texte. Elle l'a été au début dans les logiciels de traitements de texte et aujourd'hui dans les forums, les gestionnaires de courriel, dans les navigateurs web.

L'analyse peut se faire en temps réel, c'est-à-dire au fur et à mesure que l'utilisateur saisit le texte, les erreurs étant alors formatées d'une manière différente afin d'attirer son attention et l'inciter à corriger, avec les propositions de correction dans un menu contextuel, ou bien en une seule fois, à la demande de l'utilisateur.

L'utilisateur peut être amené à compléter le dictionnaire intégré par défaut, en ajoutant notamment les noms propres, afin d'éviter les faux positifs.

[modifier] Spécificités des langues

L'anglais est une exception en ce sens que la plupart des mots utilisés à l'écrit n'ont qu'une seule écriture qui peut être trouvée dans un dictionnaire standard, à l’exception de certains jargons et mots modifiés. Cependant dans beaucoup de langues les mots sont fréquemment amenés à adapter leur orthographe aux mots voisins. Par exemple, en français le mot « je » suivi de n'importe quel mot commençant par une voyelle est toujours écrit sous sa forme contractée, comme dans « j'ai » ou « j'irai ». En allemand, les noms composés sont souvent tirés d'autres noms existants. Certaines écritures ne séparent pas clairement les mots les uns des autres, ce qui nécessite des algorithmes de séparation de mots. Chaque langue peut donc présenter des défis distincts pour les correcteurs orthographiques de langues non-anglaises.

[modifier] Sensibilité au contexte

Les dernières recherches ont été focalisées sur le développement d'algorithmes capables de reconnaître un mot mal écrit, même lorsque le mot est dans le dictionnaire, en se basant sur le contexte des mots environnants. Cela tempère l'effet désastreux lié à l'extension des dictionnaires, ce qui permet à plus de mots d'être reconnus. L'exemple le plus commun du genre d'erreur que ce système peut détecter est l’erreur d'homonymies, comme dans la phrase suivante :

'Île son las pour ils sont là.

L’algorithme le plus efficace du moment est celui d' Andrew Golding et de Dan Roth Winnow-based spelling correction algorithm, publié en 1999, qui est capable de reconnaître environ 96% des erreurs liées au contexte, en plus des détections de non-mots (par rapport au dictionnaire)^[1]. Les dernières versions des correcteurs grammaticaux sont sensibles au contexte. Grâce à l'analyse de gros corpus, ils disposent du contexte habituel des mots les plus courants et peuvent ainsi corriger des fautes d'homonymie (comme « lâche » et « lache » ou « vent » et « van ») avec une bonne précision. C'est le cas d'Antidote, qui a analysé un corpus de 500 millions de mots, c'est aussi le cas de Cordial, qui a analysé un corpus de 1 milliard 200 millions de mots.