For faster navigation, this Iframe is preloading the Wikiwand page for Classification et catégorisation de documents.

Classification et catégorisation de documents

La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus.

Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique).

L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences.

Méthodologie

[modifier | modifier le code]

Le déploiement d'un système de classification repose sur plusieurs étapes. On peut les schématiser ainsi :

  • Définition des classes (exemple : catégories "Sport", "Politique", "Diplomatie", ou encore Opinion "bonne/mauvaise")
  • Apprentissage des classes avec un système de classification en utilisant un corpus d'apprentissage
  • Évaluation des performances du système avec un corpus de test

Méthodes algorithmiques

[modifier | modifier le code]

Comme toute tâche de classification, la catégorisation de documents peut être réalisée en mode supervisé, ou non supervisé. En mode supervisé, des éléments prédéfinis seront utilisés pour classer un document : ce peut être un index, ou encore un dictionnaire de mots correspondant à une classe particulière et servant à préétiqueter les documents. En mode non supervisé, c'est sur la phase d'apprentissage que reposera l'entraînement du classifieur, et ses performances ultérieures.

On utilise dans les systèmes de classification de document des algorithmes numériques. Les plus performants sont ceux à base de SVM ou encore de Boosting (qui reposent sur AdaBoost). D'autres méthodes de mesure de similarité (tel que la similarité cosine), ou encore probabiliste (les classifieurs bayésiens naïfs) peuvent également être mises en œuvre. On utilise dans les systèmes les plus performants une combinaison de plusieurs systèmes de classification départagés par une méthode de vote[réf. souhaitée].

La classification peut aussi se faire en se basant sur des méthodes de résumé de features par vectorisation de texte ou transformé sous forme matricielle tel :

Ou la classification peut directement se faire par réseau de neurones récurrents impliquant généralement word2vec.

Mesures de performances

[modifier | modifier le code]

On évalue les performances des systèmes de classification de documents avec des mesures telles que la précision et le rappel, ou encore le F-Score.

Évaluation scientifique

[modifier | modifier le code]

Les chercheurs qui travaillent sur la classification de documents participent à des conférences nationales ou internationales, ainsi qu'à des campagnes d'évaluation. En France, la campagne DEFT (Défi fouille de texte) permet chaque année à des équipes de chercheurs de mesurer les performances de classification sur des tâches variées (genre, catégories, opinions, segmentation).

En Amérique du Nord, la conférence la plus connue est Trec.

Références

[modifier | modifier le code]
  1. (en) Quoc Le et Tomas Mikolov, « Distributed Representations of Sentences and Documents », Proceedings of the 31st International Conference on Machine Learning, PMLR,‎ , p. 1188–1196 (lire en ligne, consulté le )

Articles connexes

[modifier | modifier le code]
{{bottomLinkPreText}} {{bottomLinkText}}
Classification et catégorisation de documents
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?