Une mesure de similarité sémantique pour la classification de documents par le contenu
Dans cet article, nous proposons une approche pour classifier des documents à partir de leur contenu. Le contenu des documents est exprimé par des annotations représentées sous forme d'arbres. Étant donnée une hiérarchie d'annotations génériques, notre approche vise à rattacher une annotation spécifique à une ou plusieurs classes possibles dans la hiérarchie. Ce processus de classification repose sur une mesure de similarité qui permet de mesurer l'écart entre une annotation spécifique et une annotation générique. Un schéma d'algorithme de classification de documents est proposé à partir de cette mesure de similarité.
In this paper, we propose an approach for content-based classification of textual documents. The annotation related to the content of a document is represented as a tree. Then we define classes of annotations that are organized within a hierarchy (of trees). The objective of our approach is to recognize for a given annotation the classes of annotations to which it can be attached. This classification process is based on a similarity measure, allowing the comparison of the tree structure of annotations. A schema of algorithm for this similarity-based process of classification of documents is proposed.
R.AL HULOU, A.NAPOLI, E.NAUER
mesure de similarité sémantique, arbre de similarité, classification, hiérarchie de classes, annotation de documents.
semantic similarity measure, similarity tree, classification, hierarchy of classes, document annotation.
Français
|