Restructurer un document déstructuré est une opération très complexe. Comme vous allez le voir, il faut maitriser de nombreuses techniques pour arriver à reconstituer la structure. Le but est de retrouver les structures initiales qui ont été utilisées lors de la création des documents. Les principales techniques que nous allons utiliser sont :
- La lecture et l’interprétation de nombreux formats de fichiers qui contiennent ces documents déstructurés
- L’utilisation d’algorithmes de stringologie après codification de l’information pour retrouver les répétitions ou pattern
- La fouille de données ou data mining
- Les méthodologies d’extraction des connaissances des données (ECD) ou en anglais Knowledge discovey in DataBase (KDD)
- Des algorithmes d’apprentissage ou Deep-Learning en anglais
- Des algorithmes d’intelligence Artificielle (IA) ou Artificial Intelligence en anglais (AI)
- Des Interfaces Homme Machine (IHM) ou Computer Human Interface en anglais (CHI)
Les documents déstructurés sont très nombreux. Nous nous intéressons essentiellement aux documents fortement graphiques, c’est-à-dire des documents contenant des dessins et des textes.