On voit bien que ce besoin de restructurer se développe de plus en plus. Les logiciels de bureautique peuvent relire ces documents déstructurés. ADOBE développe des outils qui permettent de transformer ces fichiers déstructurés en fichiers utilisables par la plupart des logiciels de bureautique.
De même, de très nombreux travaux de recherches se sont concentrés ces 10 dernières années sur comment restructurer les fichiers PDF qui contiennent du texte ou des tableaux de type tableur. Aucun de ces travaux de recherche ne porte sur le problème de la restructuration des données qui contiennent des dessins et du texte. Il existe des solutions qui permettent d’afficher tous les éléments graphiques qui sont contenus dans les fichiers PDF, c’est par exemple le cas PACK’ELEC de la société Algo’Tech Informatique.
Mais en général, ces logiciels ne traitent que le cas des fichiers PDF, alors que, nous l’avons vu, les formats des documents déstructurés sont beaucoup plus nombreux. Ces outils ont aussi souvent des difficultés pour traiter certains types de fichier PDF, en particulier, quand les fontes des caractères sont embarquées dans le fichier PDF. La recomposition des textes à partir des lettres pose souvent de très nombreux problèmes quand les textes sont inclinés ou à la verticale. Les objets purement graphiques sont, la plupart du temps, laissés tels que. Par exemple, un segment qui est un trait d’axe, est composé d’autant de segments qu’il existe de traits, ce qui rend sa manipulation très difficile ou impossible.