Home » Tech & Internet » PDF : les différents types de fichiers disponibles
Pdf

PDF : les différents types de fichiers disponibles

Vous ne le saviez peut-être pas, mais il existe différents types de fichiers PDF. Concrètement, les fichiers PDF peuvent être classés en trois catégories distinctes, en fonction de la manière dont le fichier a été créé : les PDF « normaux », les PDF scannés et les PDF consultables ou interrogeables. Le point sur le sujet avec edit-pdfs.

Les PDF « normaux »

Egalement connus sous le nom de PDF à base de texte ou créés numériquement, ces fichiers sont créés à l’aide de logiciels tels que Microsoft Word, Excel, ou en utilisant la fonction « imprimer en PDF » de ces programmes. Ils sont composés à la fois de texte et d’images, en deux couches : une couche pour l’image et une seconde pour le texte. La couche image montre à quoi ressemblera le document s’il est imprimé sur papier. La couche texte est le texte consultable qui est transféré du fichier Word original dans le nouveau fichier PDF.

Les PDF « normaux » sont adaptés à la plupart des applications. Il s’agit généralement du PDF idéal qui permet aux utilisateurs de marquer, d’annoter, de rechercher et de copier/coller, sans avoir à effectuer une étape supplémentaire. Vous pouvez facilement les créer dans l’application d’origine ou via la fonction « imprimer ». Il est également possible d’effectuer des recherches dans ce type de PDF par défaut, mais aussi de modifier, sélectionner ou supprimer tout le contenu. Exception faite des cas où le document est protégé par un mot de passe.

Les PDF scannés

Les PDF scannés ne sont qu’une image du texte réel, le contenu est donc « verrouillé » dans une image de type instantané : c’est comme si vous convertissiez une photo, une capture d’écran, un fichier jpg ou tiff en PDF. Ces fichiers PDF constitués uniquement d’images ne sont pas consultables et leur texte ne peut généralement pas être modifié ou annoté facilement. Cela s’explique par le fait qu’il s’agit d’images numérisées des pages, et donc sans couche de texte sous-jacente.

Il est possible de convertir ce type de PDF scanné de sorte à rendre un texte lisible, grâce à un moteur de reconnaissance optique de caractères (ROC). Ce moteur ajoute une couche de texte sous-jacente dans le PDF. Notez que ce n’est pas la même chose que de produire simplement une sortie texte qui donnera un document texte, dont la mise en page sera probablement très différente de celle du PDF d’origine.

Les PDF consultables

Un PDF consultable est le résultat de l’application de la fonction de reconnaissance optique de caractères (OCR) à un PDF non lisible ou à un PDF de type image. Au cours du processus de reconnaissance du texte, le logiciel analyse et lit les caractères et la structure du document. Le fichier PDF comporte alors deux couches : une couche contenant l’image et une deuxième couche contenant le texte reconnu pour la recherche, l’annotation et le copier/coller, comme dans un vrai PDF. Ces fichiers PDF sont presque impossibles à distinguer des documents originaux. L’idéal est de pouvoir convertir un PDF en texte à la volée, dans l’application, lorsque vous en avez besoin.

Laisser un commentaire