Question 1

Quelle qualite puis-je attendre de l'extraction de texte OCR ?

Accepted Answer

La precision de l'OCR depend de la qualite du document scanne. Les scans propres et a haute resolution avec des polices standard atteignent generalement une precision de 90 a 99%. Les scans flous, l'ecriture manuscrite ou les polices inhabituelles produiront une precision moindre.

Question 2

Quelles langues sont prises en charge ?

Accepted Answer

Nous prenons en charge 9 langues : francais, anglais, espagnol, portugais, allemand, italien, neerlandais, japonais et coreen. Selectionnez la bonne langue avant le traitement pour ameliorer considerablement la precision de la reconnaissance.

Question 3

Quelle est la difference entre les PDF scannes et les PDF texte ?

Accepted Answer

Un PDF texte contient de vrais caracteres qui peuvent etre selectionnes et copies directement. Un PDF scanne contient des images de pages sans texte selectionnable. L'OCR est necessaire pour les PDF scannes afin d'extraire le texte des images.

Question 4

Mon PDF est-il envoye a un serveur pour le traitement OCR ?

Accepted Answer

Non. Votre PDF reste sur votre appareil. Le moteur OCR Tesseract.js et le modele de langue (~15 Mo) sont telecharges dans votre navigateur une fois et mis en cache. Toute la reconnaissance de texte se fait localement dans votre navigateur.

OCR PDF — Extraire du texte

Comment utiliser

A propos de cet outil

Questions frequentes