Question 1

Welke kwaliteit kan ik verwachten van OCR-tekstextractie?

Accepted Answer

De OCR-nauwkeurigheid hangt af van de kwaliteit van het gescande document. Schone, hoge-resolutie scans met standaardlettertypen behalen doorgaans een nauwkeurigheid van 90-99%. Wazige scans, handschrift of ongebruikelijke lettertypen leveren een lagere nauwkeurigheid op.

Question 2

Welke talen worden ondersteund?

Accepted Answer

We ondersteunen 9 talen: Nederlands, Engels, Spaans, Portugees, Frans, Duits, Italiaans, Japans en Koreaans. Selecteer de juiste taal voor verwerking om de herkenningsnauwkeurigheid aanzienlijk te verbeteren.

Question 3

Wat is het verschil tussen gescande PDF's en tekst-PDF's?

Accepted Answer

Een tekst-PDF bevat echte teksttekens die direct geselecteerd en gekopieerd kunnen worden. Een gescande PDF bevat afbeeldingen van pagina's zonder selecteerbare tekst. OCR is nodig voor gescande PDF's om de tekst uit de paginaafbeeldingen te extraheren.

Question 4

Wordt mijn PDF naar een server gestuurd voor OCR-verwerking?

Accepted Answer

Nee. Uw PDF blijft op uw apparaat. De Tesseract.js OCR-engine en het taalmodel (~15 MB) worden eenmalig naar uw browser gedownload en gecacht. Alle tekstherkenning vindt lokaal plaats in uw browser.

OCR PDF — Tekst extraheren

Hoe te gebruiken

Over deze tool

Veelgestelde vragen