Question 1

Que qualidade posso esperar da extracao de texto OCR?

Accepted Answer

A precisao do OCR depende da qualidade do documento digitalizado. Digitalizacoes limpas e de alta resolucao com fontes padrao geralmente alcancam 90-99% de precisao. Digitalizacoes borradas, escrita a mao ou fontes incomuns produzirao menor precisao.

Question 2

Quais idiomas sao suportados?

Accepted Answer

Suportamos 9 idiomas: portugues, ingles, espanhol, frances, alemao, italiano, holandes, japones e coreano. Selecione o idioma correto antes de processar para melhorar significativamente a precisao do reconhecimento.

Question 3

Qual e a diferenca entre PDFs digitalizados e PDFs de texto?

Accepted Answer

Um PDF de texto contem caracteres reais que podem ser selecionados e copiados diretamente. Um PDF digitalizado contem imagens de paginas sem texto selecionavel. O OCR e necessario para PDFs digitalizados para extrair o texto das imagens.

Question 4

Meu PDF e enviado a um servidor para processamento OCR?

Accepted Answer

Nao. Seu PDF permanece no seu dispositivo. O motor OCR Tesseract.js e o modelo de idioma (~15 MB) sao baixados para o seu navegador uma vez e armazenados em cache. Todo o reconhecimento de texto acontece localmente no seu navegador.

OCR PDF — Extrair texto

Como usar esta ferramenta

Sobre esta ferramenta

Perguntas frequentes