Question 1

OCR 텍스트 추출의 품질은 어떻습니까?

Accepted Answer

OCR 정확도는 스캔된 문서의 품질에 따라 달라집니다. 표준 글꼴을 사용한 깨끗한 고해상도 스캔은 일반적으로 90-99%의 정확도를 달성합니다. 흐릿한 스캔, 손글씨 또는 특이한 글꼴은 정확도가 낮아집니다.

Question 2

어떤 언어가 지원됩니까?

Accepted Answer

9개 언어를 지원합니다: 한국어, 영어, 스페인어, 포르투갈어, 프랑스어, 독일어, 이탈리아어, 네덜란드어, 일본어. 처리 전에 올바른 언어를 선택하면 인식 정확도가 크게 향상됩니다.

Question 3

스캔 PDF와 텍스트 PDF의 차이점은 무엇입니까?

Accepted Answer

텍스트 PDF는 직접 선택하고 복사할 수 있는 실제 텍스트 문자를 포함합니다. 스캔 PDF는 선택 가능한 텍스트가 없는 페이지 이미지를 포함합니다. 스캔 PDF에서 텍스트를 추출하려면 OCR이 필요합니다.

Question 4

OCR 처리를 위해 PDF가 서버로 전송됩니까?

Accepted Answer

아니요. PDF는 사용자의 장치에 남아 있습니다. Tesseract.js OCR 엔진과 언어 모델(~15 MB)은 브라우저에 한 번만 다운로드되어 캐시됩니다. 모든 텍스트 인식은 브라우저에서 로컬로 수행됩니다.

OCR PDF — 텍스트 추출

사용 방법