스캔된 PDF에 OCR을 적용하여 검색 가능하게 만드는 방법
스캔된 PDF는 단순히 페이지를 찍은 사진일 뿐이라 텍스트를 검색하거나 복사, 편집할 수 없습니다. OCR은 보이지 않는 텍스트 레이어를 추가하여 이 문제를 해결합니다. 세 가지 다른 방법으로 이를 수행하는 방법을 알아보세요.
문서 더미를 스캔하여 PDF로 만들었습니다. 화면상으로는 선명하고 읽기 좋으며 전문적으로 보입니다. 하지만 단어를 검색하거나 문단을 복사하고, 전화번호를 선택하려고 하면 아무 일도 일어나지 않습니다. 커서가 마치 이미지를 선택하는 것처럼 페이지 위로 파란색 사각형을 끌 뿐입니다. 바로 그렇게 하고 있기 때문입니다.
스캔된 PDF는 사진입니다. 각 페이지는 단일 이미지이며, 글자, 단어, 문장에 대한 개념이 없는 평면적인 픽셀 그리드입니다. 컴퓨터는 스캔된 PDF에서 노을 사진(JPEG)과 똑같은 양의 텍스트, 즉 아무것도 보지 못합니다.
OCR(광학 문자 인식)이 이 문제를 해결합니다. OCR은 각 페이지의 이미지를 분석하여 문자를 식별하고 원본 스캔 위에 보이지 않는 텍스트 레이어를 추가합니다. 시각적인 모습은 그대로 유지되지만, 이제 텍스트를 검색, 복사, 선택할 수 있으며 화면 읽기 프로그램이 이를 읽을 수 있게 됩니다.
이 가이드에서는 OCR이 무엇인지, 어떻게 작동하는지, 스캔된 PDF에 OCR을 적용하는 세 가지 방법, 그리고 최상의 결과를 얻는 방법을 다룹니다.

PDF에 OCR이 필요한지 확인하는 방법
OCR에 시간을 투자하기 전에 PDF에 실제로 OCR이 필요한지 확인하세요. 많은 PDF는 Word 문서, Excel 스프레드시트 또는 웹 페이지에서 생성된 '디지털 생성' 파일이며 이미 실제 텍스트 레이어를 포함하고 있습니다.
5초 테스트
- PDF 뷰어(Adobe Reader, Preview, Chrome, Edge 등)에서 PDF를 엽니다.
- Ctrl+F(Windows/Linux) 또는 Cmd+F(Mac)를 누릅니다.
- 페이지에서 볼 수 있는 단어를 입력합니다.
- 뷰어가 단어를 강조 표시하면: PDF에 이미 검색 가능한 텍스트가 있는 것입니다. OCR이 필요 없습니다.
- 아무것도 찾을 수 없으면: PDF가 이미지 전용입니다. OCR이 필요합니다.
선택 테스트
페이지에서 텍스트를 클릭하고 드래그하여 선택해 보세요:
- 개별 단어를 선택할 수 있고 파란색으로 강조 표시되면: PDF에 텍스트 레이어가 있는 것입니다.
- 전체 페이지가 하나의 블록으로 선택되면(이미지를 선택하는 것처럼): PDF는 텍스트 레이어가 없는 스캔본입니다.
- 일부 텍스트는 선택할 수 있지만 다른 텍스트는 선택할 수 없으면: PDF에 OCR이 부분적으로 적용되었거나 혼합된 콘텐츠가 있는 경우입니다. 일부 페이지는 디지털이고 다른 페이지는 스캔본입니다.
OCR이 필요한 일반적인 PDF 유형
| 문서 유형 | OCR 필요 여부 | 이유 |
|---|---|---|
| 스캔된 종이 문서 | 예 | 순수 이미지, 텍스트 데이터 없음 |
| PDF로 저장된 팩스 문서 | 예 | 팩스 출력물은 래스터 이미지 |
| 문서 사진(휴대폰 카메라) | 예 | 카메라 캡처 = 이미지 |
| 복사기 '스캔 후 이메일' PDF | 예 | 대부분의 복사기는 이미지 PDF 생성 |
| Word/Excel에서 내보낸 PDF | 아니요 | 디지털 생성, 텍스트 레이어 포함 |
| 웹 브라우저 PDF(PDF로 인쇄) | 아니요 | 텍스트가 보존됨 |
| 온라인에서 다운로드한 정부 양식 | 보통 아니요 | 대부분 디지털 생성 |
| PDF 첨부 파일로 받은 영수증 | 보통 아니요 | 텍스트가 포함된 POS 시스템에서 생성 |
OCR이란 무엇인가? 쉬운 설명
OCR은 광학 문자 인식(Optical Character Recognition)의 약자입니다. 이는 이미지에서 텍스트를 읽어내는 기술로, 마치 사람의 눈이 페이지의 단어를 읽는 것처럼 픽셀 패턴을 분석하여 문자, 숫자, 기호를 식별합니다.
문서를 스캔하면 스캐너는 사진을 만듭니다. 그 사진에는 잉크가 있는 곳은 어둡고 종이가 있는 곳은 밝은 픽셀이 포함되어 있지만, 실제 텍스트 데이터는 없습니다. 스캐너는 픽셀 배열이 "송장(Invoice)"이라는 단어를 의미한다는 것을 알지 못합니다. 그저 이미지를 기록할 뿐입니다.
OCR은 그 이미지를 가져와 모양을 분석하고, 알려진 문자 패턴과 대조하여 해당 모양이 나타내는 텍스트를 출력합니다. 결과물은 원본 스캔과 똑같이 보이지만 보이지 않는 텍스트 레이어가 포함된 PDF입니다. Ctrl+F를 눌러 "12월"을 검색하면 PDF 뷰어가 텍스트 레이어를 확인하고 일치하는 항목을 찾아 이미지에서 해당 단어가 나타나는 영역을 강조 표시합니다.
OCR의 발전 과정
OCR은 1950년대로 거슬러 올라갑니다. 초기 시스템은 통제된 환경에서 특정 글꼴만 처리할 수 있었습니다. 기술은 템플릿 매칭(197080년대), 특징 추출(19902000년대), 머신러닝(2010년대)을 거쳐 발전했습니다. 오늘날의 OCR은 문자 인식을 위한 심층 신경망과 문맥을 사용하여 모호함을 해결하는 언어 모델을 결합합니다. 시스템이 문자가 "l"인지 "1"인지 확실하지 않을 때 주변 단어가 결정을 돕습니다.
최신 OCR 엔진은 깨끗하고 잘 스캔된 인쇄 문서에서 99% 이상의 문자 정확도를 달성합니다.
OCR의 작동 원리: 기술적 과정
OCR은 단일 알고리즘이 아닙니다. 이전 단계를 기반으로 구축되는 일련의 파이프라인입니다.
1단계: 이미지 전처리
문자 인식이 일어나기 전에 OCR 엔진은 이미지를 정리합니다. 여기에는 이진화(최대 대비를 위해 흑백으로 변환), 기울기 보정(1~2도의 미세한 회전도 정확도를 눈에 띄게 떨어뜨릴 수 있으므로 수정), 노이즈 제거(스캐너 아티팩트 및 얼룩 제거), 테두리 제거(검은색 가장자리 및 제본 그림자 제거)가 포함됩니다.
2단계: 레이아웃 분석
엔진은 페이지 구조(텍스트 블록, 열, 이미지, 머리글, 바닥글, 표, 읽기 순서)를 식별합니다. 이 단계가 없으면 2단 문서가 두 열을 동시에 읽는 뒤섞인 출력물을 생성할 수 있습니다.
3단계: 문자 세분화
각 텍스트 블록 내에서 개별 문자가 분리됩니다. 줄은 수직 간격으로, 단어는 수평 간격으로, 단어 내 문자는 경계로 구분됩니다. 이는 생각보다 어렵습니다. 많은 글꼴에서 문자가 겹치거나 닿아 있으며, 아랍어나 데바나가리어 같은 문자 체계에서는 문자가 복잡한 방식으로 연결됩니다.
4단계: 문자 인식
세분화된 각 문자 이미지는 수백만 개의 레이블이 지정된 문자 이미지로 훈련된 심층 신경망을 사용하여 분류됩니다. 네트워크는 단일 답변이 아닌 신뢰도 순위가 매겨진 후보 목록을 출력합니다. 깨끗한 "A"는 99.8%의 신뢰도를 얻을 수 있습니다. 손상된 문자는 훨씬 더 평탄한 분포를 생성할 수 있습니다.
5단계: 언어 모델링
원시 문자 인식은 오류가 발생하기 쉽습니다. 문맥이 모호함을 해결합니다. "lnvoice"가 단어일까요? 아닙니다. "l"은 사실 "I"였고, 따라서 "Invoice"가 됩니다. 통계적 언어 모델은 가능성 있는 문자 시퀀스를 예측하고, 형식 유효성 검사는 날짜 및 숫자와 같은 패턴에 규칙을 적용합니다.
6단계: 출력 생성
인식된 텍스트는 원래 이미지 좌표에 매핑되어 보이지 않는 텍스트 레이어로 PDF에 기록됩니다. 각 단어는 시각적 대응물과 정확하게 정렬되어 검색 및 강조 표시 기능을 활성화합니다.
방법 1: PDFSub OCR 도구 (권장)

PDFSub의 OCR 도구는 스캔된 PDF를 처리하고 모든 페이지의 원래 시각적 모양을 유지하면서 검색 가능한 텍스트 레이어를 추가합니다.
단계별 지침
- OCR 도구로 이동 - pdfsub.com/tools/ocr로 이동합니다.
- 스캔된 PDF 업로드 - 파일을 드래그 앤 드롭하거나 클릭하여 탐색합니다. 큰 문서를 분할할 필요가 없습니다. 다중 페이지 PDF는 자동으로 처리됩니다.
- OCR 문서 처리 - 도구가 각 페이지를 분석하고, 텍스트를 인식하며, 보이지 않는 텍스트 레이어를 구축합니다. 처리 시간은 페이지 수와 복잡성에 따라 다르지만 대부분의 문서는 몇 초 안에 완료됩니다.
- 검색 가능한 PDF 다운로드 - 출력 파일은 원본 스캔과 동일하게 보이지만 이제 텍스트 검색, 텍스트 선택, 복사 및 붙여넣기를 지원합니다.
PDFSub를 선택해야 하는 이유
130개 이상의 언어 지원. OCR은 한국어, 영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어, 아랍어, 힌디어, 러시아어, 포르투갈어 및 120개 이상의 추가 언어로 된 문서에서 작동합니다. 다국어 문서는 자동으로 처리되므로 언어를 미리 지정할 필요가 없습니다.
원본 모양 보존. OCR 프로세스는 시각적 콘텐츠를 변경하지 않고 텍스트 데이터를 추가합니다. 스캔된 페이지는 정확히 동일하게 보입니다. 글꼴, 레이아웃, 도장, 서명 및 수기 주석은 모두 그대로 유지됩니다.
설치할 소프트웨어 없음. 모든 작업은 브라우저나 보안 서버에서 실행됩니다. 다운로드할 것도, 확인해야 할 시스템 요구 사항도, 호환성 문제도 없습니다.
개인정보 보호 설계. 업로드된 문서는 처리 후 삭제됩니다. PDFSub는 파일을 저장하거나 학습에 사용하지 않습니다.
무료 체험. PDFSub는 7일 무료 체험을 제공하므로 결제 전에 자신의 문서로 OCR을 테스트해 볼 수 있습니다.
방법 2: Adobe Acrobat Pro
Adobe Acrobat Pro에는 Scan & OCR 도구 세트 내에 "텍스트 인식(Recognize Text)"이라는 내장 OCR 기능이 포함되어 있습니다.
단계별 지침
- Adobe Acrobat Pro에서 스캔된 PDF를 엽니다.
- 도구로 이동하여 Scan & OCR을 선택합니다.
- 텍스트 인식을 클릭하고 이 파일에서 또는 여러 파일에서를 선택합니다.
- 설정에서 검색 가능한 이미지를 선택합니다(보이지 않는 텍스트 레이어 추가 - 권장).
- 텍스트 인식을 클릭하여 처리를 시작합니다.
- 파일을 저장합니다.
장점 및 한계
Adobe는 깨끗한 영어 스캔본에서 높은 정확도를 제공하고, 일괄 처리를 지원하며, OCR 오류를 직접 수정할 수 있게 합니다. 그러나 Acrobat Pro는 연간 플랜 기준 월 $19.99(연 $239.88)의 비용이 들고, 데스크톱 설치가 필요하며(브라우저 기반 OCR 아님), 약 20개의 언어만 지원하며, 50페이지가 넘는 문서에서는 속도가 느려질 수 있습니다.
방법 3: Google Drive (무료, 하지만 손실 발생)
Google Drive에는 스캔된 PDF에서 텍스트를 추출하는 기본 OCR 기능이 포함되어 있지만, 상당한 단점이 있습니다.
단계별 지침
- 스캔된 PDF를 Google Drive에 업로드합니다.
- 파일을 마우스 오른쪽 버튼으로 클릭하고 연결 앱에서 Google 문서를 선택합니다.
- Google이 PDF를 처리하고 추출된 텍스트로 Google 문서를 만듭니다.
- 이제 텍스트를 검색, 선택 및 편집할 수 있습니다.
장점 및 한계
Google Drive OCR은 완전히 무료이며 깨끗한 타이핑 문서에서 좋은 정확도를 제공하고 언어를 자동으로 감지합니다. 그러나 치명적인 단점이 있습니다. 서식이 파괴됩니다. Google은 PDF에 텍스트 레이어를 추가하는 것이 아니라 텍스트를 Google 문서로 추출합니다. 표는 일반 텍스트가 되고, 열은 무너지며, 원래 레이아웃이 손실됩니다. 결과물은 검색 가능한 PDF가 아니라 Google 문서가 됩니다.
또한 10페이지 미만의 문서에서 가장 잘 작동합니다. 더 긴 문서는 잘릴 수 있습니다.
용도: 원본 레이아웃이 필요하지 않을 때 텍스트 콘텐츠를 추출하는 데 적합합니다. 모양을 유지하는 검색 가능한 PDF가 필요하면 방법 1 또는 방법 2를 사용하세요.
OCR 정확도: 문서 유형별 예상 결과
OCR은 마법이 아닙니다. 정확도는 문서 품질, 콘텐츠 유형 및 스캔 조건에 따라 크게 달라집니다. 실제 테스트 결과는 다음과 같습니다.
타이핑된 문서(최신 글꼴): 95~99%
레이저 프린터로 인쇄된 송장, 계약서, 보고서 등 최신 인쇄 문서는 가장 이상적인 경우입니다. 표준 글꼴은 OCR 학습 데이터에 잘 나타나 있으며, 흰색 종이에 깨끗하게 인쇄된 문서는 높은 대비 이미지를 생성합니다. 250단어 페이지(약 1,500자)에서 99% 정확도라면 약 15개의 문자 오류가 예상됩니다. 대부분 마침표를 쉼표로 잘못 읽거나 소문자 "l"을 "1"로 혼동하는 것과 같이 사소한 오류입니다.
오래된 타자기 문서: 85~95%
기계식 타자기는 일관되지 않은 문자 정렬, 리본 마모로 인한 잉크 밀도 변화, 균일한 문자 너비로 인한 세분화 혼란 등 문제를 제시합니다. 그럼에도 타자기 텍스트는 개별적으로 형성되고 수평으로 정렬되어 있으므로 대부분의 OCR 엔진은 검색 목적으로 충분히 잘 처리합니다.
수기 텍스트: 60~80%
필기체는 OCR의 가장 어려운 과제입니다. 사람 간의 차이뿐만 아니라 한 페이지 내에서도 한 사람의 글씨체 내에서 변동성이 매우 큽니다. 깔끔한 정자체는 80~85%에 도달할 수 있습니다. 줄이 그어진 종이에 연필로 쓴 필기체는 60% 미만으로 떨어질 수 있습니다. 수기 문서의 중요한 데이터는 항상 수동으로 확인하세요.
혼합 콘텐츠(텍스트 + 표): 90~97%
텍스트와 표 데이터를 결합한 문서는 레이아웃 분석 과제를 추가합니다. 셀 내의 문자 인식은 일반적으로 정확하지만, 잘못 식별된 셀 경계, 잘못 할당된 열, 행으로 분할된 다중 줄 셀과 같은 구조적 오류는 데이터 관계를 손상시키며 개별 문자 실수보다 더 중요합니다.
정확도 요약 표
| 문서 유형 | 문자 정확도 | 검색 가능 여부 | 데이터 추출 신뢰도 |
|---|---|---|---|
| 최신 인쇄(레이저) | 95-99% | 우수 | 예 |
| 최신 인쇄(잉크젯) | 93-98% | 우수 | 보통 |
| 오래된 타자기 | 85-95% | 좋음 | 확인 필요 |
| 깔끔한 수기(정자체) | 70-80% | 부분적 | 아니요 - 모두 확인 |
| 필기체 | 60-70% | 낮음 | 아니요 |
| 혼합 텍스트 + 표 | 90-97% | 좋음 | 구조적 검토 필요 |
| 손상된 종이 | 70-90% | 다양함 | 철저한 확인 필요 |
OCR 전 스캔 모범 사례
OCR 정확도에 가장 큰 영향을 미치는 요소는 OCR 소프트웨어가 아니라 스캔 품질입니다. 좋지 않은 스캔본으로 작업하는 훌륭한 OCR 엔진은 훌륭한 스캔본으로 작업하는 평범한 엔진보다 더 나쁜 결과를 낳습니다.
해상도: 최소 300 DPI
**DPI(인치당 도트 수)**는 스캐너가 얼마나 많은 디테일을 캡처하는지 결정합니다.
- 300 DPI: 대부분 문서의 표준입니다. 일반 텍스트 크기(10~12pt)의 표준 글꼴을 안정적으로 인식하기에 충분합니다.
- 600 DPI: 작은 텍스트(각주, 미세한 글씨)나 최대 정확도가 필요할 때 권장됩니다.
- 150 DPI 이하: 권장하지 않습니다. 문자가 너무 작아 안정적인 인식이 어렵습니다. 정확도가 크게 떨어집니다.
- 1200 DPI: OCR에는 과합니다. 정확도 향상은 없으며 파일 크기만 엄청나게 커집니다.
색상 모드: 회색조(Grayscale)가 보통 가장 좋습니다
- 회색조: 대부분 문서에 가장 좋습니다. 파일 크기를 관리 가능한 수준으로 유지하면서 좋은 이진화를 위한 충분한 대비를 보존합니다.
- 흑백: 깨끗하고 대비가 높은 문서에는 작동할 수 있지만 가장자리 영역의 디테일을 파괴할 수 있습니다.
- 색상: 보존해야 할 색상 구분 정보가 포함된 경우에만 필요합니다. OCR 목적상 색상은 회색조보다 이점이 없습니다.
정렬 및 방향
- 페이지를 똑바로 유지하세요. 2
3도의 기울기만으로도 OCR 정확도가 510% 감소할 수 있습니다. 스캐너의 용지 가이드를 사용하여 페이지를 정렬하세요. - 단면 페이지는 앞면이 아래로 향하게 스캔하세요. 뒷면이 비쳐서 OCR 엔진을 혼란스럽게 하는 그림자 텍스트가 생성되지 않도록 하세요.
- 제본된 문서는 평판 스캐너를 사용하세요. 급지식 스캐너는 책이나 제본된 보고서의 페이지를 기울어지게 할 수 있습니다. 평판 스캔은 페이지를 평평하고 올바르게 정렬된 상태로 유지합니다.
스캐너 유지 관리 및 문서 준비
- 배치 스캔 전 유리를 닦으세요. 얼룩은 모든 페이지에 아티팩트를 만듭니다.
- 빈 페이지를 스캔하여 줄무늬를 확인하세요. 수직선은 롤러가 더럽다는 것을 나타냅니다.
- 걸림과 긁힘을 방지하기 위해 스테이플러와 종이 클립을 제거하세요.
- 구겨진 페이지를 펴세요. 깊은 주름은 OCR 엔진이 잘못 읽을 수 있는 그림자를 만듭니다.
- 찢어진 곳은 뒷면에 테이프를 붙여 수리하세요. 앞면에 붙인 테이프는 반사를 일으킵니다.
OCR 후 다음 단계
OCR 실행은 첫 번째 단계일 뿐입니다. 새로 검색 가능해진 문서를 최대한 활용하는 방법은 다음과 같습니다.
결과 확인
특히 중요한 문서는 항상 OCR 출력물을 샘플링하여 확인하세요:
- 문서에 포함된 것으로 알고 있는 핵심 용어를 검색하세요. Ctrl+F로 일관되게 찾을 수 있다면 OCR이 작동하는 것입니다.
- 문단을 복사하여 텍스트 편집기에 붙여넣으세요. 엉망인 단어, 누락된 문자, 의미 없는 대체 등 명백한 오류가 있는지 읽어보세요.
- 숫자를 주의 깊게 확인하세요. 금융 금액, 날짜, 전화번호, 계좌번호는 위험 부담이 큰 데이터입니다. 거래 금액에서 "6"을 "8"로 잘못 읽으면 실제 문제가 발생합니다. OCR 엔진은 가끔 비슷한 숫자를 혼동합니다(0/O, 1/l, 5/S, 6/8).
오류 수정 및 정리
중요한 문서에서 오류를 발견하면 Adobe Acrobat Pro를 사용하여 텍스트 레이어를 직접 편집하거나, 문제가 있는 페이지를 600 DPI로 다시 스캔하여 OCR을 다시 실행할 수 있습니다. 수기 섹션의 경우, 수동 전사가 나쁜 OCR을 수정하는 것보다 종종 더 빠릅니다.
검색 가능해지면 PDF가 기존 워크플로우에 통합됩니다. 데스크톱 검색(Windows Search, Mac의 Spotlight)이 자동으로 색인을 생성합니다. 문서 관리 시스템(SharePoint, Google Drive, Dropbox)을 통해 라이브러리 전체에서 전체 텍스트 검색이 가능합니다. 좋은 파일 이름과 검색 가능한 콘텐츠는 이상적인 조합입니다.
OCR의 실제 사용 사례
종이 아카이브 디지털화
기업, 법률 사무소 및 정부 기관은 종종 수십 년 된 종이 문서를 보유하고 있습니다. 단순히 PDF로 스캔하면 파일 이름으로만 검색 가능한 이미지 파일이 생성됩니다. OCR을 추가하면 수동적인 아카이브가 쿼리 가능한 데이터베이스로 바뀝니다. 일반적인 워크플로우: 300 DPI 회색조로 스캔, OCR 실행, 명명 규칙 적용, 문서 관리 시스템에 업로드.
법률 문서를 검색 가능하게 만들기
법률 전문가는 증거 개시 및 실사 과정에서 엄청난 양의 문서를 다룹니다. 상대 변호인이 수천 페이지의 스캔된 문서를 제출할 수 있습니다. OCR이 없으면 검토를 위해 모든 페이지를 수동으로 읽어야 합니다. OCR을 사용하면 변호사가 전체 세트에서 핵심 용어, 이름, 날짜 및 금액을 검색할 수 있어 현실적인 일정 내에 검토가 가능해집니다.
접근성 준수
미국 장애인법(ADA) 및 섹션 508에 따라 정부 기관 및 연방 자금 지원 조직의 디지털 문서는 접근 가능해야 합니다. 화면 읽기 프로그램은 이미지 전용 PDF를 해석할 수 없으며 텍스트 레이어가 필요합니다. OCR은 준수를 위한 첫 번째 단계입니다. 추가 작업(제목 구조, 대체 텍스트, 읽기 순서 태그)이 뒤따를 수 있지만 텍스트 레이어가 없으면 접근성은 불가능합니다.
보험 및 금융 처리
보험사와 은행은 수백만 건의 스캔된 청구 양식, 의료 기록, 수표 및 대출 신청서를 받습니다. OCR은 자동 데이터 추출을 가능하게 하여 정책 번호, 청구 금액, 서비스 날짜 및 계좌 세부 정보를 스캔된 문서에서 처리 시스템으로 가져옵니다.
학술 및 연구 아카이브
대학, 도서관 및 아카이브는 역사적 문서, 신문 및 원고를 디지털화하고 있습니다. OCR은 수 세기의 지식을 검색 가능하게 만듭니다. Google Books 및 Internet Archive와 같은 프로젝트는 수십억 페이지의 OCR을 수행하여 수동으로 읽는 데 평생이 걸릴 컬렉션 전체에서 전체 텍스트 검색을 가능하게 했습니다.
자주 묻는 질문(FAQ)
여러 PDF를 한 번에 OCR할 수 있나요(일괄 처리)?
네. PDFSub는 단일 작업으로 다중 페이지 문서를 처리하는 것을 지원합니다. 수백 또는 수천 개의 파일과 같은 대규모 일괄 작업의 경우 도구를 통해 순차적으로 처리합니다. Adobe Acrobat Pro는 전체 PDF 폴더를 자동으로 처리할 수 있는 Action Wizard 기능을 통해 일괄 OCR도 제공합니다.
OCR이 PDF의 모양을 변경하나요?
아니요. 적절한 OCR은 보이는 페이지 이미지 뒤에 보이지 않는 텍스트 레이어를 추가합니다. 스캔된 PDF의 시각적 모양은 변경되지 않으며 동일한 페이지, 동일한 레이아웃, 동일한 해상도를 유지합니다. 텍스트 레이어는 검색 기능, 텍스트 선택, 복사 및 붙여넣기, 화면 읽기 프로그램에만 "보입니다".
이미 검색 가능한 텍스트가 있는 PDF에 OCR을 실행하면 어떻게 되나요?
대부분의 OCR 도구는 기존 텍스트 레이어를 감지하여 해당 페이지를 건너뛰거나 다시 처리할 수 있는 옵션을 제공합니다. 이미 검색 가능한 PDF에 OCR을 실행하는 것은 일반적으로 무해하지만 불필요합니다. 기존 텍스트 레이어를 개선하지 않으며 중복 데이터로 인해 파일 크기가 약간 증가할 수 있습니다.
OCR 후 파일 크기가 증가하나요?
약간 증가합니다. 일반적인 스캔 문서의 경우 5~15% 증가를 예상하세요. 텍스트 레이어 자체는 작으며(문자 및 위치 데이터), 스캔된 PDF의 대부분을 구성하는 이미지 데이터에 비하면 증가분은 미미합니다.
OCR은 스캔된 페이지와 디지털 페이지가 혼합된 PDF를 처리할 수 있나요?
네. 좋은 OCR 도구는 각 페이지를 독립적으로 처리합니다. 이미 텍스트 레이어가 있는 페이지는 감지되어 건너뛸 수 있습니다. 이미지 전용 페이지는 처리됩니다. 결과물은 원본이 어떻게 구성되었는지에 관계없이 완전히 검색 가능한 PDF가 됩니다.
OCR은 어떤 언어를 지원하나요?
언어 지원은 도구에 따라 다릅니다. PDFSub의 OCR은 라틴 문자(영어, 스페인어, 프랑스어, 독일어), CJK(중국어, 일본어, 한국어), 키릴 문자(러시아어, 우크라이나어), 아랍 문자(아랍어, 페르시아어, 우르두어), 데바나가리어(힌디어, 마라티어) 등을 포함하여 130개 이상의 언어를 지원합니다.
OCR이 필기체를 읽을 수 있나요?
부분적으로 가능합니다. 깔끔한 정자체는 7080% 정확도에 도달합니다. 필기체는 훨씬 더 어렵습니다(6070% 이하). 수기 문서의 중요한 데이터는 항상 결과를 수동으로 확인하세요.
OCR은 PDF 텍스트 추출과 동일한가요?
아니요. OCR은 텍스트 이미지를 실제 문자로 변환합니다. 텍스트 데이터가 없고 픽셀만 있을 때 필요합니다. PDF 텍스트 추출은 디지털 PDF의 콘텐츠 스트림에 이미 존재하는 텍스트를 읽습니다. 텍스트가 작업하기 어려운 형식에 갇혀 있을 때 필요합니다. PDF가 디지털 생성된 것이라면 추출이 필요합니다. 스캔된 것이라면 먼저 OCR이 필요합니다.
OCR은 휴대폰 카메라로 찍은 사진에서도 작동하나요?
네, 하지만 정확도는 사진 품질에 따라 다릅니다. 최상의 결과를 얻으려면 휴대폰을 문서와 평행하게 잡고, 균일한 조명(그림자 없음)을 확보하고, 프레임을 채우고, 흔들리지 않게 잡고, 가능하다면 휴대폰의 문서 스캔 모드를 사용하세요. 휴대폰 사진은 일반적으로 깨끗한 인쇄 텍스트에 대해 85~95%의 정확도를 생성합니다. 평판 스캔보다 낮지만 검색 가능성에는 충분한 경우가 많습니다.
OCR 후 텍스트를 편집할 수 있나요?
OCR 텍스트 레이어는 보이지 않으며 스캔 이미지 위에 배치됩니다. 텍스트를 복사하여 편집기에 붙여넣거나, Adobe Acrobat Pro를 사용하여 텍스트 레이어를 직접 편집하거나, 편집을 위해 Word 또는 일반 텍스트로 내보낼 수 있습니다. 스캔된 문서의 보이는 내용을 변경하려면 다시 스캔하거나 PDF 편집기를 사용하여 이미지 위에 주석을 추가해야 합니다.
OCR 시작하기
검색 가능하게 만들어야 할 스캔된 PDF가 있다면 가장 빠른 방법은 간단합니다.
- PDF 테스트 - Ctrl+F 테스트를 사용하여 OCR이 필요한지 확인하세요.
- PDFSub의 OCR 도구 사용 - pdfsub.com/tools/ocr에 스캔된 PDF를 업로드하고 결과를 확인하세요.
- 출력물 확인 - 몇 페이지를 샘플링하여 정확도가 요구 사항을 충족하는지 확인하세요.
- 나머지 문서 처리 - 결과에 확신이 생기면 밀린 작업을 처리하세요.
PDFSub는 플랫폼의 OCR 도구 및 기타 모든 PDF 도구에 대한 액세스를 포함하는 7일 무료 체험을 제공합니다. 스캔된 문서를 업로드하고 검색 가능한 텍스트가 만드는 차이를 확인하세요. 언제든지 취소할 수 있습니다.