스캔된 PDF를 OCR하는 방법 (검색 가능하게 만들기)
스캔된 PDF는 페이지의 이미지일 뿐이므로 텍스트를 검색, 복사 또는 편집할 수 없습니다. OCR은 보이지 않는 텍스트 레이어를 추가하여 이를 수정합니다. 세 가지 다른 방법으로 이를 수행하는 방법은 다음과 같습니다.
문서 더미를 스캔하여 PDF로 만들었습니다. 화면에서는 선명하고 읽기 쉬우며 전문적으로 보입니다. 하지만 단어를 검색하거나, 문단을 복사하거나, 전화번호를 선택하려고 하면 아무 일도 일어나지 않습니다. 마치 이미지를 선택하는 것처럼 커서가 페이지를 가로질러 파란색 사각형을 끕니다. 실제로 하고 있는 일이 바로 그것이기 때문입니다.
스캔된 PDF는 사진입니다. 각 페이지는 단일 이미지로, 글자, 단어 또는 문장의 개념이 없는 평평한 픽셀 격자입니다. 컴퓨터는 스캔된 PDF에서 석양의 JPEG 이미지에서 보는 것만큼의 텍스트만 인식합니다. 즉, 텍스트는 전혀 인식하지 못합니다.
OCR(광학 문자 인식)이 이 문제를 해결합니다. 각 페이지의 이미지를 분석하여 문자를 식별하고 원본 스캔 위에 보이지 않는 텍스트 레이어를 추가합니다. 시각적 모양은 동일하게 유지되지만 이제 검색, 복사, 텍스트 선택이 가능하며 화면 판독기에서 접근할 수 있습니다.
이 가이드에서는 OCR이란 무엇인지, 어떻게 작동하는지, 스캔된 PDF를 OCR하는 세 가지 방법, 그리고 최상의 결과를 얻는 방법에 대해 다룹니다.
PDF에 OCR이 필요한지 확인하는 방법
OCR에 시간을 투자하기 전에 PDF에 실제로 필요한지 확인하세요. 많은 PDF는 "디지털로 생성"되어 워드 문서, Excel 스프레드시트 또는 웹 페이지에서 만들어지므로 이미 실제 텍스트 레이어를 포함하고 있습니다.
5초 테스트
- 모든 뷰어(Adobe Reader, 미리보기, Chrome, Edge)에서 PDF를 엽니다.
- Ctrl+F(Windows/Linux) 또는 Cmd+F(Mac)를 누릅니다.
- 페이지에서 보이는 단어를 입력합니다.
- 뷰어에서 단어를 강조 표시하면 PDF에 이미 검색 가능한 텍스트가 있는 것입니다. OCR이 필요하지 않습니다.
- 아무것도 찾을 수 없으면 PDF가 이미지 전용입니다. OCR이 필요합니다.
선택 테스트
페이지에서 텍스트를 클릭하고 드래그하여 선택해 보세요:
- 개별 단어를 선택할 수 있고 파란색으로 강조 표시되면 PDF에 텍스트 레이어가 있는 것입니다.
- 전체 페이지가 하나의 블록으로 선택되면 (이미지를 선택하는 것처럼) PDF는 텍스트 레이어가 없는 스캔입니다.
- 일부 텍스트는 선택할 수 있지만 다른 텍스트는 선택할 수 없는 경우: PDF에 부분 OCR 또는 혼합 콘텐츠가 있는 것입니다. 일부 페이지는 디지털이고 다른 페이지는 스캔된 것입니다.
OCR이 필요한 일반적인 PDF 유형
| 문서 유형 | 일반적으로 OCR이 필요한가요? | 이유 |
|---|---|---|
| 스캔된 종이 문서 | 예 | 순수 이미지, 텍스트 데이터 없음 |
| 팩스로 받은 문서를 PDF로 저장 | 예 | 팩스 출력은 래스터 이미지 |
| 문서 사진 (휴대폰 카메라) | 예 | 카메라 캡처 = 이미지 |
| 복사기 "이메일로 스캔"에서 생성된 PDF | 예 | 대부분의 복사기는 이미지 PDF를 생성합니다 |
| Word/Excel에서 내보낸 PDF | 아니요 | 디지털 생성, 텍스트 레이어 포함 |
| 웹 브라우저에서 생성된 PDF (PDF로 인쇄) | 아니요 | 텍스트가 보존됨 |
| 온라인에서 다운로드한 정부 양식 | 일반적으로 아니요 | 대부분 디지털 생성 |
| PDF 첨부 파일로 이메일 받은 영수증 | 일반적으로 아니요 | POS 시스템에서 텍스트로 생성됨 |
OCR이란 무엇인가요? 쉬운 설명
OCR은 광학 문자 인식(Optical Character Recognition)의 약자입니다. 이미지에서 텍스트를 읽는 기술로, 픽셀 패턴을 분석하여 글자, 숫자, 기호를 식별합니다. 마치 눈으로 페이지의 단어를 읽는 것과 같습니다.
문서를 스캔하면 스캐너가 사진을 만듭니다. 이 사진에는 잉크가 있는 곳은 검은색, 종이가 있는 곳은 흰색인 픽셀이 포함되어 있지만 실제 텍스트 데이터는 없습니다. 스캐너는 픽셀 배열이 "Invoice"를 철자한다는 것을 알지 못합니다. 단순히 이미지만 기록합니다.
OCR은 이 이미지를 가져와 모양을 분석하고 알려진 문자 패턴과 일치시켜 해당 모양이 나타내는 텍스트를 출력합니다. 결과는 원본 스캔과 동일하게 보이지만 보이지 않는 텍스트 레이어를 포함하는 PDF입니다. Ctrl+F를 누르고 "December"를 검색하면 PDF 뷰어가 텍스트 레이어를 확인하고 해당 단어가 나타나는 이미지 영역을 강조 표시합니다.
OCR의 발전 과정
OCR은 1950년대에 시작되었으며, 초기 시스템은 통제된 환경에서 특정 글꼴만 처리할 수 있었습니다. 이 기술은 템플릿 매칭(1970-80년대), 특징 추출(1990-2000년대), 머신러닝(2010년대)을 거쳐 발전했습니다. 오늘날의 OCR은 문자 인식을 위한 딥 신경망과 문맥을 사용하여 모호성을 해결하는 언어 모델을 결합합니다. 시스템이 문자가 "l"인지 "1"인지 확신하지 못하는 경우 주변 단어가 이를 결정하는 데 도움이 됩니다.
현대 OCR 엔진은 깨끗하고 잘 스캔된 인쇄 문서에서 99% 이상의 문자 정확도를 달성합니다.
OCR 작동 방식: 기술적 프로세스
OCR은 단일 알고리즘이 아닙니다. 각 단계가 이전 단계를 기반으로 구축되는 파이프라인입니다.
1단계: 이미지 전처리
문자 인식이 시작되기 전에 OCR 엔진이 이미지를 정리합니다. 여기에는 이진화(최대 대비를 위해 흑백으로 변환), 기울기 보정(페이지 회전을 약간 보정 - 1-2도 기울임도 정확도를 눈에 띄게 줄일 수 있음), 노이즈 제거(스캐너 아티팩트 및 얼룩 제거), 테두리 제거(검은색 가장자리 및 제본 그림자 제거)가 포함됩니다.
2단계: 레이아웃 분석
엔진은 텍스트 블록, 열, 이미지, 머리글, 바닥글, 표 및 읽기 순서와 같은 페이지 구조를 식별합니다. 이 단계 없이는 두 열로 된 문서가 두 열을 동시에 읽는 것처럼 뒤죽박죽된 출력을 생성할 수 있습니다.
3단계: 문자 분할
각 텍스트 블록 내에서 개별 문자가 분리됩니다. 줄은 수직 간격으로, 단어는 수평 간격으로, 단어 내 문자는 경계로 분리됩니다. 이는 생각보다 어렵습니다. 많은 글꼴에서 문자가 겹치거나 붙어 있으며, 아랍어 및 데바나가리 스크립트와 같은 스크립트에서는 문자가 복잡하게 연결됩니다.
4단계: 문자 인식
각 분할된 문자 이미지는 수백만 개의 레이블이 지정된 문자 이미지로 학습된 딥 신경망을 사용하여 분류됩니다. 네트워크는 단일 답변이 아닌 신뢰도 순위 목록을 출력합니다. 깨끗한 "A"는 99.8%의 신뢰도를 얻을 수 있습니다. 열화된 문자는 훨씬 더 평평한 분포를 생성할 수 있습니다.
5단계: 언어 모델링
원시 문자 인식은 오류가 발생하기 쉽습니다. 문맥이 모호성을 해결합니다. "lnvoice"는 단어인가요? 아닙니다. "l"은 실제로 "I"였으므로 "Invoice"가 됩니다. 통계 언어 모델은 가능한 문자 시퀀스를 예측하고 형식 유효성 검사는 날짜 및 숫자와 같은 패턴에 규칙을 적용합니다.
6단계: 출력 생성
인식된 텍스트는 원본 이미지 좌표에 다시 매핑되고 PDF에 보이지 않는 텍스트 레이어로 작성됩니다. 각 단어는 시각적 해당 부분과 정확하게 정렬되어 검색 및 강조 표시 기능을 지원합니다.
방법 1: PDFSub OCR 도구 (권장)
PDFSub의 OCR 도구는 스캔된 PDF를 처리하고 모든 페이지의 원본 시각적 모양을 유지하면서 검색 가능한 텍스트 레이어를 추가합니다.
단계별 지침
- OCR 도구로 이동 — pdfsub.com/tools/ocr로 이동합니다.
- 스캔된 PDF 업로드 — 파일을 드래그 앤 드롭하거나 클릭하여 찾아봅니다. 대용량 문서를 분할할 필요가 없습니다. 다중 페이지 PDF는 자동으로 처리됩니다.
- OCR이 문서를 처리합니다 — 도구가 각 페이지를 분석하고 텍스트를 인식하며 보이지 않는 텍스트 레이어를 빌드합니다. 처리 시간은 페이지 수와 복잡성에 따라 다르지만 대부분의 문서는 몇 초 안에 완료됩니다.
- 검색 가능한 PDF 다운로드 — 출력 파일은 원본 스캔과 동일하게 보이지만 이제 텍스트 검색, 텍스트 선택 및 복사-붙여넣기를 지원합니다.
PDFSub를 선택하는 이유
130개 이상의 언어 지원. OCR은 영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 러시아어, 포르투갈어 및 120개 이상의 추가 언어로 된 문서에 대해 작동합니다. 다국어 문서는 자동으로 처리됩니다. 미리 언어를 지정할 필요가 없습니다.
원본 모양 유지. OCR 프로세스는 시각적 콘텐츠를 변경하지 않고 텍스트 데이터를 추가합니다. 스캔된 페이지는 정확히 동일하게 보입니다. 글꼴, 레이아웃, 스탬프, 서명 및 손글씨 주석은 모두 그대로 유지됩니다.
설치할 소프트웨어 없음. 모든 것이 브라우저 또는 보안 서버에서 실행됩니다. 다운로드할 것이 없고, 시스템 요구 사항을 확인할 필요가 없으며, 호환성 문제가 없습니다.
개인 정보 보호 설계. 업로드된 문서는 처리된 후 삭제됩니다. PDFSub는 파일을 저장하거나 학습에 사용하지 않습니다.
무료 체험. PDFSub는 7일 무료 체험판을 제공하므로 구독하기 전에 자체 문서에 OCR을 테스트할 수 있습니다.
방법 2: Adobe Acrobat Pro
Adobe Acrobat Pro에는 "스캔 및 OCR" 도구 세트 내에 "텍스트 인식"이라는 내장 OCR 기능이 있습니다.
단계별 지침
- Adobe Acrobat Pro에서 스캔된 PDF를 엽니다.
- 도구로 이동하여 스캔 및 OCR을 선택합니다.
- 텍스트 인식을 클릭하고 이 파일에서 또는 여러 파일에서를 선택합니다.
- 설정에서 검색 가능한 이미지를 선택합니다 (보이지 않는 텍스트 레이어를 추가합니다 - 권장).
- 텍스트 인식을 클릭하여 처리를 시작합니다.
- 파일을 저장합니다.
장점 및 한계
Adobe는 깨끗한 영어 스캔에서 높은 정확도를 제공하고, 일괄 처리를 지원하며, OCR 오류를 직접 수정할 수 있습니다. 그러나 Acrobat Pro는 연간 요금제 기준 월 $19.99($239.88/년)이며, 데스크톱 설치가 필요하고(브라우저 기반 OCR 없음), 약 20개 언어만 지원하며, 50페이지 이상의 문서에서는 속도가 느릴 수 있습니다.
방법 3: Google Drive (무료, 하지만 손실 발생)
Google Drive에는 스캔된 PDF에서 텍스트를 추출하는 기본 OCR 기능이 있지만 상당한 절충이 있습니다.
단계별 지침
- 스캔된 PDF를 Google Drive에 업로드합니다.
- 파일에 마우스 오른쪽 버튼을 클릭하고 다음으로 열기를 선택한 다음 Google 문서를 선택합니다.
- Google이 PDF를 처리하고 추출된 텍스트가 포함된 Google 문서를 만듭니다.
- 이제 텍스트를 검색, 선택 및 편집할 수 있습니다.
장점 및 한계
Google Drive OCR은 완전히 무료이며, 깨끗한 입력 문서에서 좋은 정확도를 제공하고, 언어를 자동으로 감지합니다. 그러나 중요한 절충점이 있습니다. 서식이 파괴됩니다. Google은 PDF에 텍스트 레이어를 추가하는 것이 아니라 Google 문서로 텍스트를 추출합니다. 표는 일반 텍스트가 되고, 열은 축소되며, 원본 레이아웃은 손실됩니다. 결과적으로 검색 가능한 PDF가 아닌 Google 문서를 얻게 됩니다.
또한 10페이지 미만의 문서에서 가장 잘 작동합니다. 더 긴 문서는 잘릴 수 있습니다.
최적: 원본 레이아웃이 필요하지 않은 경우 텍스트 콘텐츠를 추출하는 데 사용합니다. 모양을 유지하는 검색 가능한 PDF가 필요한 경우 방법 1 또는 방법 2를 사용하세요.
OCR 정확도: 문서 유형별 예상 결과
OCR은 마법이 아닙니다. 정확도는 문서 품질, 콘텐츠 유형 및 스캔 조건에 따라 크게 달라집니다. 실제 테스트 결과는 다음과 같습니다.
입력된 문서 (최신 글꼴): 95-99%
최신 인쇄 문서(송장, 계약서, 레이저 프린터로 인쇄된 보고서)가 가장 좋은 시나리오입니다. 표준 글꼴은 OCR 학습 데이터에 잘 표현되어 있으며, 흰색 용지에 깨끗하게 인쇄하면 높은 대비 이미지가 생성됩니다. 250단어 페이지(약 1,500자)에서 99% 정확도를 기준으로 약 15개의 문자 오류가 예상됩니다. 대부분은 점이 쉼표로 잘못 읽히거나 소문자 "l"이 "1"과 혼동되는 것과 같이 사소한 오류입니다.
오래된 타자기 문서: 85-95%
기계식 타자기는 일관성 없는 문자 정렬, 리본 마모로 인한 다양한 잉크 밀도, 균일한 문자 너비로 인한 분할 혼동과 같은 문제를 야기합니다. 그럼에도 불구하고 타자 텍스트는 개별적으로 형성되고 수평으로 정렬되므로 대부분의 OCR 엔진은 검색 목적으로 충분히 잘 처리합니다.
손글씨 텍스트: 60-80%
손글씨는 여전히 OCR의 가장 어려운 과제입니다. 변동성이 엄청납니다. 사람마다 다를 뿐만 아니라 한 페이지 내에서도 한 사람의 글씨체에 따라 다릅니다. 깔끔한 블록 인쇄는 80-85%에 도달할 수 있습니다. 연필로 줄이 있는 종이에 쓴 필기체는 60% 미만으로 떨어질 수 있습니다. 손글씨 문서의 중요 데이터는 항상 수동으로 확인하세요.
혼합 콘텐츠 (텍스트 + 표): 90-97%
텍스트와 표 형식 데이터를 결합한 문서는 레이아웃 분석 문제를 추가합니다. 셀 내 문자 인식은 일반적으로 정확하지만, 셀 경계 오인식, 잘못 할당된 열, 여러 줄 셀이 행으로 분할되는 것과 같은 구조적 오류는 개별 문자 오류보다 데이터 관계를 손상시킵니다.
정확도 요약 표
| 문서 유형 | 문자 정확도 | 검색 가능? | 데이터 추출 신뢰성? |
|---|---|---|---|
| 최신 인쇄 (레이저) | 95-99% | 우수 | 예 |
| 최신 인쇄 (잉크젯) | 93-98% | 우수 | 보통 |
| 오래된 타자기 | 85-95% | 좋음 | 확인 필요 |
| 깔끔한 손글씨 (블록) | 70-80% | 부분적 | 아니요 - 모든 것 확인 필요 |
| 필기체 손글씨 | 60-70% | 낮음 | 아니요 |
| 텍스트 + 표 혼합 | 90-97% | 좋음 | 구조 검토 필요 |
| 열화/손상된 용지 | 70-90% | 다양함 | 상당한 확인 필요 |
OCR 전 스캔을 위한 모범 사례
OCR 정확도에 가장 큰 영향을 미치는 것은 OCR 소프트웨어가 아니라 스캔 품질입니다. 훌륭한 OCR 엔진이 형편없는 스캔으로 작업하면 훌륭한 스캔으로 작업하는 평범한 엔진보다 나쁜 결과를 생성합니다.
해상도: 최소 300 DPI
**DPI(인치당 도트 수)**는 스캐너가 캡처하는 세부 정보의 양을 결정합니다.
- 300 DPI: 대부분의 문서에 대한 표준입니다. 일반 텍스트 크기(10-12pt)의 표준 글꼴을 안정적으로 인식하기에 충분합니다.
- 600 DPI: 작은 텍스트(각주, 작은 글씨) 또는 최대 정확도가 필요한 경우 권장됩니다.
- 150 DPI 이하: 권장되지 않습니다. 문자가 너무 작아 안정적으로 인식할 수 없습니다. 정확도가 크게 떨어집니다.
- 1200 DPI: OCR에는 과도합니다. 정확도 향상은 없으며 파일 크기가 엄청나게 커집니다.
색상 모드: 일반적으로 회색조가 가장 좋음
- 회색조: 대부분의 문서에 가장 좋습니다. 파일 크기를 관리 가능한 상태로 유지하면서 좋은 이진화를 위한 충분한 대비를 유지합니다.
- 흑백: 깨끗하고 대비가 높은 문서에 사용할 수 있지만 주변 영역의 세부 정보가 손실될 수 있습니다.
- 컬러: 문서에 보존해야 할 색상 코딩 정보가 포함된 경우에만 필요합니다. OCR 목적으로 색상은 회색조보다 이점이 없습니다.
정렬 및 방향
- 페이지를 똑바로 유지하세요. 2-3도의 기울임만으로도 OCR 정확도가 5-10% 감소할 수 있습니다. 스캐너의 용지 가이드를 사용하여 페이지를 정렬하세요.
- 단면 페이지를 아래로 향하게 스캔하세요. 뒷면의 번짐이 OCR 엔진을 혼란스럽게 하는 그림자 텍스트를 생성하지 않도록 합니다.
- 제본된 문서의 경우 평판 스캐너를 사용하세요. 시트 피드 스캐너는 책이나 제본된 보고서의 페이지를 기울일 수 있습니다. 평판 스캔은 페이지를 평평하고 올바르게 정렬된 상태로 유지합니다.
스캐너 유지 관리 및 문서 준비
- 배치를 스캔하기 전에 유리창을 청소하세요. 얼룩은 모든 페이지에 아티팩트를 만듭니다.
- 빈 페이지를 스캔하여 줄무늬가 있는지 확인하세요. 수직선은 더러운 롤러를 나타냅니다.
- 걸림 및 긁힘을 방지하기 위해 스테이플러와 클립을 제거하세요.
- 구겨진 페이지를 평평하게 펴세요. 깊은 주름은 OCR 엔진이 잘못 읽을 수 있는 그림자를 만듭니다.
- 뒷면에 테이프를 사용하여 찢어진 부분을 수리하세요. 앞면에 테이프를 붙이면 반사가 발생합니다.
OCR 후: 다음 단계
OCR 실행은 첫 단계일 뿐입니다. 새로 검색 가능한 문서를 최대한 활용하는 방법은 다음과 같습니다.
결과 확인
특히 중요한 문서의 경우 OCR 결과를 항상 부분적으로 확인하세요.
- 문서에 나타나는 것으로 알고 있는 주요 용어를 검색하세요. Ctrl+F가 일관되게 찾으면 OCR이 작동하는 것입니다.
- 단락을 복사하여 텍스트 편집기에 붙여넣으세요. 명백한 오류(깨진 단어, 누락된 문자, 말이 안 되는 대체)를 읽어보세요.
- 숫자를 주의 깊게 확인하세요. 금융 금액, 날짜, 전화번호, 계정 번호는 중요한 데이터입니다. 거래 금액에서 "6"이 "8"로 잘못 읽히는 것은 실제 문제입니다. OCR 엔진은 때때로 유사한 숫자(0/O, 1/l, 5/S, 6/8)를 혼동합니다.
오류 수정 및 정리
중요한 문서에서 오류를 발견하면 Adobe Acrobat Pro를 사용하여 텍스트 레이어를 직접 편집하거나, 문제가 있는 페이지를 600 DPI로 다시 스캔하고 OCR을 다시 실행할 수 있습니다. 손글씨 부분의 경우, 형편없는 OCR을 수정하는 것보다 수동으로 전사하는 것이 더 빠른 경우가 많습니다.
검색 가능해지면 PDF는 기존 워크플로에 통합됩니다. 데스크톱 검색(Windows 검색, Mac의 Spotlight)은 자동으로 인덱싱합니다. 문서 관리 시스템(SharePoint, Google Drive, Dropbox)은 라이브러리 전체에서 전체 텍스트 검색을 가능하게 합니다. 좋은 파일 이름과 검색 가능한 콘텐츠가 이상적인 조합입니다.
OCR의 실제 사용 사례
종이 아카이브 디지털화
기업, 법률 사무소, 정부 기관은 수십 년간의 종이 문서를 보유하고 있는 경우가 많습니다. 단순히 PDF로 스캔하면 파일 이름으로만 검색 가능한 이미지 파일이 생성됩니다. OCR을 추가하면 수동 아카이브를 쿼리 가능한 데이터베이스로 전환할 수 있습니다. 일반적인 워크플로: 300 DPI 회색조로 스캔, OCR 실행, 명명 규칙 적용, 문서 관리 시스템에 업로드.
법률 문서 검색 가능하게 만들기
법률 전문가는 증거 개시 및 실사 과정에서 방대한 양의 문서를 다룹니다. 상대방 변호사는 수천 페이지의 스캔된 문서를 제출할 수 있습니다. OCR 없이는 검토는 모든 페이지를 수동으로 읽는 것을 의미합니다. OCR을 사용하면 변호사는 전체 세트에서 핵심 용어, 이름, 날짜 및 금액을 검색할 수 있어 현실적인 시간 내에 검토가 가능합니다.
접근성 규정 준수
장애인 미국인법(ADA) 및 섹션 508에 따라 정부 기관 및 연방 자금 지원 기관의 디지털 문서는 접근 가능해야 합니다. 화면 판독기는 이미지 전용 PDF를 해석할 수 없습니다. 텍스트 레이어가 필요합니다. OCR은 규정 준수를 위한 첫 번째 단계입니다. 추가 작업(제목 구조, 대체 텍스트, 읽기 순서 태그)이 이어질 수 있지만 텍스트 레이어 없이는 접근성이 불가능합니다.
보험 및 금융 처리
보험 회사와 은행은 수백만 건의 스캔된 청구 양식, 의료 기록, 수표 및 대출 신청서를 받습니다. OCR은 스캔된 문서에서 보험 증권 번호, 청구 금액, 서비스 날짜 및 계정 세부 정보를 처리 시스템으로 가져오는 자동 데이터 추출을 가능하게 합니다.
학술 및 연구 아카이브
대학, 도서관, 아카이브는 역사 문서, 신문, 원고를 디지털화하고 있습니다. OCR은 수세기 동안의 지식을 검색 가능하게 만듭니다. Google 도서 및 인터넷 아카이브와 같은 프로젝트는 수십억 페이지를 OCR 처리하여 수명으로는 수동으로 읽을 수 없는 컬렉션 전체에서 전체 텍스트 검색을 가능하게 했습니다.
자주 묻는 질문
여러 PDF를 한 번에 OCR할 수 있나요 (일괄 처리)?
예. PDFSub는 다중 페이지 문서를 단일 작업으로 처리하는 것을 지원합니다. 대규모 일괄 작업(수백 또는 수천 개의 파일)의 경우 도구를 통해 순차적으로 처리해야 합니다. Adobe Acrobat Pro는 전체 PDF 폴더를 자동으로 처리할 수 있는 작업 마법사 기능을 통해 일괄 OCR도 제공합니다.
OCR이 내 PDF 모양을 변경하나요?
아니요. 올바른 OCR은 보이는 페이지 이미지 뒤에 보이지 않는 텍스트 레이어를 추가합니다. 스캔된 PDF의 시각적 모양은 변경되지 않습니다. 동일한 페이지, 동일한 레이아웃, 동일한 해상도입니다. 텍스트 레이어는 검색 기능, 텍스트 선택, 복사-붙여넣기 및 화면 판독기에만 "보입니다".
이미 검색 가능한 텍스트가 있는 PDF에 OCR을 실행하면 어떻게 되나요?
대부분의 OCR 도구는 기존 텍스트 레이어를 감지하고 해당 페이지를 건너뛰거나 다시 처리할 옵션을 제공합니다. 이미 검색 가능한 PDF에 OCR을 실행하는 것은 일반적으로 무해하지만 불필요합니다. 기존 텍스트 레이어를 개선하지 않으며 중복 데이터로 인해 파일 크기가 약간 증가할 수 있습니다.
OCR 후 파일 크기가 증가하나요?
약간 증가합니다. 일반적인 스캔 문서의 경우 5-15% 증가를 예상하세요. 텍스트 레이어 자체는 작고(문자 및 위치 데이터) 스캔된 PDF의 대부분을 구성하는 이미지 데이터에 비해 증가는 미미합니다.
OCR이 스캔된 페이지와 디지털 페이지가 혼합된 PDF를 처리할 수 있나요?
예. 좋은 OCR 도구는 각 페이지를 독립적으로 처리합니다. 이미 텍스트 레이어가 있는 페이지는 감지되어 건너뛸 수 있습니다. 이미지 전용 페이지는 처리됩니다. 결과는 원본이 어떻게 조립되었는지에 관계없이 완전히 검색 가능한 PDF입니다.
OCR은 어떤 언어를 지원하나요?
언어 지원은 도구마다 다릅니다. PDFSub의 OCR은 라틴 스크립트(영어, 스페인어, 프랑스어, 독일어), CJK(중국어, 일본어, 한국어), 키릴 스크립트(러시아어, 우크라이나어), 아랍 스크립트(아랍어, 페르시아어, 우르두어), 데바나가리(힌디어, 마라티어) 등 130개 이상의 언어를 지원합니다.
OCR이 손글씨를 읽을 수 있나요?
부분적으로. 깔끔한 블록 인쇄는 70-80%의 정확도에 도달합니다. 필기체는 훨씬 더 어렵습니다(60-70% 이하). 손글씨 문서의 중요 데이터는 항상 결과를 수동으로 확인하세요.
OCR은 PDF 텍스트 추출과 동일한가요?
아니요. OCR은 텍스트 이미지를 실제 문자로 변환합니다. 텍스트 데이터가 없고 픽셀만 있는 경우에 필요합니다. PDF 텍스트 추출은 디지털 PDF의 콘텐츠 스트림에 이미 존재하는 텍스트를 읽습니다. 쉽게 작업할 수 없는 형식에 갇힌 텍스트가 있는 경우에 필요합니다. PDF가 디지털로 생성된 경우 추출이 필요합니다. 스캔된 경우 먼저 OCR이 필요합니다.
OCR이 휴대폰 카메라로 찍은 사진에도 작동하나요?
예, 하지만 정확도는 사진 품질에 따라 다릅니다. 최상의 결과를 얻으려면: 휴대폰을 문서에 평행하게 잡고, 고른 조명(그림자 없음)을 보장하고, 프레임을 채우고, 안정적으로 잡고, 가능한 경우 휴대폰의 문서 스캔 모드를 사용하세요. 휴대폰 사진은 깨끗한 입력 텍스트에 대해 일반적으로 85-95%의 정확도를 생성합니다. 평판 스캐너보다 낮지만 검색 가능성에는 종종 충분합니다.
OCR 후 텍스트를 편집할 수 있나요?
OCR 텍스트 레이어는 보이지 않으며 스캔 이미지 위에 배치됩니다. 텍스트를 복사하여 모든 편집기에 붙여넣거나, Adobe Acrobat Pro를 사용하여 텍스트 레이어를 직접 편집하거나, 편집을 위해 Word 또는 일반 텍스트로 내보낼 수 있습니다. 스캔된 문서의 보이는 내용을 변경하려면 다시 스캔하거나 PDF 편집기를 사용하여 이미지 위에 주석을 추가해야 합니다.
OCR 시작하기
검색이 필요한 스캔된 PDF가 있다면 가장 빠른 방법은 간단합니다.
- PDF 테스트 — Ctrl+F 테스트를 사용하여 OCR이 필요한지 확인합니다.
- PDFSub OCR 도구 사용 — pdfsub.com/tools/ocr에서 스캔된 PDF를 업로드하고 결과를 확인합니다.
- 결과 확인 — 몇 페이지를 부분적으로 확인하여 정확도가 요구 사항을 충족하는지 확인합니다.
- 나머지 문서 처리 — 결과에 만족하면 백로그를 처리합니다.
PDFSub는 OCR 도구 및 플랫폼의 다른 모든 PDF 도구에 대한 액세스 권한이 포함된 7일 무료 체험판을 제공합니다. 스캔된 문서를 업로드하고 검색 가능한 텍스트가 만드는 차이를 확인하세요. 언제든지 취소할 수 있습니다.