스캔된 PDF 정리 방법 (노이즈 제거, 페이지 똑바로 펴기)
스캔된 PDF는 페이지가 기울어지고 배경에 얼룩이 있으며 텍스트가 흐릿해 지저분해 보입니다. 전문적이고 읽기 쉬운 결과물을 얻기 위해 정리하는 방법을 알아보세요.
문서 더미를 스캔했는데 결과가... 거칠어 보입니다. 페이지가 약간 기울어져 있습니다. 흰색 배경에는 얼룩과 점이 있는 누런 빛이 돕니다. 종이에서는 선명했던 텍스트가 화면에서는 흐릿하고 희미하게 보입니다. 페이지가 스캐너 유리 위에 평평하게 놓이지 않아 가장자리를 따라 어두운 그림자가 드리워집니다.
이것이 스캔의 현실입니다. 숙련된 작업자가 사용하더라도 좋은 스캐너로도 완벽하지 않은 결과가 나옵니다. 용지가 피드 중에 이동합니다. 평판 스캐너는 모든 먼지 입자를 감지합니다. 오래된 문서에는 스캐너가 충실하게 복제하는 누렇게 변색된 종이, 흐릿한 잉크, 물리적 손상이 있습니다. 그 결과 기술적으로는 작동하지만 전문적이지 않고 읽기 어려운 PDF가 됩니다.
스캔된 PDF를 정리하면 이러한 지저분한 스캔이 똑바로 펴진 페이지, 흰색 배경, 선명한 텍스트, 테두리 노이즈가 없는 깨끗하고 전문적인 문서로 변환됩니다. 더 나아가, 나중에 OCR을 실행하여 텍스트를 검색 가능하고 선택 가능하게 만들 경우 깨끗한 스캔은 훨씬 더 나은 결과를 생성합니다.
스캔된 PDF를 정리하는 방법, 각 정리 단계가 수행하는 작업, OCR과 함께 정리를 사용하는 시점에 대해 설명합니다.

스캔된 PDF 정리가 필요한 이유
무엇이 문제를 일으키는지 이해하면 문서에 가장 중요한 정리 단계를 알 수 있습니다.
기울어짐 (기울어진 페이지)
문서 스캐너를 통해 용지가 약간의 각도로만 통과해도 - 0.5도만 되어도 눈에 띌 수 있습니다 - 결과 이미지가 기울어집니다. 이는 모든 자동 문서 공급 장치(ADF)에서 어느 정도 발생합니다. 인간의 눈은 놀라울 정도로 기울어짐에 민감합니다. 단 1도만 기울어진 페이지도 명백히 비뚤어져 보여 문서가 조잡하고 비전문적으로 느껴집니다.
기울어짐은 OCR 정확도에도 큰 영향을 미칩니다. OCR 엔진은 텍스트가 수평선으로 실행될 것으로 예상합니다. 전체 페이지가 회전하면 텍스트 감지 알고리즘이 줄 경계를 식별하는 데 어려움을 겪어 단어가 뒤섞이고 문자가 누락되며 단락이 깨지는 결과를 초래합니다.
노이즈 (점과 얼룩)
스캐너 노이즈는 여러 출처에서 발생합니다. 스캐너 유리 위의 먼지, 고해상도로 캡처된 용지 질감, 스캐너 센서의 전기적 노이즈, 스캔 광학 장치의 아티팩트입니다. 결과는 페이지 전체에 흩어져 있는 무작위 점과 얼룩입니다. 흰색 배경에서 가장 잘 보이지만 이미지 전체에 존재합니다.
노이즈는 특히 흰색 여백과 텍스트 줄 사이에서 시각적 혼란을 야기합니다. OCR의 경우 노이즈 점이 구두점, 악센트 부호 또는 문자 일부로 잘못 해석될 수 있으며, 이는 OCR 오류의 일반적인 원인입니다.
흐릿한 텍스트
시간이 지남에 따라 잉크가 흐릿해집니다. 레이저 프린트는 잘 유지되지만 잉크젯 프린트, 복사본, 탄소 복사본은 상당히 흐릿해집니다. 비교적 최근 문서라도 인쇄 밀도가 고르지 않을 수 있습니다. 토너가 부족한 곳은 흐리고 신선한 곳은 진합니다.
흐릿한 텍스트는 화면에서 읽기 어렵고 인쇄 품질도 좋지 않습니다. 또한 OCR 정확도를 떨어뜨립니다. 알고리즘이 문자를 안정적으로 식별하려면 텍스트와 배경 간의 명확한 대비가 필요하기 때문입니다.
어두운 테두리와 그림자
페이지가 스캐너 표면 전체를 덮지 않거나 책등이 그림자를 만들면 스캔 시 어두운 테두리와 그림자 영역이 캡처됩니다. 이것들은 스캔 과정의 아티팩트일 뿐이며 문서에 아무런 쓸모가 없습니다. 인쇄 시 토너를 낭비하고 문서가 복사본의 복사본처럼 보이게 합니다.
고르지 않은 배경
종이는 완벽하게 하얗지 않습니다. 오래된 문서는 누렇게 변색됩니다. 재활용 용지는 회색빛을 띱니다. 일부 문서는 유색 용지입니다. 스캔 시 이러한 배경 변화는 픽셀 데이터로 캡처되어 파일 크기에 메가바이트를 추가하면서 가독성에는 아무런 기여를 하지 못합니다.
4가지 정리 단계
PDFSub의 스캔된 PDF 정리 도구는 4가지 정리 단계를 통해 문서를 처리하며, 각 단계는 특정 유형의 스캔 아티팩트를 대상으로 합니다.
1단계: 기울기 보정 (페이지 똑바로 펴기)
기울기 보정은 각 페이지의 주요 텍스트 각도를 감지하고 이미지를 회전하여 텍스트를 완벽하게 수평으로 만듭니다. 알고리즘은 페이지 전체의 어두운 픽셀(텍스트) 분포를 분석하고 필요한 회전 각도를 결정한 다음, 1도 미만의 정밀도로 적용합니다.
대부분의 페이지는 0.3~2도의 보정이 필요합니다. 이 과정은 자동이므로 각도를 지정할 필요가 없습니다. 각 페이지는 독립적으로 분석 및 보정되므로, 3페이지는 왼쪽으로 기울어지고 7페이지는 오른쪽으로 기울어진 문서도 두 가지 보정이 올바르게 적용됩니다.
눈에 띄는 점: 약간 대각선으로 보이던 텍스트 줄이 완벽하게 수평이 됩니다. 개선 사항은 즉시 눈에 띄며 문서가 훨씬 더 전문적으로 보입니다.
2단계: 노이즈 제거 (점 제거)
노이즈 제거는 문서 내용의 일부가 아닌 작고 분리된 표시를 식별하고 제거합니다. 알고리즘은 크기, 모양, 맥락을 기반으로 노이즈(무작위 작은 점)와 실제 내용(텍스트, 선, 이미지)을 구별합니다.
주요 과제는 마침표, 쉼표, 소수점, 악센트 부호와 같은 미세한 세부 정보를 손상시키지 않고 노이즈를 제거하는 것입니다. PDFSub의 정리 엔진은 주변 맥락을 고려하는 적응형 임계값 처리를 사용합니다. 흰색 여백 중앙의 작은 점은 노이즈이지만 문장 끝의 작은 점은 마침표입니다.
눈에 띄는 점: 배경이 더 깨끗해지고 여백이 더 선명해 보이며 전체 문서가 덜 "거칠게" 보입니다. 노이즈가 심한 스캔의 경우 개선이 극적입니다.
3단계: 대비 강화
대비 강화는 텍스트(어두움)와 배경(밝음) 간의 차이를 증가시킵니다. 이렇게 하면 흐릿한 텍스트가 더 읽기 쉬워지고 내용과 배경 간의 시각적 구분이 더 깨끗해집니다.
강화는 적응형으로, 국부적인 이미지 특성에 따라 강도를 조정합니다. 굵은 텍스트가 있는 페이지 섹션은 흐릿한 텍스트가 있는 섹션보다 적게 강화됩니다. 이렇게 하면 이미 어두운 텍스트가 뭉개지는 것을 방지하면서 흐릿한 텍스트를 읽을 수 있는 대비 수준으로 끌어올립니다.
눈에 띄는 점: 텍스트가 더 선명하고 검게 보입니다. 흐릿한 부분이 읽기 쉬워집니다. 배경이 더 밝고 균일해 보입니다.
4단계: 테두리 정리 (어두운 가장자리 제거)
테두리 정리는 스캔된 페이지 가장자리 주변의 어두운 영역 - 스캐너 덮개의 그림자, 페이지가 스캔 영역보다 작아서 생긴 검은색 막대, 책등으로 인한 그림자 아티팩트 - 을 감지하고 제거합니다.
알고리즘은 페이지 내용 경계를 식별하고 그 바깥의 모든 것을 깨끗한 흰색 공간으로 대체합니다. 이렇게 하면 페이지 가장자리까지 확장되는 내용(헤더, 바닥글, 여백 메모 등)을 보존하면서 테두리 아티팩트가 제거됩니다.
눈에 띄는 점: 어두운 가장자리가 사라집니다. 페이지에 깨끗하고 균일한 여백이 생깁니다. 인쇄 출력물에 더 이상 방해되는 테두리가 없습니다.
PDFSub로 스캔된 PDF 정리하기
단계별 지침
1단계: 도구 열기. pdfsub.com/tools/clean-scan으로 이동합니다.
2단계: 스캔된 PDF 업로드. 파일을 드래그 앤 드롭하거나 클릭하여 탐색합니다. PDF가 PDFSub의 안전한 처리 서버로 업로드됩니다.
3단계: 정리 옵션 선택. 적용할 정리 단계를 선택합니다. 기본적으로 네 가지 모두 활성화되어 있지만 필요한 경우 단계를 비활성화할 수 있습니다. 대부분의 스캔된 문서의 경우 네 가지 단계를 모두 적용하면 최상의 결과가 나옵니다.
4단계: 처리. 정리 버튼을 클릭합니다. PDFSub 엔진은 선택한 단계를 통해 각 페이지를 처리합니다. 처리 시간은 페이지 수와 해상도에 따라 다르며 페이지당 약 2-3초가 소요됩니다.
5단계: 검토 및 다운로드. 정리된 페이지를 미리 보고 결과를 확인합니다. 깨끗한 PDF를 다운로드합니다.
정리 단계 사용자 지정 시기
기울기 보정 비활성화: 스캔이 이미 완벽하게 정렬되었거나(예: 좋은 정렬의 전문 문서 스캐너 사용), 문서에 각도를 유지해야 하는 기울어진 콘텐츠(예: 대각선 워터마크)가 포함된 경우.
노이즈 제거 비활성화: 문서에 노이즈로 오인될 수 있는 매우 미세한 세부 정보(점묘화, 망점 사진, 의도적으로 질감이 있는 배경 문서)가 포함된 경우.
대비 강화 줄이기: 원본 스캔의 대비가 이미 좋은 경우. 과도한 강화는 텍스트가 의도한 것보다 더 두껍게 보이게 할 수 있습니다.
테두리 정리 비활성화: 문서에 페이지 가장자리까지 확장되는 콘텐츠가 있거나, 어두운 테두리에 유용한 정보(재단 표시 또는 등록 표시 등)가 포함된 경우.
정리와 OCR 결합하기
스캔된 PDF를 정리하는 가장 강력한 이유 중 하나는 OCR 정확도의 극적인 향상입니다. OCR 엔진은 알려진 글자 형태 데이터베이스에 대해 문자 모양을 분석하여 작동합니다. 문자 모양을 저하시키는 모든 것 - 노이즈, 기울어짐, 낮은 대비, 테두리 아티팩트 - 은 OCR 정확도를 저하시킵니다.
정확도 향상
OCR을 실행하기 전에 스캔된 PDF를 정리하면 일반적으로 문자 인식 정확도가 5-15% 포인트 향상됩니다. 노이즈가 심하거나 기울어진 스캔의 경우 개선이 훨씬 더 극적일 수 있습니다.
- 기울기 보정만으로도 OCR 정확도를 3-8% 향상시킬 수 있습니다. OCR 엔진은 수평 텍스트 줄을 예상하며 약간의 기울어짐만으로도 단어 분할 오류가 발생합니다.
- 노이즈 제거는 잘못된 문자 감지를 방지합니다. 여백의 무작위 점이 문자로 잘못 식별되지 않습니다.
- 대비 강화는 특히 흐릿하거나 밝은 텍스트의 경우 OCR 엔진이 배경과 문자를 구별하는 데 도움이 됩니다.
권장 워크플로우
최상의 결과를 얻으려면 먼저 스캔을 정리한 다음 OCR을 실행합니다.
- 스캔된 PDF를 PDFSub의 스캔된 PDF 정리 도구에 업로드합니다.
- 정리된 버전을 다운로드합니다.
- 정리된 PDF를 PDFSub의 OCR 도구에 업로드합니다.
- 검색 가능하고 선택 가능한 PDF를 다운로드합니다.
이 두 단계 프로세스는 지저분한 스캔에 OCR을 직접 실행하는 것보다 더 나은 결과를 생성합니다.
일반적인 시나리오
사무실 문서 스캔
가장 일반적인 경우: 사무실 복합기에서 스캔한 계약서, 편지, 양식, 보고서. 이러한 문서에는 일반적으로 네 가지 정리 단계가 모두 필요합니다. ADF는 기울어짐을 유발하고, 스캐너는 노이즈를 추가하며, 평판 스캐너에 얼굴을 아래로 향하게 스캔한 문서에는 테두리 그림자가 생깁니다.
책 및 잡지 페이지
제본된 자료를 스캔하면 고유한 아티팩트가 발생합니다. 책등 근처의 곡선 페이지는 왜곡과 그림자를 만들고, 페이지는 제본 각도로 인해 약간 기울어질 수 있으며, 두꺼운 책등은 한쪽 가장자리를 따라 어두운 띠를 만듭니다. 이러한 스캔의 경우 테두리 정리와 기울기 보정이 특히 중요합니다.
역사 및 기록 문서
오래된 문서에는 누렇게 변색된 종이, 흐릿한 잉크, 좀(노화로 인한 갈색 반점), 물리적 손상이 있습니다. 이러한 문서에는 대비 강화가 가장 효과적입니다. 흐릿한 텍스트를 다시 읽을 수 있게 만듭니다. 역사적 문서의 경우 일부 시각적 아티팩트가 역사적으로 중요할 수 있으므로 노이즈 제거를 신중하게 수행합니다.
영수증 및 열전사 프린트
열전사 용지(영수증 프린터에 사용됨)는 빠르게 흐릿해지고 스캔 품질이 좋지 않습니다. 텍스트는 종종 검은색이 아닌 밝은 회색이며 종이는 얼룩덜룩한 모양을 띱니다. 보존해야 할 미세한 세부 정보가 거의 없으므로 공격적인 대비 강화와 노이즈 제거가 열전사 프린트에 잘 작동합니다.
다중 페이지 양식
정부 양식, 세금 문서, 신청 서류 묶음에는 종종 정리를 복잡하게 만드는 사전 인쇄된 상자, 선, 음영이 있습니다. 정리 엔진은 이러한 것들을 잘 처리합니다. 사전 인쇄된 요소는 노이즈 제거를 견딜 만큼 충분히 크며, 기울기 보정은 전체 양식을 올바르게 정렬합니다.
자주 묻는 질문
정리가 문서 내용을 변경하나요?
아니요. 정리는 스캔된 이미지의 시각적 품질에만 영향을 미칩니다. 페이지를 똑바로 펴고, 노이즈를 제거하고, 대비를 강화하고, 테두리를 정리합니다. 텍스트나 콘텐츠를 추가, 제거 또는 수정하지 않습니다. 페이지의 정보는 정확히 동일하게 유지됩니다.
스캔되지 않은 PDF는 정리할 수 있나요?
정리 도구는 각 페이지가 래스터 이미지인 스캔된 PDF를 위해 설계되었습니다. 스캔되지 않은 PDF에 해를 끼치지는 않지만, 정리 단계는 스캔 아티팩트를 위해 특별히 설계되었으며 디지털 소스(Word 내보내기 등)에서 생성된 PDF를 의미 있게 개선하지는 않습니다.
정리가 파일 크기를 얼마나 줄여주나요?
다양하지만, 정리는 일반적으로 파일 크기를 20-40% 줄입니다. 노이즈 제거는 페이지당 수천 개의 불필요한 픽셀을 제거합니다. 테두리 정리는 큰 어두운 영역을 제거합니다. 대비 강화는 더 균일한 배경을 만들어 압축 효율성을 향상시킬 수 있습니다. 80MB였던 50페이지 스캔 문서는 정리 후 50-60MB로 줄어들 수 있습니다.
정리가 컬러 스캔에도 작동하나요?
예. 네 가지 정리 단계 모두 컬러, 그레이스케일, 흑백 스캔에 작동합니다. 컬러 스캔은 특히 배경 정규화 및 테두리 정리의 이점을 얻습니다. 대비 강화는 컬러 정보를 보존하면서 텍스트 가독성을 향상시키는 방식으로 적용됩니다.
결과가 마음에 들지 않으면 정리를 취소할 수 있나요?
정리는 새 파일을 생성하며 원본 PDF는 수정되지 않습니다. 정리가 만족스럽지 않으면 원본 파일로 돌아가면 됩니다. 이러한 이유로 항상 정리된 버전과 함께 원본 스캔을 보관하십시오.
요약
스캔된 PDF를 정리하는 것은 지저분한 스캔을 전문적인 문서로 변환하는 4단계 프로세스입니다.
| 단계 | 수정하는 내용 | 영향 |
|---|---|---|
| 기울기 보정 | 기울어진 페이지 | 똑바로 펴진 전문적인 외관 |
| 노이즈 제거 | 점과 얼룩 | 깨끗한 배경, 더 선명한 텍스트 |
| 강화 | 흐릿하고 대비가 낮은 텍스트 | 읽기 쉽고 인쇄 가능한 결과 |
| 테두리 정리 | 어두운 가장자리와 그림자 | 균일한 여백, 아티팩트 없음 |
각 단계는 독립적이며 켜거나 끌 수 있습니다. 대부분의 스캔된 문서의 경우 네 가지 단계를 모두 실행하면 최상의 결과가 나옵니다. 정리된 출력물은 파일 크기가 작고, 외관이 더 전문적이며, 나중에 검색 가능한 텍스트가 필요한 경우 훨씬 더 나은 OCR 결과를 생성합니다.
스캔을 정리할 준비가 되셨나요? PDFSub의 스캔된 PDF 정리 도구를 사용해 보세요. 스캔된 PDF를 업로드하고 몇 초 안에 깨끗하고 전문적인 결과를 얻으세요.