스캔한 PDF 깔끔하게 정리하는 방법 (노이즈 제거, 페이지 직선화)
스캔한 PDF는 기울어진 페이지, 얼룩진 배경, 흐릿한 텍스트 때문에 지저분해 보일 수 있습니다. 전문적이고 가독성 높은 결과물을 위해 PDF를 깔끔하게 정리하는 방법을 알아보세요.
문서 더미를 스캔했는데 결과가 만족스럽지 않으신가요? 페이지는 약간 기울어져 있고, 하얀 배경은 노란 끼가 돌며 얼룩과 점들이 가득할 수 있습니다. 종이 위에서는 선명했던 텍스트가 화면에서는 흐릿하고 뭉쳐 보이며, 페이지가 스캐너 유리에 밀착되지 않아 가장자리에 검은 그림자가 생기기도 합니다.
이것이 스캔의 현실입니다. 성능 좋은 스캐너를 숙련된 사용자가 조작하더라도 완벽한 결과를 얻기는 어렵습니다. 급지 과정에서 종이가 틀어지기도 하고, 평판 스캐너는 아주 작은 먼지까지도 모두 잡아냅니다. 오래된 문서는 종이가 누렇게 변색되거나 잉크가 번지고 물리적인 손상이 있을 수 있는데, 스캐너는 이를 그대로 재현합니다. 그 결과, 기능적으로는 문제가 없지만 보기에는 전문성이 떨어지고 읽기 불편한 PDF가 만들어집니다.
스캔한 PDF를 정리하면 이러한 지저분한 스캔본을 직선화된 페이지, 깨끗한 배경, 선명한 텍스트를 갖춘 전문적인 문서로 탈바꿈시킬 수 있습니다. 무엇보다 깨끗하게 정리된 스캔본은 나중에 OCR을 실행하여 텍스트를 검색하거나 선택 가능하게 만들 때 훨씬 더 나은 결과를 보장합니다.
지금부터 스캔한 PDF를 정리하는 방법과 각 단계별 역할, 그리고 정리 작업과 OCR을 병행해야 하는 이유를 설명해 드리겠습니다.
스캔한 PDF 정리가 필요한 이유
문제가 발생하는 원인을 이해하면 문서에 어떤 정리 단계가 가장 중요한지 파악하는 데 도움이 됩니다.
기울기 (기울어진 페이지)
종이가 문서 스캐너를 통과할 때 0.5도만 틀어져도 결과물은 눈에 띄게 기울어집니다. 이는 모든 자동 급지 장치(ADF)에서 어느 정도 발생하는 현상입니다. 인간의 눈은 기울기에 매우 민감하여, 단 1도만 기울어져도 페이지가 삐뚤어 보이고 문서 전체가 조잡하고 비전문적으로 느껴지게 만듭니다.
기울기는 OCR 정확도에도 치명적입니다. OCR 엔진은 텍스트가 가로 방향으로 나열되어 있다고 가정합니다. 페이지 전체가 회전되어 있으면 텍스트 감지 알고리즘이 줄 바꿈을 식별하는 데 어려움을 겪어 단어가 뒤섞이거나 문자가 누락되고 단락이 깨지는 현상이 발생합니다.
노이즈 (얼룩 및 점)
스캐너 노이즈는 스캐너 유리의 먼지, 고해상도로 캡처된 종이의 질감, 스캐너 센서의 전기적 노이즈 등 다양한 원인으로 발생합니다. 그 결과 페이지 곳곳에 무작위로 점과 얼룩이 흩어지게 되는데, 이는 흰색 배경에서 가장 두드러지게 나타납니다.
노이즈는 특히 여백이나 텍스트 줄 사이에서 시각적 혼란을 야기합니다. OCR 작업 시 이러한 노이즈 점들은 구두점, 문장 부호 또는 문자의 일부로 오인될 수 있으며, 이는 OCR 오류의 흔한 원인이 됩니다.
흐릿한 텍스트
시간이 지나면 잉크는 바랩니다. 레이저 인쇄물은 비교적 오래 유지되지만, 잉크젯 인쇄물, 복사본, 먹지 복사본은 심하게 흐려집니다. 비교적 최근 문서라도 토너 상태에 따라 인쇄 농도가 불균일할 수 있습니다.
흐릿한 텍스트는 화면에서 읽기 어렵고 인쇄 품질도 떨어집니다. 또한 알고리즘이 문자를 안정적으로 식별하기 위해서는 텍스트와 배경 사이의 명확한 대비가 필요하기 때문에 OCR 정확도도 낮아집니다.
어두운 테두리 및 그림자
페이지가 스캐너 표면 전체를 덮지 않거나 책의 제본 부분이 그림자를 만들 때, 스캔본에는 어두운 테두리와 그림자 영역이 생깁니다. 이는 스캔 과정에서 발생하는 불필요한 요소일 뿐입니다. 인쇄 시 토너를 낭비하게 만들고, 문서를 마치 '복사본의 복사본'처럼 보이게 합니다.
불균일한 배경
종이는 완벽하게 하얗지 않습니다. 오래된 문서는 누렇게 변하고, 재생지는 회색빛을 띱니다. 어떤 문서는 색지에 인쇄되기도 합니다. 스캔 시 이러한 배경의 차이는 픽셀 데이터로 캡처되어 가독성에는 도움이 되지 않으면서 파일 용량만 수 메가바이트씩 늘립니다.
4단계 정리 프로세스
PDFSub의 스캔한 PDF 정리 도구는 네 가지 단계를 통해 문서를 처리하며, 각 단계는 특정 스캔 결함을 해결합니다.
1단계: 디스큐 (페이지 직선화)
디스큐(Deskew)는 각 페이지의 주요 텍스트 각도를 감지하고 이미지를 회전시켜 텍스트를 완벽하게 수평으로 맞춥니다. 알고리즘은 페이지 전체의 어두운 픽셀(텍스트) 분포를 분석하여 필요한 회전 각도를 결정하고, 1도 미만의 정밀도로 이를 적용합니다.
대부분의 페이지는 0.3도에서 2도 사이의 교정이 필요합니다. 이 과정은 자동으로 진행되므로 사용자가 직접 각도를 지정할 필요가 없습니다. 각 페이지는 독립적으로 분석되고 교정되므로, 3페이지는 왼쪽으로 기울고 7페이지는 오른쪽으로 기울어진 문서라도 모두 정확하게 교정됩니다.
효과: 약간 대각선으로 보이던 텍스트 줄이 완벽하게 수평이 됩니다. 시각적으로 즉각적인 개선 효과가 나타나며 문서가 훨씬 전문적으로 보입니다.
2단계: 디노이즈 (얼룩 제거)
디노이즈(Denoise)는 문서 내용이 아닌 작고 고립된 자국들을 식별하여 제거합니다. 알고리즘은 크기, 모양, 맥락을 바탕으로 노이즈(무작위의 작은 점)와 실제 내용(텍스트, 선, 이미지)을 구분합니다.
핵심은 마침표, 쉼표, 소수점, 문장 부호와 같은 미세한 디테일을 손상시키지 않으면서 노이즈만 제거하는 것입니다. PDFSub Engine은 주변 맥락을 고려하는 적응형 임계값 방식을 사용합니다. 예를 들어, 흰 여백 한가운데에 있는 작은 점은 노이즈로 간주하고, 문장 끝에 있는 작은 점은 마침표로 인식합니다.
효과: 배경이 깨끗해지고 여백이 선명해지며 문서 전체의 '거친 느낌'이 줄어듭니다. 노이즈가 심한 스캔본일수록 개선 효과가 극적으로 나타납니다.
3단계: 대비 향상
대비 향상은 텍스트(어두운 부분)와 배경(밝은 부분)의 차이를 극대화합니다. 이를 통해 흐릿한 텍스트의 가독성을 높이고 내용과 배경을 시각적으로 명확하게 분리합니다.
이 향상 작업은 적응형으로 이루어집니다. 즉, 이미지의 국소적 특성에 따라 강도를 조절합니다. 굵은 텍스트가 있는 부분은 적게 향상시키고, 흐릿한 텍스트가 있는 부분은 더 강하게 향상시킵니다. 이를 통해 이미 어두운 텍스트가 뭉치는 것을 방지하면서 흐릿한 텍스트만 선명하게 살려냅니다.
효과: 텍스트가 더 날카롭고 검게 보입니다. 흐릿했던 부분이 읽기 쉬워지며 배경은 더 밝고 균일해집니다.
4단계: 테두리 정리 (어두운 가장자리 제거)
테두리 정리는 스캐너 덮개로 인한 그림자, 스캔 영역보다 작은 페이지 때문에 생긴 검은 막대, 책 제본 부분의 그림자 등 페이지 가장자리의 어두운 영역을 감지하여 제거합니다.
알고리즘은 페이지 내용의 경계를 식별하고 그 바깥쪽의 모든 요소를 깨끗한 흰색 공간으로 대체합니다. 헤더, 푸터, 여백 메모와 같이 페이지 가장자리까지 뻗어 있는 내용은 보존하면서 불필요한 테두리 결함만 제거합니다.
효과: 어두운 가장자리가 사라집니다. 페이지 여백이 깨끗하고 균일해지며, 인쇄 시 지저분한 테두리가 나타나지 않습니다.
PDFSub으로 스캔한 PDF 정리하기
단계별 안내
1단계: 도구 열기. pdfsub.com/tools/clean-scan으로 이동합니다.
2단계: 스캔한 PDF 업로드. 파일을 드래그 앤 드롭하거나 클릭하여 선택합니다. PDF는 PDFSub의 보안 처리 서버로 업로드됩니다.
3단계: 정리 옵션 선택. 적용할 정리 단계를 선택합니다. 기본적으로 4단계가 모두 활성화되어 있지만, 필요에 따라 특정 단계를 끌 수 있습니다. 대부분의 스캔 문서에는 4단계를 모두 적용하는 것이 가장 좋습니다.
4단계: 처리 시작. 정리 버튼을 클릭합니다. PDFSub Engine이 선택한 단계에 따라 각 페이지를 처리합니다. 처리 시간은 페이지 수와 해상도에 따라 다르지만, 보통 페이지당 2~3초 정도 소요됩니다.
5단계: 확인 및 다운로드. 정리된 페이지를 미리 보고 결과를 확인합니다. 만족스럽다면 정리된 PDF를 다운로드합니다.
정리 단계를 사용자 정의해야 하는 경우
디스큐 비활성화: 전문 문서 스캐너를 사용하여 이미 정렬이 완벽하거나, 대각선 워터마크처럼 의도적으로 기울어진 내용이 포함된 경우에 사용합니다.
디노이즈 비활성화: 점묘화, 망점 사진 또는 의도적으로 질감이 있는 배경을 가진 문서처럼 미세한 디테일이 노이즈로 오인될 가능성이 있는 경우에 사용합니다.
대비 향상 강도 조절: 원본 스캔본의 대비가 이미 충분히 좋은 경우에 사용합니다. 과도한 향상은 텍스트를 의도보다 두껍게 만들 수 있습니다.
테두리 정리 비활성화: 내용이 페이지 끝까지 꽉 차 있거나, 재단선이나 등록 마크와 같이 가장자리의 어두운 부분에 유용한 정보가 포함된 경우에 사용합니다.
정리 작업과 OCR 병행하기
스캔한 PDF를 정리해야 하는 가장 큰 이유 중 하나는 OCR 정확도가 비약적으로 향상되기 때문입니다. OCR 엔진은 문자의 모양을 기지의 글꼴 데이터베이스와 대조하여 분석합니다. 노이즈, 기울기, 낮은 대비, 테두리 결함 등 문자 모양을 훼손하는 모든 요소는 OCR 정확도를 떨어뜨립니다.
정확도 향상 효과
OCR을 실행하기 전에 스캔본을 정리하면 일반적으로 문자 인식 정확도가 5~15% 포인트 향상됩니다. 노이즈가 심하거나 심하게 기울어진 스캔본의 경우 개선 효과는 더욱 극적입니다.
- **기울기 보정(Deskew)**만으로도 OCR 정확도를 3~8% 높일 수 있습니다. OCR 엔진은 가로 텍스트 줄을 예상하므로 약간의 기울기만으로도 단어 분할 오류가 발생할 수 있습니다.
- 노이즈 제거는 잘못된 문자 감지를 방지합니다. 여백의 무작위 점들이 글자나 구두점으로 오인되지 않도록 합니다.
- 대비 향상은 특히 흐릿하거나 연한 텍스트의 경우 OCR 엔진이 배경과 문자를 더 잘 구분할 수 있게 돕습니다.
권장 워크플로우
최상의 결과를 얻으려면 먼저 스캔본을 정리한 다음 OCR을 실행하세요.
- 스캔한 PDF를 PDFSub의 스캔한 PDF 정리 도구에 업로드합니다.
- 정리된 버전을 다운로드합니다.
- 정리된 PDF를 PDFSub의 OCR 도구에 업로드합니다.
- 검색 및 선택이 가능한 PDF를 다운로드합니다.
- 지저분한 원본에 바로 OCR을 돌리는 것보다 훨씬 뛰어난 결과물을 얻을 수 있습니다.
일반적인 활용 사례
사무용 문서 스캔
가장 흔한 사례로, 사무용 복합기에서 스캔한 계약서, 편지, 양식, 보고서 등이 해당합니다. ADF는 기울기를 유발하고 스캐너는 노이즈를 추가하며, 평판에 엎어 놓고 스캔한 문서는 테두리 그림자가 생기기 마련이므로 4단계 정리가 모두 필요합니다.
책 및 잡지 페이지
제본된 자료를 스캔하면 독특한 결함이 생깁니다. 제본 부위 근처의 굴곡진 페이지는 왜곡과 그림자를 만들고, 제본 각도 때문에 페이지가 약간 기울어질 수 있으며, 두꺼운 제본선은 가장자리에 검은 띠를 만듭니다. 이러한 스캔본에는 테두리 정리와 디스큐가 특히 중요합니다.
역사 및 보관 문서
오래된 문서는 종이가 변색되고 잉크가 바래며, 곰팡이 얼룩(foxing)이나 물리적 손상이 있습니다. 이러한 문서에는 대비 향상이 가장 효과적이며, 흐릿한 텍스트를 다시 읽을 수 있게 해줍니다. 다만, 역사적으로 의미가 있는 시각적 흔적이 있을 수 있으므로 디노이즈는 주의해서 적용해야 합니다.
영수증 및 감열지 인쇄물
영수증 프린터에 사용되는 감열지는 빠르게 변색되어 스캔 품질이 좋지 않습니다. 텍스트는 검은색보다는 연한 회색에 가깝고 종이는 얼룩덜룩해 보입니다. 감열지 인쇄물은 보존해야 할 미세한 디테일이 거의 없으므로 강력한 대비 향상과 디노이즈를 적용하는 것이 효과적입니다.
다중 페이지 양식
정부 양식, 세금 문서, 신청서 등에는 미리 인쇄된 상자, 선, 음영이 있어 정리가 까다로울 수 있습니다. PDFSub의 정리 엔진은 이러한 요소를 잘 처리합니다. 인쇄된 요소들은 디노이즈 과정에서 사라지지 않을 만큼 충분히 크며, 디스큐는 양식 전체를 올바르게 정렬해 줍니다.
자주 묻는 질문 (FAQ)
정리를 하면 문서 내용이 변경되나요?
아니요. 정리 작업은 스캔된 이미지의 시각적 품질에만 영향을 미칩니다. 즉, 기울기를 바로잡고, 노이즈를 제거하고, 대비를 높이고, 테두리를 깨끗하게 할 뿐입니다. 텍스트나 내용을 추가, 제거 또는 수정하지 않습니다. 페이지의 정보는 그대로 유지됩니다.
스캔하지 않은 PDF도 정리할 수 있나요?
이 도구는 각 페이지가 래스터 이미지인 '스캔한 PDF'를 위해 설계되었습니다. 일반 PDF에 사용해도 파일이 손상되지는 않지만, 정리 단계들이 스캔 과정의 결함을 해결하도록 설계되었기 때문에 디지털 소스(예: Word에서 내보낸 PDF)에서 생성된 PDF의 품질을 유의미하게 개선하지는 못합니다.
정리 후 파일 용량이 얼마나 줄어드나요?
상황에 따라 다르지만 일반적으로 파일 용량이 2040% 정도 줄어듭니다. 노이즈 제거를 통해 페이지당 수천 개의 불필요한 픽셀이 사라지고, 테두리 정리를 통해 넓은 어두운 영역이 제거되기 때문입니다. 또한 대비 향상은 배경을 더 균일하게 만들어 압축 효율을 높입니다. 예를 들어 80MB였던 50페이지 분량의 스캔 문서가 정리 후 5060MB로 줄어들 수 있습니다.
컬러 스캔본에도 작동하나요?
네. 4단계 정리 프로세스는 컬러, 그레이스케일, 흑백 스캔본 모두에 작동합니다. 컬러 스캔본은 특히 배경 정규화와 테두리 정리의 혜택을 많이 봅니다. 대비 향상은 색상 정보를 보존하면서 텍스트 가독성을 높이는 방식으로 적용됩니다.
결과가 마음에 들지 않으면 취소할 수 있나요?
정리 작업은 새로운 파일을 생성하며 원본 PDF는 절대 수정되지 않습니다. 결과가 만족스럽지 않다면 원본 파일을 다시 사용하면 됩니다. 따라서 항상 정리된 버전과 함께 원본 스캔본을 보관하는 것이 좋습니다.
요약
스캔한 PDF 정리는 지저분한 스캔본을 전문적인 문서로 바꾸는 4단계 프로세스입니다.
| 단계 | 해결하는 문제 | 효과 |
|---|---|---|
| 디스큐 | 기울어진 페이지 | 곧고 전문적인 외관 |
| 디노이즈 | 얼룩 및 점 | 깨끗한 배경, 선명한 텍스트 |
| 대비 향상 | 흐릿하고 낮은 대비의 텍스트 | 읽기 쉽고 인쇄에 적합한 결과 |
| 테두리 정리 | 어두운 가장자리 및 그림자 | 균일한 여백, 불필요한 요소 제거 |
각 단계는 독립적이며 필요에 따라 켜거나 끌 수 있습니다. 대부분의 스캔 문서에는 4단계를 모두 실행하는 것이 가장 좋습니다. 정리된 결과물은 용량이 더 작고 외관이 전문적이며, 나중에 텍스트 검색이 필요할 때 훨씬 더 나은 OCR 결과를 제공합니다.
스캔본을 정리할 준비가 되셨나요? PDFSub의 스캔한 PDF 정리 도구를 사용해 보세요. 스캔한 PDF를 업로드하면 단 몇 초 만에 깨끗하고 전문적인 결과물을 얻을 수 있습니다.