How to Extract Tables from PDF to Excel: 5 Methods Compared

Excel로 가져와야 할 테이블이 포함된 PDF가 있습니다. 재무 보고서, 은행 명세서, 송장 또는 연구 논문일 수 있습니다. 데이터는 화면의 행과 열에 깔끔하게 정리되어 있습니다. 하지만 데이터를 추출하려고 하면 모든 것이 망가집니다.

이는 PDF가 데이터 형식이 아니라 표시 형식이기 때문에 발생합니다. PDF 사양에는 "테이블", "행" 또는 "열"이라는 개념이 없습니다. 구조화된 테이블처럼 보이는 것은 실제로는 캔버스의 특정 x,y 좌표에 배치된 수십 개의 텍스트 조각입니다. 해당 구조를 다시 스프레드시트로 추출하는 것은 역공학 문제입니다. 다양한 도구가 다양한 성공 수준으로 이를 처리합니다.

이 가이드에서는 PDF에서 테이블을 추출하는 5가지 방법, 각 방법이 가장 효과적인 경우, 문제가 발생했을 때 대처하는 방법을 다룹니다.

PDF에서 테이블 추출이 어려운 이유

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF 형식에는 테이블이 없습니다

PDF 사양(ISO 32000-2:2020)은 콘텐츠 스트림을 정의합니다. 이는 개별 문자를 정확한 좌표에 배치하는 연산자 시퀀스입니다. "날짜 | 설명 | 금액"과 같은 간단한 테이블 행은 다음과 같이 저장될 수 있습니다.

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

<table>, <tr>, <td> 태그가 없습니다. 행 식별자도 없습니다. 열 경계도 없습니다. 셀 주위에 보이는 선은 텍스트와 완전히 분리된 별도의 그리기 작업입니다. 추출 도구는 공간 관계에서 전체 구조를 추론해야 합니다.

세 가지 유형의 테이블 테두리

테두리(격자) 테이블은 모든 셀 주위에 눈에 보이는 선이 있습니다. 선이 셀 경계를 명확하게 정의하므로 추출하기 가장 쉽습니다. 공식 재무제표, 정부 양식 및 표준화된 보고서에서 흔히 볼 수 있습니다.

테두리 없는(스트림) 테이블은 선이 전혀 없습니다. 구조는 전적으로 공백 정렬로 정의됩니다. 행 간에 일관된 x 좌표를 공유하는 텍스트 항목은 암시적 열을 형성합니다. 연구 논문, 송장 및 제품 카탈로그에서 흔히 볼 수 있습니다.

반테두리 테이블은 부분적인 테두리만 있습니다. 일반적으로 섹션 사이에 수평선이 있지만 수직 구분 기호는 없습니다. 은행 명세서, 증권 보고서 및 공과금 청구서에서 매우 흔합니다. 부분적인 테두리가 격자 모드 파서를 오도하고 테두리가 없는 것이 스트림 모드 신뢰도를 낮추기 때문에 추출하기 가장 어렵습니다.

태그가 지정된 PDF vs. 태그가 없는 PDF

태그가 지정된 PDF에는 제목, 단락 및 테이블 셀을 식별하는 구조 메타데이터가 포함됩니다. 태그가 없는 PDF에는 이러한 메타데이터가 전혀 없습니다. 추출 도구는 원시 좌표만 받습니다. 대부분의 PDF는 태그가 없습니다. 거의 모든 은행 명세서, 송장 및 재무 보고서가 여기에 포함됩니다.

방법 1: PDFSub 테이블 추출 (무료 + AI 대체)

PDFSub의 테이블 추출 도구는 정확도를 극대화하면서 비용을 최소화하는 3단계 접근 방식을 사용합니다.

1단계: 좌표 기반 감지 (브라우저, 무료)

이 도구는 먼저 브라우저에서 완전히 추출을 시도합니다.

PDF 콘텐츠 스트림을 파싱하여 x,y 좌표가 있는 모든 텍스트 항목을 추출합니다.
y 좌표 근접성을 기반으로 텍스트 항목을 줄로 그룹화합니다.
줄 간의 x 좌표 정렬 패턴을 분석하여 열 경계를 감지합니다.
최소 3행, 2열, 70% 이상의 신뢰도가 필요합니다.

양호한 테이블이 발견되면 즉시 구조화된 데이터를 얻을 수 있습니다. 서버 업로드 없음, AI 크레딧 소모 없음, 파일이 기기를 떠나지 않습니다.

2단계: 서버 측 추출 (pdfplumber, 무료)

좌표 기반 감지에서 테이블을 찾지 못하면 서버에서 pdfplumber(MIT 라이선스)를 사용합니다. 이는 명시적 선(테두리선)과 암시적 선(단어 정렬 패턴)을 모두 감지하고, 교차점을 찾고, 사각형을 식별하고, 텍스트를 셀에 매핑합니다.

3단계: AI 추출 (크레딧 사용)

스캔된 PDF, 복잡한 레이아웃 또는 규칙 기반 방법으로 파싱할 수 없는 테이블의 경우 도구가 AI 기반 비전 추출로 대체됩니다. 테이블이 복잡하다는 것을 알 때 이 단계로 바로 건너뛰려면 "AI 추출 강제"를 전환할 수도 있습니다.

출력 형식: Excel(.xlsx), CSV, JSON.

최적: 소프트웨어를 설치하지 않고 빠른 추출. 디지털 PDF는 개인 정보 보호를 위해 브라우저에서 완전히 처리됩니다.

방법 2: Excel의 Power Query (Windows 전용)

Excel 2019 이상 및 Windows의 Microsoft 365에서 사용 가능: 데이터 → 데이터 가져오기 → 파일에서 → PDF에서.

작동 방식

데이터 → 데이터 가져오기 → 파일에서 → PDF에서를 클릭합니다.
PDF 파일을 선택합니다.
Power Query는 Navigator 패널에 페이지별로 감지된 테이블 목록을 표시합니다.
원하는 테이블을 선택하고 데이터 변환을 클릭하여 정리한 다음 로드를 클릭합니다.

장점

Excel에 내장 - Microsoft 365 구독자에게 추가 비용 없음
Power Query의 변환 엔진은 후처리(채우기 아래, 피벗, 열 병합)를 잘 처리합니다.
원본 PDF가 업데이트되면 데이터를 새로 고칠 수 있습니다.
동일한 PDF의 여러 테이블에 연결할 수 있습니다.

제한 사항

Windows 전용 - Mac용 Excel, Excel Online 또는 모바일에서는 사용할 수 없습니다.
테두리 없는 테이블에서 어려움을 겪음 - 명확한 테두리가 있는 테이블에서 가장 잘 작동합니다.
OCR 없음 - 스캔/이미지 PDF에서 추출할 수 없습니다.
여러 페이지 테이블은 문제가 됨 - 각 페이지가 별도의 테이블로 가져와져 수동으로 병합해야 할 수 있습니다.
여러 줄 행 - 셀 내의 줄 바꿈 텍스트가 여러 행으로 분할되어 정리해야 하는 경우가 많습니다.

최적: 간단한 테두리 테이블이 있는 Windows 사용자(Microsoft 365).

방법 3: Adobe Acrobat (유료)

파일 → PDF 내보내기 → 스프레드시트 → Microsoft Excel 통합 문서

가격 (2026)

Acrobat Standard: 월 $12.99 (연간 요금제)
Acrobat Pro: 월 $19.99 (연간 요금제)
Export PDF (단독): 저가형 변환 전용 요금제

장점

스캔된 문서용 내장 OCR
간단한 테두리 테이블의 서식을 일반적으로 유지합니다.
Pro 버전에서 일괄 처리 가능

제한 사항

테이블 추출만으로는 비쌈 - 연간 $156–$240
셀 병합 및 여러 페이지에 걸친 복잡한 테이블은 여전히 잘못 정렬된 출력을 생성합니다.
처리를 위해 파일이 Adobe 클라우드에 업로드될 수 있습니다. 민감한 재무 데이터에 문제가 될 수 있습니다.
데스크톱 설치 필요

최적: 이미 Acrobat Pro를 유료로 사용 중이며 OCR이 필요한 경우 간헐적인 테이블 내보내기가 필요한 사용자.

방법 4: 복사-붙여넣기 (수동)

가장 직관적인 접근 방식이며 테이블의 경우 가장 자주 실패하는 방식입니다.

일반적인 문제

모든 데이터가 한 열에 있음 - 전체 테이블이 열 구분 없이 붙여넣기 됩니다.
숫자가 텍스트로 변환됨 - 통화 기호, 괄호 및 구분 기호가 숫자 서식을 깨뜨립니다.
여러 줄 셀 내용이 팬텀 행을 생성함 - 셀 내에서 두 줄로 줄 바꿈되는 설명이 두 개의 별도 행이 됩니다.
헤더가 데이터와 분리됨 - 헤더 행이 분리됩니다.
열 정렬 불량 - 문자 간격이 탭으로 변환되지 않아 데이터가 이동합니다.

부분 해결 방법

Excel에 붙여넣은 다음 데이터 → 텍스트 나누기를 사용하여 공백 또는 고정 너비 구분 기호를 사용합니다. "연속 구분 기호를 하나로 처리"를 활성화합니다. 이는 매우 간단하고 간격이 잘 맞는 테이블에는 작동하지만 여러 단어 셀 내용이 있는 테이블에는 실패합니다.

최적: 마지막 수단으로 작고 간단한 단일 테이블 추출.

방법 5: Python 라이브러리 (개발자용)

세 가지 MIT 라이선스 라이브러리가 PDF 테이블 추출을 프로그래밍 방식으로 처리합니다.

Tabula-py

Tabula(Java)의 Python 래퍼입니다. Java 런타임이 필요합니다.

테두리 테이블용 격자 모드 (선과 교차점 찾기)
테두리 없는 테이블용 스트림 모드 (텍스트 정렬 사용)
스크립트에서 일괄 처리에 적합
OCR 지원 없음

Camelot

격자 모드와 스트림 모드도 제공합니다.

테두리 테이블의 경우 일반적으로 Tabula보다 성능이 뛰어납니다.
스트림 모드는 미세 조정을 위한 더 많은 구성 매개변수를 가지고 있습니다.
각 추출마다 정확도 보고서를 제공합니다.
Ghostscript 종속성이 필요합니다. OCR 지원 없음

pdfplumber

좌표 기반 접근 방식: 정확한 위치가 있는 모든 문자를 추출한 다음 구조를 추론합니다.

가장 광범위한 테이블 유형을 처리합니다.
가장 많은 제어를 제공하지만 더 많은 구성이 필요합니다.
PDFSub가 서버 측에서 사용하는 라이브러리입니다.
OCR 지원 없음

최적: 반복적인 테이블 추출 워크플로를 자동화하고 대량의 유사한 문서를 처리하는 개발자.

일반적인 문제 및 해결 방법

셀 병합

셀이 여러 행 또는 열에 걸쳐 있을 때 대부분의 도구는 내용을 왼쪽 상단 셀에 배치하고 나머지 셀을 비워 두거나 후속 열의 정렬을 잘못합니다. 보편적인 해결책은 없습니다. CSV 형식에는 병합 개념이 없으므로 병합 정보는 항상 손실됩니다.

수정: 테이블을 추출한 다음 Excel에서 수동으로 병합 아티팩트를 수정합니다. 동일한 병합 패턴이 있는 반복 테이블의 경우 후처리 스크립트를 고려하십시오.

셀 내 여러 줄 내용

셀 내에서 줄 바꿈되는 긴 설명은 출력에서 여러 행이 되어 후속 모든 데이터를 정렬에서 벗어나게 합니다. 이는 재무 문서에서 가장 흔한 추출 오류입니다.

수정: 추출 후 날짜와 금액이 누락된 행을 찾습니다. 이는 위 행에 속하는 연속 줄일 가능성이 높습니다. Excel에서 수동으로 병합하거나 도우미 공식을 사용합니다.

여러 페이지에 걸친 테이블

도구는 테이블이 어디에서 계속되는지, 반복되는 헤더를 제거해야 하는지, 페이지 바닥글을 필터링하는 방법을 결정해야 합니다. 많은 도구가 각 페이지를 독립적으로 처리합니다.

수정: 도구가 페이지별 결과를 제공하는 경우 시트를 결합하고 반복되는 헤더 행을 제거합니다. 페이지 N의 마지막 행이 페이지 N+1의 첫 번째 행과 올바르게 연결되는지 확인합니다.

통화 서식 문제

괄호 안의 음수((1,234.56))는 숫자가 아닌 텍스트로 붙여넣기 됩니다. 통화 기호와 천 단위 구분 기호도 숫자 서식을 깨뜨립니다.

수정: 추출 후 금액 열을 선택하고 찾기 및 바꾸기를 사용하여 $, ( 및 ) 문자를 제거합니다. 그런 다음 열을 숫자 형식으로 지정합니다. 괄호 안의 음수는 (를 -로 바꾸고 )를 제거한 다음 숫자 형식으로 변환합니다.

날짜 모호성

01/02/2026 - 1월 2일입니까, 2월 1일입니까? 추출 도구는 문자열을 그대로 유지하지만 Excel은 로캘에 따라 다르게 해석할 수 있습니다.

수정: 원본 PDF에서 날짜 형식 단서를 찾습니다(일 값이 12보다 큰 날짜를 찾습니다). 가져오기 전에 Excel의 날짜 형식을 원본과 일치하도록 설정합니다.

정확도 비교

방법	간단한 테두리	테두리 없음	반테두리	스캔된 PDF
PDFSub (좌표 + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	지원 안 함
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	지원 안 함
Camelot	~73%	65–75%	60–70%	지원 안 함
복사-붙여넣기	30–50%	10–30%	10–30%	불가능

범위는 문서 복잡성에 따른 변동을 나타냅니다. Procyons 2025 PDF 추출 벤치마크 및 Camelot 비교 연구의 벤치마크 데이터.

어떤 방법을 사용해야 할까요?

시나리오	최적의 방법	이유
빠른 일회성 추출	PDFSub	설치 불필요, 브라우저 기반, 무료 좌표 추출
간단한 테두리 테이블, Windows	Power Query	Excel에 내장, 추가 비용 없음
스캔된 PDF	PDFSub (AI) 또는 Adobe Acrobat	OCR 기능 필요
민감한 재무 데이터	PDFSub	브라우저 기반 처리, 파일 미업로드
반복적인 일괄 처리	Python (pdfplumber)	스크립트 가능, 자동화 가능
이미 Acrobat Pro 보유 중	Adobe Acrobat	이미 유료, 간단한 테이블은 잘 작동함
작은 단일 테이블, 도구 없음	복사-붙여넣기	마지막 수단, 모든 것 확인 필요

최상의 결과를 위한 팁

기본 PDF 사용. 종이를 스캔하는 대신 원본 소스에서 문서를 다운로드합니다. 기본 PDF는 완벽한 텍스트를 가지고 있어 추출 정확도가 훨씬 높아집니다.

먼저 테이블 유형을 식별합니다. 테두리 테이블은 거의 모든 도구에서 작동합니다. 테두리 없는 테이블에는 스트림 모드 또는 AI 추출이 필요합니다. 유형을 알면 처음에 올바른 방법을 선택하는 데 도움이 됩니다.

무료 규칙 기반 방법으로 시작합니다. 먼저 좌표 기반 추출을 시도합니다. 규칙 기반 방법이 좋지 않은 결과만 생성할 때 AI로 전환합니다. 이렇게 하면 시간과 크레딧이 절약됩니다.

항상 출력을 확인합니다. 행 수, 열 정렬, 숫자 값 및 합계를 확인합니다. 추출 출력을 절대 맹목적으로 신뢰하지 마십시오.

숫자 서식에 주의합니다. 추출 후 Excel에서 숫자가 실제로 숫자(오른쪽 정렬)인지 텍스트 문자열(왼쪽 정렬)인지 확인합니다. 통화 기호와 괄호 안의 음수는 흔한 원인입니다.

민감한 데이터의 경우 브라우저 기반 도구를 선호합니다. 재무 보고서, 은행 명세서 및 세금 문서에는 민감한 정보가 포함되어 있습니다. 브라우저에서 PDF를 처리하는 도구는 파일을 업로드하지 않아 데이터 노출 위험을 제거합니다.

무료 체험

PDF에서 테이블을 추출할 준비가 되셨나요? 지금 파일 업로드 - PDFSub는 먼저 무료 좌표 기반 추출을 시도하고 복잡한 테이블의 경우 AI로 대체됩니다. 디지털 PDF는 브라우저에서 완전히 처리됩니다. 7일 무료 체험을 시작하세요.

How to Extract Tables from PDF to Excel: 5 Methods Compared

이 가이드에서는 PDF에서 테이블을 추출하는 5가지 방법, 각 방법이 가장 효과적인 경우, 문제가 발생했을 때 대처하는 방법을 다룹니다.

PDF에서 테이블 추출이 어려운 이유

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF 형식에는 테이블이 없습니다

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

PDF 콘텐츠 스트림을 파싱하여 x,y 좌표가 있는 모든 텍스트 항목을 추출합니다.
y 좌표 근접성을 기반으로 텍스트 항목을 줄로 그룹화합니다.
줄 간의 x 좌표 정렬 패턴을 분석하여 열 경계를 감지합니다.
최소 3행, 2열, 70% 이상의 신뢰도가 필요합니다.

양호한 테이블이 발견되면 즉시 구조화된 데이터를 얻을 수 있습니다. 서버 업로드 없음, AI 크레딧 소모 없음, 파일이 기기를 떠나지 않습니다.

데이터 → 데이터 가져오기 → 파일에서 → PDF에서를 클릭합니다.
PDF 파일을 선택합니다.
Power Query는 Navigator 패널에 페이지별로 감지된 테이블 목록을 표시합니다.
원하는 테이블을 선택하고 데이터 변환을 클릭하여 정리한 다음 로드를 클릭합니다.

장점

Excel에 내장 - Microsoft 365 구독자에게 추가 비용 없음
Power Query의 변환 엔진은 후처리(채우기 아래, 피벗, 열 병합)를 잘 처리합니다.
원본 PDF가 업데이트되면 데이터를 새로 고칠 수 있습니다.
동일한 PDF의 여러 테이블에 연결할 수 있습니다.

제한 사항

Windows 전용 - Mac용 Excel, Excel Online 또는 모바일에서는 사용할 수 없습니다.
테두리 없는 테이블에서 어려움을 겪음 - 명확한 테두리가 있는 테이블에서 가장 잘 작동합니다.
OCR 없음 - 스캔/이미지 PDF에서 추출할 수 없습니다.
여러 페이지 테이블은 문제가 됨 - 각 페이지가 별도의 테이블로 가져와져 수동으로 병합해야 할 수 있습니다.
여러 줄 행 - 셀 내의 줄 바꿈 텍스트가 여러 행으로 분할되어 정리해야 하는 경우가 많습니다.

최적: 간단한 테두리 테이블이 있는 Windows 사용자(Microsoft 365).

방법 3: Adobe Acrobat (유료)

파일 → PDF 내보내기 → 스프레드시트 → Microsoft Excel 통합 문서

가격 (2026)

Acrobat Standard: 월 $12.99 (연간 요금제)
Acrobat Pro: 월 $19.99 (연간 요금제)
Export PDF (단독): 저가형 변환 전용 요금제

장점

스캔된 문서용 내장 OCR
간단한 테두리 테이블의 서식을 일반적으로 유지합니다.
Pro 버전에서 일괄 처리 가능

제한 사항

테이블 추출만으로는 비쌈 - 연간 $156–$240
셀 병합 및 여러 페이지에 걸친 복잡한 테이블은 여전히 잘못 정렬된 출력을 생성합니다.
처리를 위해 파일이 Adobe 클라우드에 업로드될 수 있습니다. 민감한 재무 데이터에 문제가 될 수 있습니다.
데스크톱 설치 필요

최적: 이미 Acrobat Pro를 유료로 사용 중이며 OCR이 필요한 경우 간헐적인 테이블 내보내기가 필요한 사용자.

방법 4: 복사-붙여넣기 (수동)

가장 직관적인 접근 방식이며 테이블의 경우 가장 자주 실패하는 방식입니다.

일반적인 문제

모든 데이터가 한 열에 있음 - 전체 테이블이 열 구분 없이 붙여넣기 됩니다.
숫자가 텍스트로 변환됨 - 통화 기호, 괄호 및 구분 기호가 숫자 서식을 깨뜨립니다.
여러 줄 셀 내용이 팬텀 행을 생성함 - 셀 내에서 두 줄로 줄 바꿈되는 설명이 두 개의 별도 행이 됩니다.
헤더가 데이터와 분리됨 - 헤더 행이 분리됩니다.
열 정렬 불량 - 문자 간격이 탭으로 변환되지 않아 데이터가 이동합니다.

테두리 테이블용 격자 모드 (선과 교차점 찾기)
테두리 없는 테이블용 스트림 모드 (텍스트 정렬 사용)
스크립트에서 일괄 처리에 적합
OCR 지원 없음

Camelot

격자 모드와 스트림 모드도 제공합니다.

테두리 테이블의 경우 일반적으로 Tabula보다 성능이 뛰어납니다.
스트림 모드는 미세 조정을 위한 더 많은 구성 매개변수를 가지고 있습니다.
각 추출마다 정확도 보고서를 제공합니다.
Ghostscript 종속성이 필요합니다. OCR 지원 없음

pdfplumber

좌표 기반 접근 방식: 정확한 위치가 있는 모든 문자를 추출한 다음 구조를 추론합니다.

가장 광범위한 테이블 유형을 처리합니다.
가장 많은 제어를 제공하지만 더 많은 구성이 필요합니다.
PDFSub가 서버 측에서 사용하는 라이브러리입니다.
OCR 지원 없음

최적: 반복적인 테이블 추출 워크플로를 자동화하고 대량의 유사한 문서를 처리하는 개발자.

방법	간단한 테두리	테두리 없음	반테두리	스캔된 PDF
PDFSub (좌표 + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	지원 안 함
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	지원 안 함
Camelot	~73%	65–75%	60–70%	지원 안 함
복사-붙여넣기	30–50%	10–30%	10–30%	불가능

범위는 문서 복잡성에 따른 변동을 나타냅니다. Procyons 2025 PDF 추출 벤치마크 및 Camelot 비교 연구의 벤치마크 데이터.

어떤 방법을 사용해야 할까요?

시나리오	최적의 방법	이유
빠른 일회성 추출	PDFSub	설치 불필요, 브라우저 기반, 무료 좌표 추출
간단한 테두리 테이블, Windows	Power Query	Excel에 내장, 추가 비용 없음
스캔된 PDF	PDFSub (AI) 또는 Adobe Acrobat	OCR 기능 필요
민감한 재무 데이터	PDFSub	브라우저 기반 처리, 파일 미업로드
반복적인 일괄 처리	Python (pdfplumber)	스크립트 가능, 자동화 가능
이미 Acrobat Pro 보유 중	Adobe Acrobat	이미 유료, 간단한 테이블은 잘 작동함
작은 단일 테이블, 도구 없음	복사-붙여넣기	마지막 수단, 모든 것 확인 필요

최상의 결과를 위한 팁

항상 출력을 확인합니다. 행 수, 열 정렬, 숫자 값 및 합계를 확인합니다. 추출 출력을 절대 맹목적으로 신뢰하지 마십시오.