PDFSub
요금제MergeSplitCompressEditE-Sign은행 거래 내역서
블로그로 돌아가기
튜토리얼Excel테이블PDF 도구

PDF에서 Excel로 테이블 추출하는 방법: 5가지 방법 비교

2026년 2월 28일
PDFSub Team

PDF는 행, 열, 셀 없이 x,y 좌표에 흩어진 텍스트 조각으로 테이블을 저장합니다. 무료 브라우저 기반 도구부터 Python 스크립팅까지, 해당 데이터를 스프레드시트로 가져오는 방법은 다음과 같습니다.


PDF날짜설명금액01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00추출ExcelABCD1234567날짜설명금액Balance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523PDF에서 Excel로 테이블 추출구조화된 테이블 데이터를 자동으로 감지하고 추출

Excel로 가져와야 하는 테이블이 포함된 PDF가 있습니다. 재무 보고서, 은행 명세서, 송장 또는 연구 논문일 수 있습니다. 데이터는 화면의 행과 열에 깔끔하게 정리되어 있습니다. 하지만 데이터를 가져오려고 하면 모든 것이 망가집니다.

이는 PDF가 데이터 형식이 아니라 표시 형식이기 때문입니다. PDF 사양에는 "테이블", "행" 또는 "열"이라는 개념이 없습니다. 구조화된 테이블처럼 보이는 것은 실제로 캔버스에 특정 x,y 좌표에 배치된 수십 개의 텍스트 조각입니다. 해당 구조를 다시 스프레드시트로 추출하는 것은 역공학 문제입니다. 그리고 다양한 도구가 다양한 성공 수준으로 이를 처리합니다.

이 가이드에서는 PDF에서 테이블을 추출하는 5가지 방법, 각 방법이 가장 효과적인 경우, 문제가 발생했을 때 대처하는 방법을 다룹니다.

PDF에서 테이블 추출이 어려운 이유

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

PDF 형식에는 테이블이 없습니다

PDF 사양(ISO 32000-2:2020)은 콘텐츠 스트림을 정의합니다. 이는 개별 문자를 정확한 좌표에 배치하는 연산자 시퀀스입니다. "날짜 | 설명 | 금액"과 같은 간단한 테이블 행은 다음과 같이 저장될 수 있습니다.

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

<table>, <tr>, <td> 태그가 없습니다. 행 식별자도 없습니다. 열 경계도 없습니다. 셀 주위에 보이는 선은 텍스트와 완전히 분리된 별도의 그리기 작업입니다. 추출 도구는 공간 관계에서 전체 구조를 추론해야 합니다.

세 가지 유형의 테이블 테두리

테두리(격자) 테이블은 모든 셀 주위에 눈에 보이는 선이 있습니다. 선이 셀 경계를 명확하게 정의하므로 추출하기 가장 쉽습니다. 공식 재무 제표, 정부 양식 및 표준화된 보고서에 일반적입니다.

테두리 없는(스트림) 테이블은 선이 전혀 없습니다. 구조는 공백 정렬에 의해서만 정의됩니다. 행 전체에서 일관된 x 좌표를 공유하는 텍스트 항목은 암시적 열을 형성합니다. 연구 논문, 송장 및 제품 카탈로그에 일반적입니다.

반테두리 테이블은 부분적인 테두리만 있습니다. 일반적으로 섹션 사이에 수평선이 있지만 수직 구분 기호는 없습니다. 은행 명세서, 증권 보고서 및 공과금 청구서에 매우 일반적입니다. 부분적인 테두리가 격자 모드 파서를 오도하고 테두리가 없는 것이 스트림 모드 신뢰도를 낮추기 때문에 추출하기 가장 어렵습니다.

태그가 지정된 PDF vs. 태그가 없는 PDF

태그가 지정된 PDF에는 제목, 단락 및 테이블 셀을 식별하는 구조 메타데이터가 포함됩니다. 태그가 없는 PDF에는 이러한 것이 전혀 없습니다. 추출 도구는 원시 좌표만 받습니다. 대부분의 PDF에는 태그가 없습니다. 거의 모든 은행 명세서, 송장 및 재무 보고서가 포함됩니다.


방법 1: PDFSub 테이블 추출 (무료 + AI 대체)

PDFSub의 테이블 추출 도구는 비용을 최소화하면서 정확도를 극대화하는 3단계 접근 방식을 사용합니다.

1단계: 좌표 기반 감지 (브라우저, 무료)

도구는 먼저 브라우저에서 완전히 추출을 시도합니다.

  • PDF 콘텐츠 스트림을 구문 분석하여 x,y 좌표가 있는 모든 텍스트 항목을 추출합니다.
  • y 좌표 근접성을 기반으로 텍스트 항목을 줄로 그룹화합니다.
  • 줄 간의 x 좌표 정렬 패턴을 분석하여 열 경계를 감지합니다.
  • 최소 3행, 2열, 70% 이상의 신뢰도가 필요합니다.

양호한 테이블이 발견되면 즉시 구조화된 데이터를 얻을 수 있습니다. 서버 업로드 없음, AI 크레딧 소모 없음, 파일이 기기를 떠나지 않습니다.

2단계: 서버 측 추출 (pdfplumber, 무료)

좌표 기반 감지에서 테이블을 찾지 못하면 서버에서 pdfplumber(MIT 라이선스)를 사용합니다. 이는 명시적 선(그려진 테두리)과 암시적 선(단어 정렬 패턴)을 모두 감지하고, 교차점을 찾고, 사각형을 식별하고, 셀에 텍스트를 매핑합니다.

3단계: AI 추출 (크레딧 사용)

스캔된 PDF, 복잡한 레이아웃 또는 규칙 기반 방법으로 구문 분석할 수 없는 테이블의 경우 도구는 AI 기반 비전 추출로 대체됩니다. 테이블이 복잡하다는 것을 알 때 이 단계로 바로 건너뛰려면 "AI 추출 강제"를 토글할 수도 있습니다.

출력 형식: Excel(.xlsx), CSV, JSON.

최적: 소프트웨어를 설치하지 않고 빠른 추출. 디지털 PDF는 개인 정보 보호를 극대화하기 위해 브라우저에서 완전히 처리됩니다.


방법 2: Excel의 Power Query (Windows 전용)

Windows의 Excel 2019 이상 및 Microsoft 365에서 사용 가능: 데이터 → 데이터 가져오기 → 파일에서 → PDF에서.

작동 방식

  1. 데이터 → 데이터 가져오기 → 파일에서 → PDF에서 클릭
  2. PDF 파일 선택
  3. Power Query는 페이지당 감지된 테이블 목록이 포함된 Navigator 패널을 표시합니다.
  4. 원하는 테이블을 선택하고 데이터 변환을 클릭하여 정리한 다음 로드합니다.

장점

  • Excel에 내장 — Microsoft 365 구독자는 추가 비용 없음
  • Power Query의 변환 엔진은 후처리(채우기 아래, 피벗, 열 병합)를 잘 처리합니다.
  • 원본 PDF가 업데이트되면 데이터를 새로 고칠 수 있습니다.
  • 동일한 PDF의 여러 테이블에 연결 지원

제한 사항

  • Windows 전용 — Mac용 Excel, Excel Online 또는 모바일에서는 사용할 수 없음
  • 테두리 없는 테이블에서 어려움 — 명확한 테두리가 있는 테이블에서 가장 잘 작동합니다.
  • OCR 없음 — 스캔/이미지 PDF에서 추출할 수 없음
  • 다중 페이지 테이블은 문제가 됨 — 각 페이지가 별도의 테이블로 가져와지는 경우가 많으므로 수동으로 연결해야 합니다.
  • 다중 줄 행 — 셀 내에서 줄 바꿈되는 텍스트는 종종 여러 행으로 분할되어 정리해야 합니다.

최적: 간단하고 테두리가 있는 테이블이 있는 Microsoft 365를 사용하는 Windows 사용자.


방법 3: Adobe Acrobat (유료)

파일 → PDF 내보내기 → 스프레드시트 → Microsoft Excel 통합 문서

가격 (2026년)

  • Acrobat Standard: 월 $12.99 (연간 요금제)
  • Acrobat Pro: 월 $19.99 (연간 요금제)
  • Export PDF (독립형): 더 낮은 등급의 변환 전용 요금제

장점

  • 스캔된 문서용 내장 OCR
  • 일반적으로 간단한 테두리 테이블의 서식을 유지합니다.
  • Pro에서 일괄 처리 가능

제한 사항

  • 테이블 추출만으로는 비쌈 — 연간 $156–$240
  • 병합된 셀과 다중 페이지가 있는 복잡한 테이블은 여전히 잘못 정렬된 출력을 생성합니다.
  • 파일이 처리를 위해 Adobe 클라우드에 업로드될 수 있습니다. 민감한 재무 데이터에 문제가 될 수 있습니다.
  • 데스크톱 설치 필요

최적: OCR이 필요한 테이블 내보내기가 가끔 필요한 Acrobat Pro를 이미 유료로 사용하는 사용자.


방법 4: 복사-붙여넣기 (수동)

가장 직관적인 접근 방식이며 테이블의 경우 가장 자주 실패하는 방식입니다.

일반적인 문제

  • 모든 데이터가 한 열에 있음 — 전체 테이블이 열 구분 없이 붙여넣어집니다.
  • 숫자가 텍스트가 됨 — 통화 기호, 괄호 및 구분 기호가 숫자 서식을 깨뜨립니다.
  • 셀 내용의 여러 줄이 유령 행 생성 — 셀 내에서 두 줄로 줄 바꿈되는 설명이 두 개의 별도 행이 됩니다.
  • 머리글이 데이터에서 분리됨 — 머리글 행이 분리됩니다.
  • 열 정렬 불량 — 문자 간격이 탭으로 변환되지 않아 데이터가 이동합니다.

부분 해결 방법

Excel에 붙여넣은 다음 데이터 → 텍스트 나누기를 사용하여 공백 또는 고정 너비 구분 기호를 사용합니다. "연속 구분 기호를 하나로 처리"를 활성화합니다. 이는 매우 간단하고 잘 정렬된 테이블에는 작동하지만 여러 단어 셀 내용이 있는 테이블에는 실패합니다.

최적: 마지막 수단으로 단일의 작고 간단한 테이블을 추출하는 경우.


방법 5: Python 라이브러리 (개발자용)

세 가지 MIT 라이선스 라이브러리가 PDF 테이블 추출을 프로그래밍 방식으로 처리합니다.

Tabula-py

Tabula(Java)의 Python 래퍼입니다. Java 런타임이 필요합니다.

  • 테두리 테이블용 격자 모드 (선과 교차점 찾기)
  • 테두리 없는 테이블용 스트림 모드 (텍스트 정렬 사용)
  • 스크립트에서 일괄 처리하기 좋음
  • OCR 지원 없음

Camelot

격자 및 스트림 모드도 제공합니다.

  • 테두리 테이블의 경우 Tabula보다 일반적으로 성능이 뛰어납니다.
  • 스트림 모드에는 미세 조정을 위한 더 많은 구성 매개변수가 있습니다.
  • 각 추출마다 정확도 보고서를 제공합니다.
  • Ghostscript 종속성이 필요합니다. OCR 지원 없음

pdfplumber

좌표 기반 접근 방식: 모든 문자를 정확한 위치와 함께 추출한 다음 구조를 추론합니다.

  • 가장 넓은 범위의 테이블 유형을 처리합니다.
  • 가장 많은 제어를 제공하지만 더 많은 구성이 필요합니다.
  • 이것이 PDFSub가 서버 측에서 사용하는 라이브러리입니다.
  • OCR 지원 없음

최적: 반복적인 테이블 추출 워크플로를 자동화하고 유사한 문서의 대규모 일괄 처리를 처리하는 개발자.


일반적인 문제 및 해결 방법

병합된 셀

셀이 여러 행 또는 열에 걸쳐 있을 때 대부분의 도구는 왼쪽 상단 셀에 내용을 배치하고 나머지는 비워 두거나 모든 후속 열을 잘못 정렬합니다. 보편적인 해결책은 없습니다. CSV 형식에는 병합 개념이 없으므로 병합 정보는 항상 손실됩니다.

수정: 테이블을 추출한 다음 Excel에서 수동으로 병합 아티팩트를 수정합니다. 동일한 병합 패턴이 있는 반복 테이블의 경우 후처리 스크립트를 고려하십시오.

셀 내 여러 줄 내용

셀 내에서 줄 바꿈되는 긴 설명은 출력에서 여러 행이 되어 모든 후속 데이터를 정렬에서 벗어나게 합니다. 이는 금융 문서에서 가장 흔한 추출 오류입니다.

수정: 추출 후 날짜와 금액이 누락된 행을 찾습니다. 이들은 위 행에 속하는 연속 줄일 가능성이 높습니다. Excel에서 수동으로 병합하거나 도우미 공식을 사용합니다.

여러 페이지에 걸친 테이블

도구는 테이블이 어디에서 계속되는지, 반복되는 머리글을 제거해야 하는지, 페이지 바닥글을 필터링하는 방법을 결정해야 합니다. 많은 도구가 각 페이지를 독립적으로 처리합니다.

수정: 도구가 페이지별 결과를 제공하는 경우 시트를 결합하고 반복되는 머리글 행을 제거합니다. 페이지 N의 마지막 행이 페이지 N+1의 첫 행과 올바르게 연결되는지 확인합니다.

통화 서식 문제

괄호 안의 음수((1,234.56))는 숫자가 아닌 텍스트로 붙여넣어집니다. 통화 기호와 천 단위 구분 기호도 숫자 서식을 깨뜨립니다.

수정: 추출 후 금액 열을 선택하고 찾기 및 바꾸기를 사용하여 $, (, ) 문자를 제거합니다. 그런 다음 열을 숫자 형식으로 지정합니다. 괄호 안의 음수의 경우 (를 -로 바꾸고 )를 제거한 다음 숫자 형식으로 변환합니다.

날짜 모호성

01/02/2026 — 1월 2일입니까, 2월 1일입니까? 추출 도구는 문자열을 그대로 유지하지만 Excel은 로캘에 따라 다시 해석할 수 있습니다.

수정: 날짜 값 > 12인 날짜를 찾아 소스의 날짜 형식 단서를 확인합니다. 가져오기 전에 Excel의 날짜 형식을 소스와 일치하도록 설정합니다.


정확도 비교

방법 간단한 테두리 테두리 없음 반테두리 스캔된 PDF
PDFSub (좌표 + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% 지원 안 함
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% 지원 안 함
Camelot ~73% 65–75% 60–70% 지원 안 함
복사-붙여넣기 30–50% 10–30% 10–30% 불가능

범위는 문서 복잡성에 따른 변동을 나타냅니다. Procyons 2025 PDF 추출 벤치마크 및 Camelot 비교 연구의 벤치마크 데이터.


어떤 방법을 사용해야 할까요?

시나리오 최적의 방법 이유
빠른 일회성 추출 PDFSub 설치 불필요, 브라우저 기반, 무료 좌표 추출
간단한 테두리 테이블, Windows Power Query Excel에 내장, 추가 비용 없음
스캔된 PDF PDFSub (AI) 또는 Adobe Acrobat OCR 기능 필요
민감한 재무 데이터 PDFSub 브라우저 기반 처리, 파일 미업로드
반복적인 일괄 처리 Python (pdfplumber) 스크립트 가능, 자동화 가능
이미 Acrobat Pro 보유 중 Adobe Acrobat 이미 지불 중, 간단한 테이블이 잘 작동함
단일 소형 테이블, 도구 없음 복사-붙여넣기 마지막 수단, 모든 것 확인

최상의 결과를 위한 팁

네이티브 PDF 사용. 종이를 스캔하는 대신 원본 소스에서 문서를 다운로드합니다. 네이티브 PDF는 완벽한 텍스트를 가지고 있어 추출 정확도가 훨씬 높아집니다.

먼저 테이블 유형을 식별합니다. 테두리 테이블은 거의 모든 도구에서 작동합니다. 테두리 없는 테이블에는 스트림 모드 또는 AI 추출이 필요합니다. 유형을 알면 올바른 방법을 미리 선택하는 데 도움이 됩니다.

무료 규칙 기반 방법으로 시작합니다. 먼저 좌표 기반 추출을 시도합니다. 규칙 기반 방법이 좋지 않은 결과만 생성할 때 AI로 전환합니다. 이렇게 하면 시간과 크레딧이 절약됩니다.

항상 출력을 확인합니다. 행 수, 열 정렬, 숫자 값 및 합계를 확인합니다. 추출 출력을 맹목적으로 신뢰하지 마십시오.

숫자 서식에 주의하십시오. 추출 후 Excel에서 숫자가 실제로 숫자(오른쪽 정렬)인지 텍스트 문자열(왼쪽 정렬)인지 확인합니다. 통화 기호와 괄호 안의 음수는 흔한 원인입니다.

민감한 데이터의 경우 브라우저 기반 도구를 선호합니다. 재무 보고서, 은행 명세서 및 세금 문서에는 민감한 정보가 포함되어 있습니다. 브라우저에서 PDF를 처리하는 도구는 파일을 업로드하지 않으므로 데이터 노출 위험을 제거합니다.


무료 체험

PDF에서 테이블을 추출할 준비가 되셨습니까? 지금 파일을 업로드하세요. PDFSub는 먼저 무료 좌표 기반 추출을 시도하고 복잡한 테이블의 경우 AI 대체 기능을 제공합니다. 디지털 PDF는 브라우저에서 완전히 처리됩니다. 7일 무료 체험을 시작하세요.

블로그로 돌아가기

질문이 있으신가요? 문의하기

PDFSub

필요한 모든 PDF 및 문서 도구를 한 곳에서. 빠르고 안전하며 개인정보를 보호합니다.

GDPR 준수CCPA 준수SOC 2 Ready
Powered by PDFSub Engine

PDF 도구

  • PDF 합치기
  • PDF 분할
  • 페이지 순서 변경
  • PDF 회전
  • 페이지 삭제
  • 페이지 추출
  • 워터마크 추가
  • PDF 편집기
  • PDF 스탬프 추가
  • PDF 양식 채우기
  • 페이지 자르기
  • 페이지 크기 변경
  • 페이지 번호 추가
  • 헤더 및 푸터
  • PDF 압축
  • 검색 가능한 PDF로 만들기
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF 복구
  • 메타데이터 편집
  • 메타데이터 제거
  • PDF를 Word로 변환
  • Word를 PDF로 변환
  • Excel을 PDF로 변환
  • PDF를 PowerPoint로 변환
  • PDF를 이미지로 변환
  • 이미지를 PDF로 변환
  • HTML을 PDF로 변환
  • HEIC를 이미지로 변환
  • WEBP를 JPG로 변환
  • WEBP를 PNG로 변환
  • PowerPoint를 PDF로 변환
  • PDF를 HTML로 변환
  • EPUB를 PDF로 변환
  • TIFF를 PDF로 변환
  • PNG를 PDF로 변환
  • PDF를 PNG로 변환
  • 텍스트를 PDF로 변환
  • SVG를 PDF로 변환
  • WEBP를 PDF로 변환
  • PDF를 EPUB로 변환
  • RTF를 PDF로 변환
  • ODT를 PDF로 변환
  • ODS를 PDF로 변환
  • PDF를 ODT로 변환
  • PDF를 ODS로 변환
  • PDF를 SVG로 변환
  • PDF를 RTF로 변환
  • PDF를 텍스트로 변환
  • ODP를 PDF로 변환
  • PDF를 ODP로 변환
  • ODG를 PDF로 변환
  • PDF 뷰어
  • PDF/A 변환
  • PDF 만들기
  • 일괄 변환
  • 한 장에 여러 페이지
  • 비밀번호 설정
  • PDF 암호 해제
  • PDF 민감 정보 가리기
  • PDF 전자 서명
  • PDF 비교
  • 표 추출
  • PDF to Excel
  • 은행 거래 내역서 변환기
  • 송장 추출기
  • 영수증 스캐너
  • 재무 보고서 분석
  • OCR - 텍스트 추출
  • 손글씨 변환
  • PDF 요약
  • PDF 번역
  • PDF와 대화하기
  • 데이터 추출
  • 디자인 스튜디오

제품

  • Privacy & Security
  • 모든 도구
  • 기능
  • 은행 거래 내역서
  • 요금제
  • 자주 묻는 질문
  • 블로그

고객 지원

  • 고객 센터
  • 문의하기
  • 자주 묻는 질문

법적 고지

  • 개인정보 처리방침
  • 서비스 이용약관
  • 쿠키 정책

© 2026 PDFSub. All rights reserved.

미국에서 전 세계 사용자를 위해 를 담아 제작되었습니다