PDFSub
가격APIMergeCompressEditE-Sign은행 거래 내역서블로그
블로그로 돌아가기
가이드PDF 형식PDF 표준PDF/APDF/XPDF/UA구조

PDF 파일 형식 설명: 구조, 계층 및 표준

2026년 5월 16일
T
Todd Lahman
Founder, PDFSub

PDF 파일 내부에 실제로 무엇이 들어 있을까요? 4가지 물리적 섹션(헤더, 본문, xref, 트레일러), 6가지 콘텐츠 계층(텍스트, 이미지, 글꼴, 주석, 벡터, 서명), 메타데이터 및 그 위에 구축된 ISO 표준(PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT)을 다루는 레이블이 지정된 다이어그램 및 용어집입니다.


PDF는 단일한 것이 아닙니다. 디스크상의 특정 구조를 가진 이진 컨테이너이며, 해당 컨테이너 내부에 쌓인 콘텐츠 계층 세트, 그리고 기본 사양 위에 구축된 일련의 ISO 표준입니다. 16진수 편집기에서 열면 파일의 처음 몇 줄에 구조가 일반 텍스트로 표시됩니다. 뷰어에서 열면 계층이 단일 페이지로 함께 렌더링됩니다.

이 가이드는 레이블이 지정된 참조입니다. 즉, 물리적 파일 구조, 본문이 보유하는 콘텐츠 계층, 모든 것을 둘러싸는 메타데이터, 특정 사용 사례를 위해 이를 제약하는 표준(PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT)입니다.

Anatomy of a PDF file: header, body objects, cross-reference table, trailer, content layers, and metadata

이 다이어그램을 블로그에 사용하고 싶으신가요? 이 임베드 코드를 복사하세요:


네 가지 물리적 섹션

디스크상의 모든 PDF는 이 순서대로 동일한 네 부분의 구조를 가집니다:

1. 헤더

파일의 첫 번째 줄입니다. 항상 %PDF-로 시작하고 버전 번호가 뒤따릅니다:

%PDF-1.7

버전은 1.0(1993년 출시)부터 2.0(2017년 출시, 현재)까지 다양합니다. 헤더 뒤에는 FTP 및 기타 전송 도구에 이 파일이 이진 파일임을 알리는 이진 바이트가 포함된 주석 줄이 옵니다.

2. 본문 - 간접 객체

파일의 대부분을 차지합니다. 모든 페이지, 글꼴, 이미지, 주석 및 양식 필드는 번호가 매겨진 간접 객체입니다:

1 0 obj
<< /Type /Catalog /Pages 2 0 R >>
endobj
 
2 0 obj
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
endobj
 
3 0 obj
<< /Type /Page /Parent 2 0 R /Contents 4 0 R /Resources << ... >> >>
endobj

각 객체는 ID( 0 obj 앞의 숫자), 생성 번호(0, 증분 업데이트에 사용됨) 및 사전의 경우 <<와 >> 사이, 이진 스트림(이미지 데이터, 글꼴 데이터, 압축된 콘텐츠)의 경우 stream과 endstream 사이의 페이로드를 가집니다.

객체는 <id> <gen> R 구문(예: 3 0 R은 "객체 3, 생성 0"을 의미)으로 서로 참조합니다. 이것이 페이지가 사용하는 글꼴을 참조하거나 카탈로그가 페이지 트리의 루트를 참조하는 방식입니다.

3. 교차 참조 테이블(xref)

바이트 오프셋 조회 테이블입니다. 본문의 모든 객체에 대해 xref는 파일 내에서의 절대 바이트 위치를 기록합니다:

xref
0 6
0000000000 65535 f
0000000017 00000 n
0000000089 00000 n
0000000172 00000 n
0000000299 00000 n
0000000453 00000 n

이것이 PDF를 임의 액세스 가능하게 만드는 이유입니다. 뷰어는 xref를 읽고 객체 3의 바이트 오프셋으로 바로 이동하여 파일의 나머지 부분을 파싱하지 않고 해당 페이지를 렌더링할 수 있습니다. 이것이 500페이지짜리 소스 파일이라도 단일 챕터의 PDF가 즉시 열리는 이유입니다.

4. 트레일러

마지막 섹션입니다. 파서에게 xref를 찾을 위치와 루트 객체가 무엇인지 알려줍니다:

trailer
<< /Size 6 /Root 1 0 R /Info 7 0 R >>
startxref
1893
%%EOF

startxref 값은 xref 테이블의 바이트 오프셋입니다. %%EOF 마커는 파일의 실제 끝입니다. 트레일러는 증분 업데이트를 가능하게 하는 요소입니다. 끝에 새로운 xref + 트레일러를 추가하면 전체 파일을 다시 쓰지 않고도 객체를 추가할 수 있습니다.


여섯 가지 콘텐츠 계층

본문 내부의 콘텐츠는 여섯 가지 계층 유형에 걸쳐 저장됩니다. 렌더링된 모든 PDF 페이지는 이러한 계층의 복합체입니다:

1. 텍스트

텍스트 문자열이 아니라 글리프 위치 명령 및 글꼴 참조입니다. PDF는 "글꼴 F3의 글리프 42를 위치 (120, 540)에 그리기"와 같은 명령을 저장하며, "여기에 문자 A를 그리기"와 같은 방식이 아닙니다. 이것이 텍스트를 선택하고 검색할 수 있는 이유입니다. 뷰어는 ToUnicode 매핑(또는 CJK 글꼴의 경우 CMap)을 통해 글리프 ID를 유니코드 코드 포인트로 역매핑합니다.

텍스트에 ToUnicode 매핑이 누락되면 "선택 가능한 텍스트가 있지만 복사하면 깨지는 PDF"라는 고전적인 문제가 발생합니다. 텍스트는 보이지만 글리프-유니코드 매핑이 손상되었거나 누락된 것입니다.

2. 이미지

여러 형식 중 하나로 임베드된 스트림으로 저장됩니다:

  • JPEG (DCTDecode 필터): 사진, 가장 일반적
  • JPEG2000 (JPXDecode): 더 높은 압축률, 덜 일반적
  • PNG와 동등 (FlateDecode + Predictor): 스크린샷, 선화
  • CCITT Group 4 (CCITTFaxDecode): 흑백 스캔 텍스트, 보관 스캔에 사용됨
  • JBIG2 (JBIG2Decode): 이진 이미지, OCR 처리된 문서에 일반적

이미지는 다른 콘텐츠에 영향을 주지 않고 다운샘플링, 재압축 또는 교체될 수 있습니다.

3. 글꼴

전체 글꼴 프로그램, 부분(사용된 글리프만 포함)으로 임베드되거나 이름으로 참조됩니다(뷰어 시스템에 설치되어 있어야 함). 부분 임베딩이 기본값입니다. 파일 크기를 크게 줄입니다. 지원되는 글꼴 형식: Type1, TrueType, OpenType 및 CIDFont(CJK용).

글꼴이 참조되었지만 임베드되지 않았고 뷰어 시스템에 설치되지 않은 경우, 뷰어는 유사한 글꼴로 대체합니다. 이는 일반적으로 잘못 보입니다. PDF/A는 이를 방지하기 위해 모든 글꼴을 임베드해야 합니다.

4. 주석

강조 표시, 댓글, 링크, 스탬프, 워터마크 및 양식 필드는 모두 주석입니다. 페이지 콘텐츠 위에 계층화되며 기본 페이지를 변경하지 않고 추가, 편집 또는 제거할 수 있습니다.

양식 필드는 특별한 경우입니다. 대화형 위젯 주석(표시되는 부분)과 필드 사전(데이터 부분)으로 구성됩니다. 양식을 채우고 저장할 때 페이지 자체는 그대로 두고 필드 사전만 변경됩니다.

5. 벡터 그래픽

PostScript와 유사한 연산자(moveto, lineto, curveto)로 그려진 선, 모양, 곡선 및 경로입니다. 품질 손실 없이 무한히 확장됩니다. PDF의 대부분의 CAD 내보내기, 차트 및 다이어그램은 벡터 그래픽입니다.

6. 디지털 서명

파일의 바이트 범위에 연결된 PKI 기반 서명입니다. 서명 사전은 "바이트 0부터 12,547까지 및 14,200부터 파일 끝까지가 서명됨"을 지정합니다. 중간의 작은 범위는 서명 값 자체를 위해 예약되어 있습니다. 서명된 바이트 범위의 모든 변경은 서명을 무효화하므로 PDF가 서명 후 변조를 감지하는 방식입니다.

일부 PDF에는 증분 업데이트로 계층화된 여러 서명이 있습니다. 각 서명자는 받은 파일 상태 그대로 서명하여 체인을 유지합니다.


메타데이터: 두 개의 병렬 시스템

PDF에는 종종 불일치하는 두 개의 메타데이터 시스템이 있습니다:

표준 /Info 사전

트레일러에 저장됩니다. 필드: Title, Author, Subject, Keywords, Creator(문서를 만든 앱), Producer(PDF를 생성한 앱), CreationDate, ModDate. 모든 PDF 도구로 쉽게 읽을 수 있는 일반 텍스트 문자열입니다.

XMP 메타데이터 스트림

더 풍부한 스키마를 지원하는 별도의 XML 스트림(Adobe XMP, RDF/XML 기반): Dublin Core, IPTC, 사용자 정의 도메인별 스키마(색상 프로필, 저작권 등록, 원고 버전 관리).

최신 PDF 생성기는 둘 다에 기록합니다. 오래된 PDF는 /Info만 가지고 있습니다. 일부 PDF는 이전 버전의 오래된 /Info와 최근 편집의 정확한 XMP를 가지고 있거나 그 반대입니다. 규정 준수 또는 법의학을 위해 PDF를 감사할 때는 둘 다 확인하십시오.


PDF 기반 ISO 표준

기본 PDF 사양은 ISO 32000입니다. 여러 파생 표준이 특정 사용 사례에 맞게 PDF를 제약합니다:

표준 용도 제약 조건
PDF/A 장기 보관 모든 글꼴 임베드, JavaScript 없음, 오디오/비디오 없음, 장치 독립 색 공간. 적합성 수준: PDF/A-1, A-2, A-3 (파일 첨부 허용)
PDF/X 인쇄 제작 CMYK 색상, 임베드된 글꼴 및 색상 프로필, 투명도 없음(PDF/X-1a) 또는 제어된 투명도(PDF/X-4)
PDF/UA 접근성 태그 구조 트리, 언어 메타데이터, 이미지 대체 텍스트, 논리적 읽기 순서
PDF/E 엔지니어링 3D 모델(U3D, PRC 형식), CAD별 메타데이터
PDF/VT 변수 트랜잭션 인쇄 대량 개인화 메일링에 최적화

PDF는 여러 표준을 동시에 준수할 수 있습니다. 정부 및 법률 아카이브의 경우 PDF/A-2u(유니코드 매핑을 사용한 보관)와 PDF/UA(접근성)가 일반적입니다.


선형화된 PDF (웹 최적화)

"선형화" 또는 "웹 최적화"된 PDF는 본문을 재정렬하여 첫 페이지의 객체가 파일 앞부분에 나타나도록 합니다. 웹 뷰어는 전체 파일을 기다리는 대신 약 50KB만 다운로드한 후 첫 페이지를 렌더링할 수 있습니다. 트레일러는 앞쪽에 복제되고 각 페이지가 시작되는 위치를 뷰어에게 알려주는 힌트 테이블이 추가됩니다.

대부분의 최신 PDF 생성기는 "웹용으로 저장" 옵션으로 선형화를 지원합니다. 이 형식은 느린 연결에서 빠른 첫 페이지 렌더링을 위해 파일 크기에 2-5%를 추가합니다.


암호화 및 권한

PDF는 암호(또는 인증서)로 암호화하고 인쇄, 텍스트 복사, 수정, 양식 채우기, 접근성을 위한 추출 등 세분화된 권한을 부여할 수 있습니다. 암호화는 트레일러의 /Encrypt 사전에 저장됩니다.

암호화 강도는 발전해 왔습니다. RC4 40비트(초기 PDF, 오늘날 쉽게 해독됨), RC4 128비트(여전히 약함), AES-128, AES-256. 원래 Acrobat 5 RC4 구현은 2001년에 공개적으로 해독되었습니다. 최신 PDF 암호화(AES-256, PDF 2.0)는 강력한 암호와 함께 사용될 때 안전합니다.

참고: "권한"은 권고 사항입니다. 이를 존중하는 뷰어는 이를 시행합니다. 이를 무시하는 뷰어(또는 암호화를 제거하는 도구)는 그렇지 않습니다.


PDFSub는 PDF를 어떻게 읽나요?

PDFSub는 Rust의 PDFium 바인딩(Chromium의 PDF 뷰어를 지원하는 동일한 엔진)과 스캔된 문서를 위한 PaddleOCR을 사용하여 PDF를 처리합니다. 전체 아키텍처 세부 정보 및 클라우드 기반 도구와의 비교는 브라우저 대 클라우드 PDF 보안을 참조하십시오.

위에서 설명한 구조를 유지하면서 PDF를 다른 형식으로 변환하려면:

  • PDF를 Excel로 - 텍스트 및 테이블 추출, 좌표 유지
  • OCR PDF - 스캔된 PDF에 검색 가능한 텍스트 계층 추가
  • PDF를 Word로 - 텍스트를 편집 가능한 단락으로 재배치
  • PDF 압축 - 이미지 다운샘플링, 글꼴 부분 임베딩

특히 보관 워크플로우의 경우 PDF를 PDF/A로 변환하는 방법을 참조하십시오.


추가 자료 읽기

  • ISO 32000-2 (PDF 2.0 사양) - 권위 있는 참조, 유료
  • Adobe PDF 참조 아카이브 - PDF 1.7에 대한 무료 참조
  • PDF Association - 업계 실무 그룹, 무료 기사 및 적합성 테스트 파일

PDF 관련 주제: 변호사를 위한 PDF 규정 준수 가이드, PDF/A 변환 가이드.


블로그로 돌아가기

질문이 있으신가요? 문의하기

PDFSub

필요한 모든 PDF 및 문서 도구를 한곳에서. 빠르고 안전하며 개인 정보가 보호됩니다.

GDPR 준수CCPA 준수SOC 2 준비 완료
PDFSub Engine으로 구동

PDF 도구

  • PDF 병합
  • PDF 분할
  • 페이지 재정렬
  • 시트당 페이지
  • PDF 뷰어
  • 페이지 추출
  • 이미지 추출
  • 이미지 바꾸기
  • PDF 회전
  • 페이지 삭제
  • 워터마크 추가
  • PDF 편집
  • PDF 스탬프
  • PDF 양식 채우기
  • 페이지 자르기
  • 페이지 크기 변경
  • 페이지 번호 추가
  • 머리글 및 바닥글
  • PDF 압축
  • 검색 가능하게 만들기
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF 복구
  • 메타데이터 편집
  • 메타데이터 제거
  • PDF를 Word로
  • Word를 PDF로
  • PDF to Excel
  • Excel을 PDF로
  • PDF를 PowerPoint로
  • PowerPoint를 PDF로
  • HTML을 PDF로
  • HTML to Text
  • HTML to Markdown
  • PDF를 HTML로
  • EPUB을 PDF로
  • PDF를 EPUB으로
  • 텍스트를 PDF로
  • RTF를 PDF로
  • PDF를 RTF로
  • PDF를 텍스트로
  • ODT를 PDF로
  • PDF를 ODT로
  • ODS를 PDF로
  • PDF를 ODS로
  • ODP를 PDF로
  • PDF를 ODP로
  • PDF/A 변환
  • PDF 생성
  • 일괄 변환
  • PDF를 이미지로
  • 이미지를 PDF로
  • PDF를 PNG로
  • PNG를 PDF로
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG를 PDF로
  • PDF를 SVG로
  • TIFF를 PDF로
  • WEBP를 PDF로
  • HEIC를 이미지로
  • WEBP를 JPG로
  • WEBP를 PNG로
  • Image Converter
  • ODG를 PDF로
  • 비밀번호 보호
  • PDF 잠금 해제
  • PDF 내용 삭제
  • PDF 전자 서명
  • Share Document
  • PDF 비교
  • 표 추출
  • 은행 거래 내역 변환기
  • 송장 추출기
  • 영수증 스캐너
  • 재무 보고서 분석
  • OCR - 텍스트 추출
  • 손글씨 변환
  • PDF 요약
  • PDF 번역
  • PDF와 채팅
  • 데이터 추출
  • 디자인 스튜디오

제품

  • 모든 도구
  • 기능
  • 은행 거래 내역서
  • API
  • 가격
  • FAQ
  • 블로그

지원

  • 소개
  • 도움말 센터
  • 연락처
  • FAQ

법률

  • 개인정보처리방침
  • 이용약관
  • 쿠키 정책

© 2026 PDFSub. 모든 권리 보유.

미국에서 로 전 세계 사람들을 위해 제작됨