Um PDF não é uma coisa única. É um contêiner binário com uma estrutura específica em disco, um conjunto de camadas de conteúdo empilhadas dentro desse contêiner e uma família de padrões ISO construídos sobre a especificação base. Abra um em um editor hexadecimal e a estrutura é visível em texto puro nas primeiras linhas. Abra um em um visualizador e as camadas são renderizadas juntas como uma única página.

Este guia é uma referência rotulada: a estrutura física do arquivo, as camadas de conteúdo que um corpo contém, os metadados que cercam tudo e os padrões (PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT) que o restringem para casos de uso específicos.

Anatomy of a PDF file: header, body objects, cross-reference table, trailer, content layers, and metadata

Quer usar este diagrama no seu blog? Copie este código de incorporação:

As Quatro Seções Físicas

Todo PDF em disco tem a mesma estrutura de quatro partes, nesta ordem:

1. Cabeçalho

A primeira linha do arquivo. Sempre começa com %PDF- seguido por um número de versão:

%PDF-1.7

As versões variam de 1.0 (lançado em 1993) a 2.0 (lançado em 2017, atual). O cabeçalho é seguido por uma linha de comentário com bytes binários que sinalizam para FTP e outras ferramentas de transporte que este é um arquivo binário.

2. Corpo - Objetos Indiretos

A maior parte do arquivo. Cada página, fonte, imagem, anotação e campo de formulário é um objeto indireto numerado:

1 0 obj
<< /Type /Catalog /Pages 2 0 R >>
endobj
 
2 0 obj
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
endobj
 
3 0 obj
<< /Type /Page /Parent 2 0 R /Contents 4 0 R /Resources << ... >> >>
endobj

Cada objeto tem um ID (o número antes de 0 obj), um número de geração (0, usado para atualizações incrementais) e uma carga útil entre << e >> para dicionários ou stream e endstream para fluxos binários (dados de imagem, dados de fonte, conteúdo compactado).

Os objetos referenciam-se mutuamente com a sintaxe <id> <gen> R (por exemplo, 3 0 R significa "objeto 3, geração 0"). É assim que uma página referencia a fonte que usa, ou como um catálogo referencia a raiz da árvore de páginas.

3. Tabela de Referência Cruzada (xref)

Uma tabela de consulta de deslocamento de bytes. Para cada objeto no corpo, o xref registra sua posição absoluta em bytes no arquivo:

xref
0 6
0000000000 65535 f
0000000017 00000 n
0000000089 00000 n
0000000172 00000 n
0000000299 00000 n
0000000453 00000 n

É isso que torna os PDFs de acesso aleatório. Um visualizador pode ler o xref, pular diretamente para o deslocamento de bytes do objeto 3 e renderizar essa página sem analisar o restante do arquivo. É por isso que PDFs de um único capítulo abrem instantaneamente, mesmo quando o arquivo de origem tem 500 páginas.

4. Trailer

A última seção. Diz ao analisador onde encontrar o xref e qual objeto é a raiz:

trailer
<< /Size 6 /Root 1 0 R /Info 7 0 R >>
startxref
1893
%%EOF

O valor startxref é o deslocamento de bytes da tabela xref. O marcador %%EOF é o fim literal do arquivo. Os trailers são o que tornam as atualizações incrementais possíveis: anexar um novo xref + trailer no final permite adicionar objetos sem reescrever o arquivo inteiro.

As Seis Camadas de Conteúdo

Dentro do corpo, o conteúdo é armazenado em seis tipos de camada. Cada página PDF renderizada é um composto dessas camadas:

1. Texto

Comandos de posição de glifo e referências de fonte, não strings de texto. Um PDF armazena instruções como "desenhar o glifo 42 da fonte F3 na posição (120, 540)" em vez de "desenhar a letra A aqui". É por isso que o texto é selecionável e pesquisável: o visualizador mapeia inversamente os IDs de glifo para pontos de código Unicode através de um mapeamento ToUnicode (ou um CMap para fontes CJK).

Quando falta um mapeamento ToUnicode ao texto, você obtém o clássico problema "PDF com texto selecionável que copia como lixo". O texto é visível, mas o mapeamento glifo-Unicode está quebrado ou ausente.

2. Imagens

Armazenadas como fluxos incorporados em um de vários formatos:

JPEG (filtro DCTDecode): fotografias, mais comum
JPEG2000 (JPXDecode): maior compressão, menos comum
Equivalente a PNG (filtro FlateDecode + Predictor): capturas de tela, arte linear
CCITT Group 4 (filtro CCITTFaxDecode): texto escaneado em preto e branco, usado em digitalizações de arquivo
JBIG2 (filtro JBIG2Decode): imagens de nível de bit, comum em documentos com OCR

As imagens podem ser subamostradas, recomprimidas ou substituídas sem afetar outro conteúdo.

3. Fontes

Incorporadas como programas de fonte completos, subconjuntos (apenas glifos usados incluídos) ou referenciadas por nome (devem estar instaladas no sistema do visualizador). O subconjunto é o padrão - ele reduz drasticamente o tamanho do arquivo. Formatos de fonte suportados: Type1, TrueType, OpenType e CIDFont (para CJK).

Quando uma fonte é referenciada, mas não incorporada e não instalada no sistema do visualizador, o visualizador substitui por uma fonte semelhante - o que geralmente parece errado. O PDF/A exige que todas as fontes sejam incorporadas para evitar isso.

4. Anotações

Destaques, comentários, links, carimbos, marcas d'água e campos de formulário são todas anotações. Elas são sobrepostas ao conteúdo da página e podem ser adicionadas, editadas ou removidas sem alterar a página subjacente.

Campos de formulário são um caso especial: uma anotação de widget interativa (a parte visível) mais um dicionário de campo (a parte de dados). Quando você preenche um formulário e salva, apenas os dicionários de campo mudam - a página em si não é alterada.

5. Gráficos Vetoriais

Linhas, formas, curvas e caminhos desenhados com operadores semelhantes a PostScript (moveto, lineto, curveto). Escalam infinitamente sem perda de qualidade. A maioria das exportações de CAD, gráficos e diagramas em PDFs são gráficos vetoriais.

6. Assinaturas Digitais

Assinaturas com suporte a PKI vinculadas a intervalos de bytes do arquivo. O dicionário de assinatura especifica "bytes 0 a 12.547 e 14.200 até o final do arquivo são assinados" - um pequeno intervalo no meio é reservado para o próprio valor da assinatura. Qualquer alteração nos intervalos de bytes assinados invalida a assinatura, que é como o PDF detecta adulteração após a assinatura.

Alguns PDFs têm várias assinaturas, empilhadas como atualizações incrementais - cada signatário assina o arquivo como ele existia quando o recebeu, preservando a cadeia.

Metadados: Dois Sistemas Paralelos

O PDF tem dois sistemas de metadados que frequentemente discordam:

Dicionário Padrão /Info

Armazenado no trailer. Campos: Title, Author, Subject, Keywords, Creator (o aplicativo em que o usuário criou o documento), Producer (o aplicativo que gerou o PDF), CreationDate, ModDate. Strings de texto simples, fáceis de ler com qualquer ferramenta PDF.

Fluxo de Metadados XMP

Um fluxo XML separado (Adobe XMP, baseado em RDF/XML) que suporta esquemas mais ricos: Dublin Core, IPTC, esquemas personalizados específicos do domínio (perfis de cor, registros de direitos autorais, versionamento de manuscritos).

Geradores de PDF modernos escrevem em ambos. PDFs antigos têm apenas /Info. Alguns PDFs têm /Info desatualizado de uma versão anterior e XMP preciso de uma edição recente - ou vice-versa. Ao auditar PDFs para conformidade ou forense, verifique ambos.

Padrões ISO Construídos sobre PDF

A especificação base do PDF é a ISO 32000. Vários padrões derivados restringem o PDF para casos de uso específicos:

Padrão	Uso	Restrições
PDF/A	Arquivamento de longo prazo	Todas as fontes incorporadas, sem JavaScript, sem áudio/vídeo, espaços de cor independentes do dispositivo. Níveis de conformidade: PDF/A-1, A-2, A-3 (permite anexos de arquivo)
PDF/X	Produção de impressão	Cor CMYK, fontes e perfis de cor incorporados, sem transparência (PDF/X-1a) ou com transparência controlada (PDF/X-4)
PDF/UA	Acessibilidade	Árvore de estrutura marcada, metadados de idioma, texto alternativo para imagens, ordem lógica de leitura
PDF/E	Engenharia	Modelos 3D (formatos U3D, PRC), metadados específicos de CAD
PDF/VT	Impressão transacional variável	Otimizado para mala direta personalizada de alto volume

Um PDF pode estar em conformidade com vários padrões simultaneamente - PDF/A-2u (arquivamento com mapeamento Unicode) mais PDF/UA (acessibilidade) é comum para arquivos governamentais e jurídicos.

PDFs Linearizados (Otimizados para Web)

Um PDF "linearizado" ou "otimizado para web" reordena o corpo para que os objetos da primeira página apareçam no início do arquivo. Um visualizador web pode renderizar a página 1 após baixar apenas os primeiros ~50 KB em vez de esperar pelo arquivo inteiro. O trailer é duplicado na frente, mais uma tabela de dicas que informa ao visualizador onde cada página começa.

A maioria dos geradores de PDF modernos suporta a linearização como uma opção "Salvar para Web". O formato adiciona 2-5% ao tamanho do arquivo em troca de renderização rápida da primeira página em conexões lentas.

Criptografia e Permissões

Os PDFs podem ser criptografados com uma senha (ou certificados) e concedidos permissões granulares: imprimir, copiar texto, modificar, preencher formulários, extrair para acessibilidade. A criptografia é armazenada no dicionário /Encrypt do trailer.

As forças de criptografia evoluíram: RC4 40 bits (PDFs antigos, trivialmente quebrados hoje), RC4 128 bits (ainda fraco), AES-128, AES-256. A implementação original RC4 do Acrobat 5 foi quebrada publicamente em 2001; a criptografia moderna de PDF (AES-256, PDF 2.0) é sólida quando usada com senhas fortes.

Nota: "Permissões" são consultivas. Um visualizador que as respeita as aplicará. Um visualizador que as ignora (ou uma ferramenta que remove a criptografia) não.

Como o PDFSub Lê PDFs

O PDFSub processa PDFs usando a ligação PDFium do Rust (o mesmo motor que alimenta o visualizador de PDF do Chromium) mais o PaddleOCR para documentos digitalizados. Para detalhes completos da arquitetura e uma comparação com ferramentas baseadas em nuvem, veja Segurança de PDF no Navegador vs. Nuvem.

Para converter PDFs para outros formatos, preservando a estrutura descrita acima:

PDF para Excel - extrai texto + tabelas, preserva coordenadas
OCR PDF - adiciona uma camada de texto pesquisável a PDFs digitalizados
PDF para Word - reorganiza o texto em parágrafos editáveis
Comprimir PDF - subamostra imagens, subconjuntos de fontes

Para fluxos de trabalho de arquivamento especificamente, veja Como Converter PDF para PDF/A.

Leitura Adicional

ISO 32000-2 (especificação PDF 2.0) - referência autoritativa, paga
Arquivos de Referência PDF da Adobe - referência gratuita para PDF 1.7
PDF Association - grupo de trabalho da indústria, artigos gratuitos e arquivos de teste de conformidade

Para tópicos específicos de PDF: Guia de Conformidade PDF para Advogados, Guia de Conversão PDF/A.