PDFSub
PreusAPIMergeCompressEditE-SignExtractes bancarisBlog
Tornar al blog
TutorialEscaneigNetejaPDFOCR

Com netejar un PDF escanejat (eliminar soroll, redreçar pàgines)

15 de març del 2026
T
Todd Lahman
Founder, PDFSub

Els PDF escanejats tenen un aspecte desordenat: pàgines tortes, fons tacats, text esvaït. Aquí us expliquem com netejar-los per obtenir un resultat professional i llegible.


Heu escanejat una pila de documents i el resultat sembla... brut. Les pàgines estan lleugerament inclinades. Els fons blancs tenen un to groguenc amb taques i punts. El text que era perfectament nítid en paper sembla esvaït i difús a la pantalla. Ombrejats foscos apareixen a les vores on la pàgina no estava plana sobre el vidre de l'escàner.

Aquesta és la realitat de l'escaneig. Fins i tot els bons escàners amb operadors curosos produeixen resultats imperfectes. El paper es mou durant l'alimentació. Els escàners plans capturen cada pols. Els documents antics tenen paper groguenc, tinta esvaïda i danys físics que l'escàner reprodueix fidelment. El resultat és un PDF tècnicament funcional però que sembla poc professional i pot ser difícil de llegir.

Netejar un PDF escanejat transforma aquests escanejos bruts en documents nets i professionals, amb pàgines dretes, fons blancs, text nítid i sense artefactes a les vores. Millor encara, els escanejos nets produeixen resultats espectacularment millors si més tard executeu OCR per fer el text cercable i seleccionable.

Així és com podeu netejar els vostres PDF escanejats, què fa cada pas de neteja i quan combinar la neteja amb OCR.

How to clean up a scanned PDF - remove noise, straighten pages, and enhance text clarity

Per què els PDF escanejats necessiten neteja

Comprendre què crea el problema us ajuda a saber quins passos de neteja són més importants per als vostres documents.

Inclinació (Pàgines tortes)

Quan el paper passa per un escàner de documents amb un angle lleugerament inclinat (mig grau és suficient per ser notat), la imatge resultant està torta. Això passa amb tots els alimentadors automàtics de documents (ADF) fins a cert punt. L'ull humà és sorprenentment sensible a la inclinació: una pàgina inclinada només un grau sembla òbviament torta, fent que el document sembli descuidat i poc professional.

La inclinació també causa estralls en la precisió de l'OCR. Els motors d'OCR esperen que el text estigui en línies horitzontals. Quan tota la pàgina està girada, els algorismes de detecció de text tenen dificultats per identificar els límits de les línies, cosa que provoca paraules desordenades, caràcters perduts i paràgrafs trencats.

Soroll (Taques i punts)

El soroll de l'escàner prové de diverses fonts: pols al vidre de l'escàner, textura del paper capturada a alta resolució, soroll elèctric al sensor de l'escàner i artefactes de l'òptica d'escaneig. El resultat són punts aleatoris escampats per la pàgina, més visibles en fons blancs però presents a tota la imatge.

El soroll és especialment problemàtic en els marges blancs i entre les línies de text, on crea desordre visual. Per a l'OCR, els punts de soroll es poden malinterpretar com a signes de puntuació, signes diacrítics o parts de caràcters, una font comuna d'errors d'OCR.

Text esvaït

Amb el temps, la tinta s'esvaeix. Les impressions làser es conserven bé, però les impressions d'injecció de tinta, les fotocòpies i les còpies de carboni es descoloreixen significativament. Fins i tot els documents relativament recents poden tenir una densitat d'impressió desigual: més foscos on el tòner estava fresc, més clars on s'estava acabant.

El text esvaït és difícil de llegir a la pantalla i s'imprimeix malament. També redueix la precisió de l'OCR perquè els algorismes necessiten un contrast clar entre el text i el fons per identificar els caràcters de manera fiable.

Vores fosques i ombres

Quan una pàgina no cobreix tota la superfície de l'escàner, o quan la tapa d'un llibre crea una ombra, l'escaneig captura vores fosques i regions d'ombra. Aquests són purament artefactes del procés d'escaneig i no tenen cap propòsit en el document. Malgasten tòner en imprimir i fan que el document sembli una fotocòpia d'una fotocòpia.

Fons desigual

El paper no és perfectament blanc. Els documents antics estan groguencs. El paper reciclat té un to grisenc. Alguns documents tenen paper de color. Quan s'escaneja, aquestes variacions de fons es capturen com a dades de píxels, afegint megabytes a la mida del fitxer mentre no aporten res a la llegibilitat.


Els quatre passos de neteja

L'eina Netejar PDF escanejat de PDFSub processa els documents a través de quatre etapes de neteja, cadascuna dirigint-se a un tipus específic d'artefacte d'escaneig.

Pas 1: Endreçar (Redreçar pàgines)

L'endreçament detecta l'angle dominant del text a cada pàgina i gira la imatge per fer que el text sigui perfectament horitzontal. L'algoritme analitza la distribució de píxels foscos (text) a la pàgina, determina l'angle de rotació necessari i l'aplica amb precisió subgrau.

La majoria de les pàgines necessiten una correcció de 0,3 a 2 graus. El procés és automàtic: no cal especificar l'angle. Cada pàgina s'analitza i es corregeix independentment, de manera que un document on la pàgina 3 està inclinada a l'esquerra i la pàgina 7 a la dreta rep ambdues correccions correctament.

El que notareu: Les línies de text que semblaven lleugerament diagonals es tornen perfectament horitzontals. La millora és immediatament visible i fa que el document sembli significativament més professional.

Pas 2: Eliminar soroll (Esborrar taques)

L'eliminació de soroll identifica i elimina petites marques aïllades que no formen part del contingut del document. L'algoritme distingeix entre soroll (punts petits aleatoris) i contingut real (text, línies, imatges) basant-se en la mida, la forma i el context.

El repte clau és eliminar el soroll sense danyar detalls fins com punts, comes, punts decimals i signes diacrítics. El motor de neteja de PDFSub utilitza un llindar adaptatiu que considera el context circumdant: un punt petit al mig d'un marge blanc és soroll, mentre que un punt petit al final d'una frase és un punt.

El que notareu: Els fons es tornen més nets, els marges semblen més nítids i el document general apareix menys "granulat". En escanejos molt sorollosos, la millora és espectacular.

Pas 3: Millorar el contrast

La millora del contrast augmenta la diferència entre el text (fosc) i el fons (clar). Això fa que el text esvaït sigui més llegible i crea una separació visual més neta entre el contingut i el fons.

La millora és adaptativa: ajusta la intensitat basant-se en les característiques locals de la imatge. Una secció de pàgina amb text en negreta rep menys millora que una secció amb text clar i esvaït. Això evita que el text ja fosc es converteixi en taques voluminoses, mentre que porta el text esvaït a un contrast llegible.

El que notareu: El text apareix més nítid i negre. Les parts esvaïdes es tornen llegibles. El fons apareix més brillant i uniforme.

Pas 4: Netejar vores (Eliminar vores fosques)

La neteja de vores detecta i elimina les regions fosques al voltant de les vores de les pàgines escanejades: ombres de la tapa de l'escàner, barres negres de pàgines més petites que l'àrea d'escaneig i artefactes d'ombra d'espines de llibres.

L'algoritme identifica el límit del contingut de la pàgina i substitueix tot el que hi ha fora amb espai blanc net. Això elimina els artefactes de la vora mentre es preserva el contingut que arriba a la vora de la pàgina (com capçaleres, peus de pàgina o notes al marge).

El que notareu: Les vores fosques desapareixen. La pàgina té marges nets i uniformes. La sortida impresa ja no té vores distractives.


Com netejar un PDF escanejat amb PDFSub

Instruccions pas a pas

Pas 1: Obriu l'eina. Navegueu a pdfsub.com/tools/clean-scan.

Pas 2: Pugeu el vostre PDF escanejat. Arrossegueu i deixeu anar el fitxer o feu clic per buscar. El PDF es carrega als servidors de processament segur de PDFSub.

Pas 3: Seleccioneu les opcions de neteja. Trieu quins passos de neteja aplicar. Els quatre estan habilitats per defecte, però podeu desactivar qualsevol pas si cal. Per a la majoria de documents escanejats, els quatre passos produeixen els millors resultats.

Pas 4: Processar. Feu clic al botó de neteja. El motor PDFSub processa cada pàgina a través dels passos seleccionats. El temps de processament depèn del nombre de pàgines i la seva resolució; espereu aproximadament 2-3 segons per pàgina.

Pas 5: Revisar i descarregar. Previsualitzeu les pàgines netejades per verificar els resultats. Descarregueu el PDF net.

Quan personalitzar els passos de neteja

Desactiveu l'endreçament si els vostres escanejos ja estan perfectament alineats (per exemple, d'un escàner de documents professional amb bona alineació) o si el document conté contingut inclinat que hauria de romandre inclinat (com ara marques d'aigua diagonals).

Desactiveu l'eliminació de soroll si el document conté detalls molt fins que es podrien confondre amb soroll: il·lustracions puntillades, fotografies de semitò, o documents amb fons amb textura intencionada.

Redueix la millora del contrast si l'escaneig original ja té un bon contrast. Una millora excessiva pot fer que el text sembli més gruixut del previst.

Desactiveu la neteja de vores si el document té contingut que arriba fins a la vora de la pàgina, o si les vores fosques contenen informació útil (com ara marques de retall o marques de registre).


Combinar la neteja amb OCR

Una de les raons més convinents per netejar PDF escanejats és la millora espectacular de la precisió de l'OCR. Els motors d'OCR funcionen analitzant les formes dels caràcters contra una base de dades de formes de lletres conegudes. Qualsevol cosa que degradi les formes dels caràcters (soroll, inclinació, baix contrast o artefactes de vora) redueix la precisió de l'OCR.

La millora de la precisió

Netejar un PDF escanejat abans d'executar l'OCR normalment millora la precisió del reconeixement de caràcters en 5-15 punts percentuals. En un escaneig molt sorollós o inclinat, la millora pot ser encara més dramàtica.

  • La correcció d'inclinació per si sola pot millorar la precisió de l'OCR en un 3-8%. Els motors d'OCR esperen línies de text horitzontals; fins i tot una lleugera inclinació causa errors de segmentació de paraules.
  • L'eliminació de soroll evita la detecció de caràcters falsos. Els punts aleatoris als marges no s'identifiquen erròniament com a lletres o signes de puntuació.
  • La millora del contrast ajuda el motor d'OCR a distingir els caràcters del fons, especialment amb text esvaït o clar.

El flux de treball recomanat

Per obtenir els millors resultats, netegeu primer l'escaneig i després executeu l'OCR:

  1. Pugeu el PDF escanejat a l'eina Netejar PDF escanejat de PDFSub
  2. Descarregueu la versió neta
  3. Pugeu el PDF net a l'eina OCR de PDFSub
  4. Descarregueu el PDF cercable i seleccionable

Aquest procés de dos passos produeix millors resultats que executar l'OCR directament sobre un escaneig brut.


Escenaris comuns

Escanejos de documents d'oficina

El cas més comú: contractes, cartes, formularis i informes escanejats en una impressora multifunció d'oficina. Aquests normalment necessiten els quatre passos de neteja: l'ADF introdueix inclinació, l'escàner afegeix soroll i els documents escanejats amb la cara cap avall al vidre tenen ombres a les vores.

Pàgines de llibres i revistes

Escanejar materials enquadernats crea artefactes únics: la pàgina corbada prop de la coberta crea distorsió i ombra, les pàgines poden estar lleugerament inclinades per l'angle de l'enquadernació, i la coberta gruixuda crea una banda fosca al llarg d'una vora. La neteja de vores i l'endreçament són particularment importants per a aquests escanejos.

Documents històrics i d'arxiu

Els documents antics tenen paper groguenc, tinta esvaïda, taques de foxing (punts marrons per envelliment) i danys físics. La millora del contrast és el pas més impactant per a aquests documents: fa que el text esvaït torni a ser llegible. Elimineu el soroll amb cura en documents històrics, ja que alguns artefactes visuals poden ser històricament significatius.

Rebuts i impressions tèrmiques

El paper tèrmic (utilitzat en impressores de rebuts) s'esvaeix ràpidament i s'escaneja malament. El text sovint és gris clar en lloc de negre, i el paper desenvolupa una aparença motejada. Una millora agressiva del contrast i l'eliminació de soroll funcionen bé per a impressions tèrmiques, ja que rarament hi ha detalls fins a preservar.

Formularis de diverses pàgines

Els formularis governamentals, documents fiscals i paquets de sol·licituds sovint tenen caixes, línies i ombres pre-impreses que compliquen la neteja. El motor de neteja els gestiona bé: els elements pre-impresos són prou grans per sobreviure a l'eliminació de soroll, i l'endreçament alinea tot el formulari correctament.


Preguntes freqüents

La neteja canviarà el contingut del meu document?

No. La neteja només afecta la qualitat visual de la imatge escanejada: redreça, elimina soroll, millora el contrast i neteja les vores. No afegeix, elimina ni modifica cap text ni contingut. La informació de la pàgina roman exactament la mateixa.

Puc netejar un PDF que no està escanejat?

L'eina de neteja està dissenyada per a PDF escanejats: documents on cada pàgina és una imatge rasteritzada. No danyarà un PDF no escanejat, però els passos de neteja estan dissenyats específicament per a artefactes d'escaneig i no milloraran significativament un PDF creat a partir de fonts digitals (com una exportació de Word).

Quant redueix la neteja la mida del fitxer?

Varia, però la neteja normalment redueix la mida del fitxer en un 20-40%. L'eliminació de soroll elimina milers de píxels innecessaris per pàgina. La neteja de vores elimina grans regions fosques. La millora del contrast pot millorar l'eficiència de la compressió creant fons més uniformes. Un document escanejat de 50 pàgines que era de 80 MB podria reduir-se a 50-60 MB després de la neteja.

La neteja funciona en escanejos en color?

Sí. Els quatre passos de neteja funcionen en escanejos en color, escala de grisos i blanc i negre. Els escanejos en color es beneficien particularment de la normalització del fons i la neteja de vores. La millora del contrast s'aplica de manera que preserva la informació del color mentre millora la llegibilitat del text.

Puc desfer la neteja si no m'agrada el resultat?

La neteja produeix un fitxer nou; el vostre PDF original mai no es modifica. Si la neteja no és satisfactòria, simplement torneu al vostre fitxer original. Per aquest motiu, conserveu sempre l'escaneig original al costat de la versió neta.


Resum

Netejar PDF escanejats és un procés de quatre passos que transforma escanejos bruts en documents professionals:

Pas Què arregla Impacte
Endreçar Pàgines tortes Aspecte recte i professional
Eliminar soroll Taques i punts Fons nets, text més clar
Millorar Text esvaït, de baix contrast Sortida llegible i imprimible
Netejar vores Vores fosques i ombres Marges uniformes, sense artefactes

Cada pas és independent i es pot activar o desactivar. Per a la majoria de documents escanejats, executar els quatre passos produeix el millor resultat. La sortida neta té una mida de fitxer més petita, un aspecte més professional i produeix resultats d'OCR espectacularment millors si més tard necessiteu text cercable.

Preparat per netejar els vostres escanejos? Proveu l'eina Netejar PDF escanejat de PDFSub - pugeu el vostre PDF escanejat i obteniu un resultat net i professional en segons.

Tornar al blog

Preguntes? Contacta amb nosaltres

PDFSub

Totes les eines de PDF i documents que necessites en un sol lloc. Ràpid, segur i privat.

Compliment GDPRCompliment CCPAPreparat per SOC 2
Potenciat per PDFSub Engine

Eines PDF

  • Unir PDF
  • Dividir PDF
  • Reordenar pàgines
  • Pàgines per full
  • Visualitzador PDF
  • Extreure pàgines
  • Extreure imatges
  • Reemplaçar imatge
  • Girar PDF
  • Eliminar pàgines
  • Afegir marca d'aigua
  • Editar PDF
  • Segellar PDF
  • Omplir formularis PDF
  • Retallar pàgines
  • Canviar la mida de la pàgina
  • Afegir números de pàgina
  • Capçaleres i peus de pàgina
  • Comprimir PDF
  • Fer cercable
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Reparar PDF
  • Editar metadades
  • Eliminar metadades
  • PDF a Word
  • Word a PDF
  • PDF to Excel
  • Excel a PDF
  • PDF a PowerPoint
  • PowerPoint a PDF
  • HTML a PDF
  • HTML to Text
  • HTML to Markdown
  • PDF a HTML
  • EPUB a PDF
  • PDF a EPUB
  • Text a PDF
  • RTF a PDF
  • PDF a RTF
  • PDF a Text
  • ODT a PDF
  • PDF a ODT
  • ODS a PDF
  • PDF a ODS
  • ODP a PDF
  • PDF a ODP
  • Conversió PDF/A
  • Crear PDF
  • Conversió per lots
  • PDF a imatge
  • Imatge a PDF
  • PDF a PNG
  • PNG a PDF
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG a PDF
  • PDF a SVG
  • TIFF a PDF
  • WEBP a PDF
  • HEIC a imatge
  • WEBP a JPG
  • WEBP a PNG
  • Image Converter
  • ODG a PDF
  • Protegir amb contrasenya
  • Desbloquejar PDF
  • Redactar PDF
  • Signar PDF electrònicament
  • Share Document
  • Comparar PDF
  • Extreure taules
  • Convertidor d'extractes bancaris
  • Extractor de factures
  • Escàner de rebuts
  • Informe financer
  • OCR - Extreure text
  • Conversió d'escriptura manual
  • Resumir PDF
  • Traduir PDF
  • Xatejar amb el PDF
  • Extreure dades
  • Estudi de disseny

Producte

  • Totes les eines
  • Característiques
  • Extractes bancaris
  • API
  • Preus
  • Preguntes freqüents
  • Blog

Suport

  • Sobre nosaltres
  • Centre d'ajuda
  • Contacte
  • Preguntes freqüents

Legal

  • Política de privadesa
  • Condicions del servei
  • Política de cookies

© 2026 PDFSub. Tots els drets reservats.

Fet a Amèrica amb per a tothom