GhidChitanțeOCRAIAcuratețe

Precizia OCR a chitanțelor: Ce să așteptați de la scanarea AI

2 martie 2026

PDFSub Team

OCR-ul pentru chitanțe este mai dificil decât scanarea documentelor standard — hârtia termică se estompează, aspectele variază enorm, iar fonturile sunt minuscule. Iată la ce precizie vă puteți aștepta realist de la OCR-ul tradițional, comparativ cu extragerea bazată pe AI.

Scanați o chitanță de la prânzul de afaceri de marțea trecută. Suma totală apare ca 14,73 USD în loc de 114,73 USD. Un singur cifru omis și raportul dvs. de cheltuieli este greșit.

Aceasta este tensiunea principală în OCR-ul chitanțelor: tehnologia pare magică atunci când funcționează, dar decalajul dintre „aproape corect” și „corect de fapt” este locul unde se pierd bani reali. O rată de acuratețe de 95% a caracterelor sună impresionant până când realizezi că înseamnă cinci erori la o sută de caractere — și pe o chitanță de restaurant cu 30 de rânduri, asta este suficient pentru a corupe totalul, a citi greșit data sau a denatura numele comerciantului.

Scanarea chitanțelor s-a îmbunătățit dramatic în ultimii doi ani. Dar acuratețea variază în continuare enorm, în funcție de instrumentul pe care îl utilizați, starea chitanței și ce câmpuri încercați să extrageți. Acest ghid detaliază ceea ce vă puteți aștepta în mod realist — cu numere specifice, nu afirmații de marketing.

De ce scanarea chitanțelor este mai dificilă decât OCR-ul documentelor

Dacă ați folosit vreodată OCR pe o scrisoare de afaceri standard sau pe un raport tastat, ați putea presupune că scanarea chitanțelor ar fi la fel de fiabilă. Nu este. Chitanțele sunt printre cele mai dificile documente pentru motoarele OCR de procesat, iar motivele sunt structurale, nu doar tehnice.

Degradarea hârtiei termice

Cel mai mare factor de scădere a acurateței nu este motorul OCR — este hârtia. Aproximativ 93% dintre chitanțele de la punctul de vânzare sunt imprimate pe hârtie termică, care utilizează acoperiri chimice sensibile la căldură în loc de cerneală. Acest lucru creează trei probleme:

Decolorarea este inevitabilă. În condiții normale (reci, uscate, lumină slabă), chitanțele termice încep să se decoloreze în decurs de șase luni până la un an. În medii dure — un portbagaj de mașină vara, un portofel umed — decolorarea poate începe în câteva săptămâni. Hârtia termică de calitate standard își menține lizibilitatea timp de cinci până la șapte ani în condiții de stocare ideale, dar „ideal” înseamnă sub 25 de grade Celsius, umiditate relativă de 45-65% și nicio expunere la lumină. Aceasta descrie o arhivă controlată climatic, nu o cutie de pantofi.
Decolorarea este neuniformă. Marginile și pliurile se decolorează primele, deoarece frecarea și presiunea accelerează descompunerea chimică. Aceasta înseamnă că zonele în care se găsesc adesea totalurile și subtotalurile — partea de jos a chitanței — se degradează cel mai rapid.
Contaminarea cu BPA. Majoritatea hârtiei termice conține bisfenol A (BPA) sau înlocuitorul său, bisfenol S (BPS), ca dezvoltator de culoare. Chitanțele individuale pot conține BPA în concentrații de 250 până la 1.000 de ori mai mari decât cele găsite într-o conservă de alimente. Substanțele chimice nu sunt legate chimic de hârtie, deci se transferă ușor pe piele, portofele și alte hârtii depozitate în apropiere. Aceasta nu este direct o problemă OCR, dar este un argument puternic pentru digitizarea imediată a chitanțelor și minimizarea manipulării fizice.

Aspecte layout variabile

Documentele standard de afaceri — facturi, extrase de cont, formulare fiscale — urmează aspecte relativ previzibile. Chitanțele nu. Luați în considerare variația în doar patru tipuri comune de chitanțe:

Tip chitanță	Caracteristici layout	Provocare OCR
Restaurant	Mâncare/băutură detaliată, linie de bacșiș, multiple subtotaluri, nume chelner	Suma bacșișului scrisă de mână, spațiere variabilă
Retail/Supermarket	Liste lungi de articole, coduri SKU, reduceri, economii fidelitate	Peste 50 de articole pe rând, coduri alfanumerice mixte
Stație de benzină	Număr pompă, grad combustibil, litri, preț pe litru, kilometraj	Nume câmpuri prescurtate, expunere la intemperii
Online/Email	Redat în HTML, formatare consistentă, numere de comandă	De obicei curat — dar exporturile PDF pot introduce artefacte

Un sistem OCR bazat pe șabloane, antrenat pe chitanțe de retail, va eșua pe chitanțe de restaurant cu bacșișuri scrise de mână. Un motor optimizat pentru chitanțe în limba engleză se va lupta cu formatele multilingve comune în călătoriile internaționale. Și un sistem conceput pentru documente de dimensiune standard nu va putea gestiona deloc formatul îngust, continuu al hârtiei termice.

Fonturi mici și contrast redus

Imprimantele de chitanțe utilizează de obicei fonturi între 7 și 10 puncte — mai mici decât textul corpului standard în majoritatea documentelor. Combinat cu contrastul inerent mai scăzut al imprimării termice comparativ cu imprimarea laser sau cu jet de cerneală, acest lucru creează provocări de recunoaștere a caracterelor chiar și pentru motoarele OCR de ultimă generație. Caractere precum „1” și „l”, „0” și „O”, „5” și „S” devin ambigue la dimensiuni mici, mai ales după o decolorare minoră.

Deteriorare fizică

Chitanțele sunt îndoite în buzunare, pliate în portofele și înghesuite în plicuri. Fiecare cută creează o linie pe care motorul OCR o poate interpreta ca o delimitare de caracter, o tăietură sau zgomot. Deteriorarea cauzată de apă de la ploaie sau scurgeri deformează hârtia și provoacă pătarea cerneală. Uleiul și grăsimea de pe chitanțele de la mâncare ascund textul. Niciuna dintre aceste probleme nu există atunci când se scanează un document de birou impecabil de la o imprimantă laser.

Înțelegerea acurateței: trei metrici diferite

Când un furnizor pretinde „99% acuratețe”, trebuie să întrebați: 99% din ce? Există trei moduri fundamental diferite de a măsura acuratețea OCR, iar fiecare spune o poveste foarte diferită.

Acuratețea caracterelor (Rata de eroare a caracterelor)

Acuratețea caracterelor măsoară câte caractere individuale citește corect motorul. Se calculează folosind Rata de eroare a caracterelor (CER), care numără inserțiile, ștergerile și substituțiile la nivel de caracter.

Exemplu: Dacă o linie de chitanță spune „CAFEA MEDIE 4,50 USD” și OCR-ul produce „C4FEA MEDIU 4,5O USD”, aceasta înseamnă 3 erori din 21 de caractere — o rată de acuratețe a caracterelor de 85,7%.

Acuratețea caracterelor este cea mai granulară metrică și cea mai ușor de evaluat obiectiv. Este, de asemenea, cea mai puțin utilă în scopuri practice, deoarece tratează toate erorile în mod egal. Citirea greșită a „MEDIE” ca „MEDIU” într-o descriere este enervantă. Citirea greșită a „4,50 USD” ca „4,5O USD” (litera O în loc de zero) este o eroare de corupere a datelor.

Acuratețea câmpurilor (Scorul F1 la nivel de câmp)

Acuratețea câmpurilor măsoară dacă câmpurile specifice de date sunt extrase corect ca unități complete. A identificat și extras corect sistemul suma totală? Data? Numele comerciantului? Suma TVA?

Exemplu: Dacă sistemul OCR citește chitanța și returnează:

Total: 47,83 USD (corect)
Data: 28.02.2026 (corect)
Comerciant: „STARBCUKS” (incorect — ar trebui să fie „STARBUCKS”)
TVA: 3,42 USD (corect)

Aceasta înseamnă 3 din 4 câmpuri corecte — 75% acuratețe a câmpurilor.

Acuratețea câmpurilor este ceea ce contează pentru fluxurile de lucru de gestionare a cheltuielilor și contabilitate. O eroare de caracter într-o descriere este tolerabilă. O eroare de câmp în suma totală invalidează întreaga chitanță.

Acuratețea documentului (Rata de succes end-to-end)

Acuratețea documentului măsoară dacă întreaga chitanță a fost procesată corect — toate câmpurile, toate liniile de articole, fără erori nicăieri. Aceasta este cea mai strictă metrică și cea mai realistă pentru fluxurile de lucru de producție.

Dacă o chitanță are 8 câmpuri extrase și sistemul obține 7 corecte, dar citește greșit cantitatea unui articol, acuratețea documentului este 0% — o singură eroare oriunde înseamnă că întregul document necesită revizuire.

Evaluări comparative din industrie, pe scurt:

Metrică	OCR tradițional	Extracție bazată pe AI
Acuratețea caracterelor	85-92%	95-99%
Acuratețea câmpurilor (câmpuri critice)	70-85%	93-99%
Acuratețea documentului (toate câmpurile corecte)	40-60%	75-92%

Decalajul dintre acuratețea caracterelor și acuratețea documentului explică de ce un instrument poate pretinde „95% acuratețe” și totuși produce rezultate care necesită corecție manuală pentru jumătate din toate chitanțele.

Precizia OCR Tradițional pe Chitanțe: Nivelul de Bază

OCR-ul tradițional — motoare bazate pe reguli care identifică caracterele prin potrivirea modelelor și segmentare — este disponibil de decenii. Două sisteme domină acest spațiu.

Tesseract (Open Source)

Tesseract, dezvoltat inițial de HP Labs în anii 1980 și ulterior întreținut de Google, este cel mai utilizat motor OCR open-source. Pe documente standard (scanări curate ale paginilor scrise la mașină), Tesseract atinge o precizie de 95-99% a caracterelor. Pe chitanțe, situația este mult mai puțin roză.

Benchmark-uri independente arată că Tesseract atinge o precizie de 50-80% a caracterelor pe chitanțe, în funcție de calitatea imaginii și starea chitanței. Motorul a fost proiectat și optimizat pentru recunoașterea propozițiilor de cuvinte din documente standard — nu a textului abreviat, cu format mixt, găsit pe chitanțe. Erorile comune includ:

Codurile SKU și numerele de articole sunt citite greșit deoarece seamănă cu șiruri aleatorii de caractere pentru un model lingvistic antrenat pe text englezesc
Coloanele de prețuri își pierd alinierea zecimală atunci când detectarea spațiilor libere eșuează
Fonturile termice mici produc potriviri de caractere cu încredere scăzută
Imaginile rotite sau înclinate de la camerele de telefon degradează semnificativ precizia

Tesseract necesită o preprocesare substanțială — corectarea înclinației, binarizare, eliminarea zgomotului, îmbunătățirea contrastului — pentru a se apropia de o precizie acceptabilă pe chitanțe. Chiar și cu preprocesare optimizată, precizia la nivel de câmp pe câmpuri critice precum totalurile și datele variază, de obicei, între 60-75%.

ABBYY FineReader (Comercial)

ABBYY reprezintă vârful de gamă al OCR-ului tradițional. Pe documente curate și structurate, ABBYY atinge o precizie de până la 99,8% a caracterelor — cea mai bună din categoria OCR tradițional. Pe chitanțe, ABBYY performează semnificativ mai bine decât Tesseract, atingând, de obicei, o precizie de 88-93% a caracterelor pe chitanțe rezonabil de clare.

Avantajul ABBYY provine din decenii de date de antrenament, algoritmi de preprocesare superiori și o acoperire extinsă a limbajelor și fonturilor. Cu toate acestea, se bazează fundamental pe recunoașterea la nivel de caracter, fără o înțelegere semantică a structurii documentului. Poate citi cu precizie ce este pe chitanță, dar nu înțelege că numărul de jos este totalul și data de sus este momentul în care a avut loc tranzacția.

Problema Șabloanelor (Template)

Sistemele OCR tradiționale care depășesc recunoașterea brută a caracterelor pentru extragerea câmpurilor se bazează, de obicei, pe șabloane — hărți de coordonate predefinite care spun sistemului „totalul este la poziția X,Y pe pagină”. Această abordare funcționează bine pentru formulare standardizate (documente fiscale, cereri de asigurare), dar eșuează pentru chitanțe deoarece:

Există mii de formate unice de chitanțe la diferiți comercianți, sisteme POS și țări
Chiar și același lanț de magazine își poate schimba aspectul chitanței la modernizarea hardware-ului POS
Crearea și întreținerea șabloanelor necesită multă muncă — fiecare nou aspect necesită configurare manuală
Lungimea chitanței variază (o chitanță de la supermarket cu 50 de articole este fizic diferită de o chitanță de la cafenea cu 2 articole)

Sistemele bazate pe șabloane suportă, de obicei, 50-200 de aspecte de chitanțe. Aceasta acoperă marii retaileri dintr-o singură țară. Nu acoperă coada lungă a afacerilor mici, chitanțele internaționale sau restaurantele.

Extragerea Bazată pe AI: O Abordare Diferită

Extragerea modernă a chitanțelor bazată pe AI nu funcționează deloc ca OCR-ul tradițional. În loc să potrivească modele ale caracterelor individuale și să mapeze coordonate la șabloane, sistemele AI utilizează modele lingvistice mari și modele vizuale care înțeleg contextul documentului.

Cum Funcționează Extragerea AI

Procesul urmează, de obicei, trei pași:

Înțelegere vizuală. Modelul AI procesează imaginea chitanței (sau PDF-ul) ca intrare vizuală, identificând regiunile de text, structura aspectului și relațiile spațiale. Acest lucru este fundamental diferit de OCR-ul tradițional, care procesează caracterele în izolare.
Extragere contextuală. În loc să întrebe „ce caracter este la poziția X,Y?”, modelul întreabă „care este suma totală de pe această chitanță?”. Înțelege că totalul este de obicei aproape de partea de jos, precedat de un cuvânt precum „Total”, „Suma de plată” sau „Total General” și formatat ca valoare monetară. Această înțelegere contextuală este ceea ce face extragerea AI independentă de format — nu sunt necesare șabloane.
Ieșire structurată. Modelul returnează un obiect de date structurat cu câmpuri etichetate: numele comerciantului, data, articolele, subtotalul, taxa, totalul, metoda de plată. Formatul de ieșire este consistent, indiferent de aspectul chitanței de intrare.

Precizia AI în Funcție de Condiție

Extragerea bazată pe AI atinge o precizie dramatic mai mare decât OCR-ul tradițional, dar cifrele variază semnificativ în funcție de starea chitanței:

Starea Chitanței	Precizia Câmpurilor (Critice)	Precizia Câmpurilor (Toate)	Note
Chitanță digitală curată (PDF/email)	98-99%+	95-98%	Aproape perfectă; formatare consistentă
Chitanță termică proaspătă (0-3 luni)	96-99%	92-96%	Contrast ridicat, text clar
Chitanță termică veche (3-12 luni)	90-95%	82-90%	Se estompează ușor, în special la margini
Chitanță termică decolorată (1-3 ani)	75-88%	65-80%	Pierdere semnificativă de caractere; contextul ajută
Sever degradată (peste 3 ani, expunere la căldură)	50-70%	40-60%	Regiuni de text lipsă; extragere parțială
Șifonată/încrețită	85-93%	78-88%	Cutele interferează cu detectarea liniilor
Fotografie de calitate slabă (blur de mișcare, umbre)	80-90%	70-85%	Calitatea imaginii este factorul limitativ

Ideea cheie este că AI menține o precizie mai mare decât OCR-ul tradițional chiar și pe măsură ce condițiile se deteriorează, deoarece poate folosi contextul pentru a umple golurile. Dacă motorul poate citi „Tot” urmat de „47,8_” (unde ultima cifră este ilizibilă), știe din context că acesta este un câmp de total și că cifra lipsă este probabil „3”, bazându-se pe articolele de deasupra. OCR-ul tradițional ar ieși pur și simplu cu un semn de întrebare sau cu cea mai bună ghicire a unui singur caracter.

Decalajul de Precizie pe Câmpurile Critice

Nu toate câmpurile sunt la fel de importante. Pentru gestionarea cheltuielilor și conformitatea fiscală, există o ierarhie clară:

Câmp	Prioritate	De ce contează	Precizia AI (Chitanță Curată)
Suma totală	Critic	Determină valoarea cheltuielii și suma deducerii	98-99%
Data	Critic	Determină anul fiscal și perioada de atribuire	97-99%
Numele comerciantului	Ridicată	Necesar pentru categorizare și traseu de audit	95-98%
Suma taxei	Ridicată	Necesară pentru raportarea fiscală și creditele fiscale	96-98%
Metoda de plată	Medie	Utilă pentru reconcilierea cu extrasele de cont	93-96%
Articole	Medie	Necesară pentru categorizarea detaliată a cheltuielilor	88-95%
Suma bacșișului	Medie	Relevantă pentru cheltuielile cu mesele, adesea scrisă de mână	85-92%
Adresă/telefon	Scăzută	Rar necesară pentru procesarea cheltuielilor	90-95%

Instrumentele de extragere AI ating în mod constant cea mai mare precizie pe câmpurile cele mai importante — suma totală și data — deoarece aceste câmpuri au semnale contextuale puternice (poziție, formatare, text înconjurător) pe care modelul le poate utiliza chiar și atunci când caracterele individuale sunt ambigue.

Factori care afectează acuratețea

Înțelegerea factorilor care degradează acuratețea vă ajută să luați decizii mai bune cu privire la momentul în care să aveți încredere în extragerea automată și când să verificați manual.

Calitatea imaginii

Calitatea imaginii este cel mai important factor controlabil în acuratețea OCR. Diferența dintre o imagine capturată cu atenție și o fotografie pripită poate influența acuratețea câmpurilor cu 15-20 de puncte procentuale.

Factor	Impact asupra acurateței	Ce să faci
Rezoluție	Sub 200 DPI, acuratețea scade brusc	Folosiți cel puțin 300 DPI; majoritatea camerelor de telefon depășesc acest prag
Iluminare	Iluminarea neuniformă cauzează probleme de contrast	Folosiți lumină naturală, difuză; evitați lumina directă de deasupra
Umbre	Umbrele mâinilor/telefonului obturează textul	Poziționați sursa de lumină lateral; folosiți o lampă dacă este necesar
Reflexia blițului	Hârtia termică este reflectorizantă; blițul creează pete albe	Dezactivați blițul; folosiți lumina ambientală în schimb
Focalizare	Textul neclar este ilizibil la orice rezoluție	Atingeți pentru a focaliza pe text; țineți telefonul nemișcat
Unghi	Distorsiunea perspectivală deformează caracterele	Țineți camera direct deasupra bonului, paralel cu suprafața
Decupare	Fundalul excesiv încurcă detectarea marginilor	Umpleți 80% din cadru cu bonul

Starea hârtiei

Starea hârtiei este cel mai important factor necontrolabil. Puteți îmbunătăți calitatea imaginii prin tehnică; nu puteți readuce la viață un bon decolorat.

Cronologia decolorării bonurilor termice depinde în mare măsură de condițiile de depozitare:

Depozitare ideală (întuneric, răcoare, umiditate 45-65%): 5-7 ani de lizibilitate pentru hârtie termică standard, până la 25 de ani pentru hârtie termică cu strat superior
Condiții normale (sertar de birou, dosar): 1-3 ani
Portofel sau buzunar: 3-12 luni
Bordul mașinii sau torpedoul: Săptămâni până la luni, în funcție de climă
Expunere directă la soare: Zile până la săptămâni

Concluzia practică este clară: digitalizați bonurile în termen de 48 de ore de la primirea lor. Fiecare zi de întârziere reduce acuratețea maximă posibilă a OCR. Un bon scanat în ziua achiziției va produce rezultate aproape perfecte. Același bon scanat șase luni mai târziu poate pierde 10-20% din claritatea textului.

Lungimea și complexitatea bonurilor

Bonurile mai lungi, cu mai multe articole, au o acuratețe generală mai mică la nivel de document, pur și simplu pentru că există mai multe oportunități de erori. Un bon de cafea cu 5 articole are o șansă mult mai mare de a fi corect 100% decât un bon de supermarket cu 60 de articole.

Lungimea bonului	Articole medii	Acuratețea documentului (AI)	Câmpuri cu cea mai mare probabilitate de eroare
Scurt (1-5 articole)	8-15 rânduri	90-95%	Numele vânzătorului (abrevieri)
Mediu (6-20 articole)	16-40 rânduri	80-90%	Descrierile articolelor
Lung (21-50 articole)	41-80 rânduri	70-82%	Cantitățile articolelor, prețurile unitare
Foarte lung (50+ articole)	80+ rânduri	55-70%	Câmpuri multiple; erori cumulative

Font și formatare

Unele sisteme POS folosesc fonturi personalizate sau înguste, care sunt deosebit de dificile pentru OCR. Imprimantele de bonuri matriciale — încă comune la unele benzinării și în magazine mai vechi — produc caractere de calitate inferioară față de imprimantele termice. Formatarea cu majuscule, deși mai greu de citit pentru oameni, este de fapt mai ușoară pentru motoarele OCR, deoarece literele mari au forme mai distincte.

Acuratețea pe tipuri de bonuri

Diferite categorii de bonuri prezintă provocări unice și produc profiluri de acuratețe diferite.

Bonuri de restaurant

Bonurile de restaurant sunt printre cele mai dificile pentru OCR, deoarece includ frecvent elemente scrise de mână — suma bacșișului, totalul și semnătura. Extragerea AI gestionează bine porțiunile imprimate (95-98% acuratețe a câmpurilor pentru vânzător, dată, subtotale), dar se luptă cu recunoașterea scrisului de mână pe liniile de bacșiș (70-85% acuratețe). Suma bacșișului este adesea cel mai important câmp scris de mână din punct de vedere financiar.

Cea mai bună practică: Dacă acuratețea bacșișului contează pentru fluxul dvs. de lucru, verificați manual bacșișul și totalul. Câmpurile subtotale, taxe și vânzător sunt de obicei fiabile fără revizuire.

Bonuri de retail și supermarket

Bonurile de retail pun la încercare OCR prin volumul mare. Un bon tipic de supermarket are 30-60 de articole, fiecare cu o descriere, cantitate și preț. Descrierile articolelor sunt adesea prescurtate (de ex., „ORG BNS CHKN” pentru „Organic Boneless Chicken”) și pot include coduri SKU interne care arată ca text corupt pentru motorul OCR.

Acuratețea câmpurilor critice (total, dată, vânzător) este ridicată, la 96-99%. Acuratețea articolelor este mai scăzută, la 85-92%, din cauza prescurtărilor și a inconsecvențelor de formatare. În scopul categorizării cheltuielilor, totalul și vânzătorul sunt de obicei suficiente — rareori aveți nevoie ca fiecare articol să fie transcris perfect.

Bonuri de benzinărie

Bonurile de benzinărie sunt scurte, dar frecvent deteriorate. Sunt eliberate la pompele exterioare expuse la intemperii, manipulate cu mâini mănușite sau unse și adesea mototolite imediat. Hârtia termică poate fi de calitate inferioară față de cea utilizată în interior. Acuratețea câmpurilor pentru sumă și dată este de obicei 90-96% pentru bonurile proaspete, dar scade mai repede decât alte tipuri de bonuri din cauza expunerii la mediu.

Bonuri online și prin email

Bonurile digitale — confirmări prin email, descărcări PDF de la achiziții online, bonuri electronice de la sisteme POS digitale — sunt cea mai ușoară categorie pentru OCR. Au formatare consistentă, contrast ridicat, nicio degradare a hârtiei și poziții previzibile ale câmpurilor. Acuratețea câmpurilor depășește de obicei 98% pentru toate câmpurile, iar acuratețea documentului ajunge la 92-97%.

Dacă aveți opțiunea de a primi bonuri digitale, alegeți-le întotdeauna. Acestea elimină complet problema hârtiei termice și produc cea mai mare acuratețe de extragere.

Comparație între tipurile de bonuri

Tip bon	Acuratețe totală	Acuratețe dată	Acuratețe vânzător	Acuratețe articole	Medie generală câmpuri
Online/email (PDF)	99%	99%	98%	96%	98%
Retail proaspăt	98%	98%	96%	90%	95%
Restaurant proaspăt	97%	97%	95%	92%	93%
Benzinărie	95%	94%	92%	88%	91%
Termic vechi (peste 6 luni)	88%	87%	82%	72%	82%
Decolorat/deteriorat	72%	70%	65%	50%	64%

Cum gestionează PDFSub scanarea bonurilor

Scanerul de bonuri PDFSub folosește extragerea bazată pe AI pentru a procesa bonuri în orice format — scanări pe hârtie termică, fotografii de pe telefon, descărcări PDF și atașamente de bonuri prin email.

Ce extrage

Scanerul de bonuri identifică și extrage date structurate din fiecare bon:

Numele și adresa vânzătorului — inclusiv numărul magazinului și locația, atunci când sunt disponibile
Data și ora tranzacției — cu detectarea automată a formatului datei (LL/ZZ, ZZ/LL, AAAA-LL-ZZ)
Articole — descriere, cantitate, preț unitar și total pe articol pentru fiecare produs
Subtotal, taxe și total — separate în câmpuri distincte pentru acuratețea contabilă
Metoda de plată — numerar, card de credit (ultimele patru cifre), debit, plată mobilă
Moneda — detectată automat din simboluri și formatare

Cum gestionează layout-urile variabile

PDFSub nu folosește șabloane. Motorul AI analizează fiecare bon independent, înțelegând structura documentului prin context, mai degrabă decât prin maparea coordonatelor. Acest lucru înseamnă că funcționează cu orice layout de bon de la orice vânzător, din orice țară, fără a necesita configurare prealabilă. Indiferent dacă încărcați un bon de la o cafenea din Brooklyn, un bon de la o farmacie din München sau un bon de taxi din Tokyo, procesul de extragere este același.

Procesare și confidențialitate

Pentru bonurile digitale PDF, extragerea inițială a textului se realizează în browserul dvs. — nu este necesară încărcarea. Pentru imaginile scanate sau bonurile care necesită procesare AI, fișierul este trimis la motorul de extragere, procesat, iar originalul nu este reținut după finalizarea extragerii.

Puteți încerca scanerul de bonuri cu un trial gratuit de 7 zile — Încărcați câteva bonuri și verificați rezultatele extragerii în raport cu originalele pentru a evalua acuratețea pentru tipurile dvs. specifice de bonuri. Anulare oricând.

Sfaturi pentru o scanare mai bună a chitanțelor

Puteți îmbunătăți semnificativ acuratețea extragerii urmând câteva practici simple la capturarea chitanțelor.

Tehnica de capturare

Folosiți lumină naturală, difuză. Scanarea lângă o fereastră în timpul zilei produce rezultate mai bune decât iluminatul artificial de deasupra. Scopul este o iluminare uniformă, fără umbre puternice.
Așezați chitanța pe o suprafață plană și întunecată. Un birou sau un blat întunecat creează contrast, ajutând la detectarea marginilor și recunoașterea textului. Evitați scanarea chitanțelor pe suprafețe albe — marginile devin invizibile.
Țineți camera direct deasupra. Poziționați camera paralel cu chitanța pentru a evita distorsiunea perspectivală. Chiar și un unghi mic poate deforma caracterele suficient pentru a reduce acuratețea.
Dezactivați blițul. Hârtia termică este reflectorizantă. Blițul camerei creează pete de strălucire care apar ca zone albe goale pentru motorul OCR, adesea chiar peste textul cel mai important.
Umpleți cadrul. Chitanța ar trebui să ocupe aproximativ 80% din imagine. Prea mult fundal irosește rezoluția. O decupare prea strânsă riscă să taie textul de pe margini.
Atingeți pentru a focaliza textul. Autofocalizarea se blochează adesea pe suprafața hârtiei, nu pe textul imprimat. Atingeți zona de text pentru a asigura o redare clară a caracterelor.
Neteziți cutele și ridurile. Apăsați chitanța înainte de scanare. Faldurile creează umbre pe care motorul OCR le poate interpreta ca caractere sau întreruperi de rând. Dacă chitanța este foarte șifonată, încercați să o presați sub o carte grea timp de câteva minute mai întâi.

Momentul potrivit

Scanați în 48 de ore. Chitanțele termice încep să se degradeze imediat. Cu cât le capturați mai repede, cu atât acuratețea va fi mai mare. Faceți din scanarea chitanțelor un obicei zilnic sau de la sfârșitul zilei, nu un proces lunar de lot.
Nu așteptați ziua de procesare a lotului. Practica obișnuită de a păstra chitanțele timp de o lună și apoi de a le scana pe toate odată garantează o acuratețe mai mică. Unele dintre aceste chitanțe vor fi stat într-un portofel, buzunar sau mașină timp de patru săptămâni — decolorându-se tot timpul.

Gestionarea fișierelor

Păstrați imaginea originală. Chiar și după extragere, păstrați scanarea sau fotografia originală. Dacă trebuie să extrageți din nou mai târziu cu un instrument îmbunătățit, imaginea originală este sursa dvs. de adevăr.
Folosiți formatul PDF, când este posibil. Dacă aplicația dvs. de scanare sau telefonul oferă ieșire PDF, preferați-o în locul JPEG. PDF-ul păstrează o calitate mai înaltă și gestionează chitanțele pe mai multe pagini (cum ar fi chitanțele lungi de la supermarket scanate în două părți).

Când să verificați manual

Extragerea AI este suficient de bună pentru a avea încredere oarbă în ea pentru chitanțe cu miză mică — o cafea de 4,50 RON, un bilet de parcare de 12 RON. Dar unele situații necesită verificare manuală.

Verificați întotdeauna acestea

Chitanțe de peste 500 RON. Impactul financiar al unei erori de extragere pe o chitanță de valoare mare justifică cele 30 de secunde de verificare manuală.
Chitanțe critice pentru taxe. Orice chitanță pe care intenționați să o folosiți ca deducere fiscală ar trebui verificată. Fiscul necesită documentație pentru cheltuielile individuale de peste 75 USD, iar o sumă incorectă la o deducere poate ridica întrebări la un audit.
Chitanțe cu elemente scrise de mână. Suma bacșișului, ajustări manuale de preț și note scrise de mână sunt încă cel mai slab punct pentru extragerea AI. Dacă chitanța include scris de mână, verificați acele câmpuri.
Chitanțe decolorate sau deteriorate. Dacă abia puteți citi chitanța cu propriii ochi, nu aveți încredere în extragerea AI fără verificare. Chitanțele grav deteriorate ar trebui tratate ca aproximative, nu autoritative.
Chitanțe în valută străină. Conversia valutară și formatele numerice necunoscute (puncte vs. virgule ca separatori zecimali) pot cauza erori de extragere. Verificați suma și moneda pe chitanțele internaționale.

Verificați selectiv acestea

Chitanțe de la supermarket cu peste 20 de articole. Verificați selectiv 3-5 articole și confirmați că totalul corespunde sumei. Dacă totalul este corect, erorile individuale la articole nu vor afecta probabil raportarea cheltuielilor dvs.
Chitanțe de la furnizori necunoscuți. Prima chitanță de la un furnizor nou poate produce o acuratețe mai mică, deoarece AI-ul nu a mai văzut acel layout specific. După verificarea primei, chitanțele ulterioare de la același furnizor sunt de obicei mai fiabile.
Chitanțe procesate în lot. Dacă procesați peste 50 de chitanțe odată, verificați selectiv 10-15% dintre ele. Dacă acuratețea este constant ridicată, puteți avea încredere în restul.

Aveți încredere fără verificare

Chitanțe digitale/prin e-mail cu formatare curată și layout standard.
Chitanțe noi de la comercianți mari, unde totalul este o sumă rotundă sau corespunde extrasului dvs. bancar.
Chitanțe sub 25 RON unde costul verificării depășește costul unei potențiale erori.