Нэхэмлэх OCR Нарийвчил: Хиймэл оюун ухааны сканнердах байдлаас юу хүлээх вэ
Нэхэмлэх OCR нь стандарт баримт бичгийг сканнердахаас илүү хэцүү байдаг - дулааны цаас нь бүдгэрдэг, загвар нь маш их өөр өөр байдаг, фонт нь жижиг байдаг. Уламжлалт OCR ба хиймэл оюун ухаанаар ажилладаг системээс бодит байдал дээр ямар нарийвчил байдлыг хүлээж болохыг энд тайлбарлая.
Та өнгөрсөн Мягмар гарагийн бизнесийн үдийн зоогийн нэхэмжлэлийг сканнердаж байна. Нийт дүн нь $114.73 байх ёстой байтал $14.73 гарч ирлээ. Нэг орон орвол таны зардлын тайлан буруу болно.
Нэхэмлэх OCR-ийн гол асуудал нь энэ юм: технологи нь ажиллаж байхдаа гайхалтай харагддаг, гэхдээ "ихэнхдээ зөв" ба "үнэндээ зөв" хоёрын хоорондох зай нь бодит мөнгө алдагдах газар юм. 95% тэмдэгтийн нарийвчил байдал нь гайхалтай сонсогдож болох ч зуун тэмдэгт тутамд таван алдаа гардаг гэдгийг ойлгох хэрэгтэй - мөн 30 мөртэй рестораны нэхэмжлэлийн хувьд энэ нь нийт дүнг алдаатай болгох, огноог буруу унших, эсвэл худалдагчийн нэрийг эвдэхэд хангалттай юм.
Сүүлийн хоёр жилийн хугацаанд нэхэмлэх сканнердах нь эрс сайжирсан. Гэхдээ нарийвчил байдал нь таны ашиглаж буй хэрэгсэл, нэхэмжлэлийн байдал, мөн та ямар талбарыг гаргаж авахыг хичээж байгаагаас хамаарч маш их өөр өөр байдаг. Энэхүү гарын авлага нь маркетингийн амлалт биш, бодит тоонуудтай хэрхэн бодит байдал дээр хүлээж болох талаар тайлбарлана.
Нэхэмлэх OCR нь Баримт Бичгийн OCR-аас Яагаад Илүү Хэцүү Байдаг Вэ?
Хэрэв та стандарт бизнесийн захидал эсвэл бичсэн тайлан дээр OCR ашиглаж байсан бол нэхэмлэх сканнердах нь адил найдвартай байх ёстой гэж бодож магадгүй. Гэхдээ энэ нь тийм биш юм. Нэхэмжлэл нь OCR хөдөлгүүрүүдэд боловсруулахад хамгийн хэцүү баримт бичгүүдийн нэг бөгөөд үүний шалтгаан нь зөвхөн техникийн биш, бүтцийн шинж чанартай холбоотой юм.
Дулааны Цаасны Хэмжээ Алдагдах
Нарийвчил байдлыг хамгийн ихээр бууруулдаг зүйл нь OCR хөдөлгүүр биш, харин цаас юм. Цэг-борлуулалтын нэхэмжлэлийн ойролцоогоор 93% нь дулааны цаасан дээр хэвлэгддэг бөгөөд энэ нь бэхний оронд дулаанд мэдрэмтгий химийн бүрхүүлийг ашигладаг. Энэ нь гурван асуудлыг үүсгэдэг:
-
Бүдгэрэлт зайлшгүй. Хэвийн нөхцөлд (сэрүүн, хуурай, бага гэрэлтэй), дулааны нэхэмжлэлүүд зургаан сар, нэг жилийн дотор бүдгэрч эхэлдэг. Хатуу нөхцөлд - зуны улиралд машины бээлийний тасалгаа, чийгтэй түрийвч - долоо хоногийн дотор бүдгэрч эхэлж болно. Стандарт зэрэглэлийн дулааны цаас нь хамгийн тохиромжтой хадгалалтын нөхцөлд таван жилээс долоон жил хүртэл уншигдах чадвараа хадгалдаг боловч "хамгийн тохиромжтой" гэдэг нь 77 градус Фаренгейтээс доош, 45-65% харьцангуй чийгшил, гэрэлгүй байхыг хэлнэ. Энэ нь чийгшлийн хяналттай архивыг дүрсэлдэг, хайрцаг биш юм.
-
Бүдгэрэлт нь жигд бус. Зах ба нугалаа нь түрүүлж бүдгэрдэг, учир нь үрэлт ба даралт нь химийн задралыг түргэсгэдэг. Энэ нь ихэвчлэн төгсгөл ба хагас төгсгөлүүд байрладаг нэхэмжлэлийн доод хэсэг нь хамгийн хурдан мууддаг гэсэн үг юм.
-
BPA бохирдол. Ихэнх дулааны цаас нь BPA (бисфенол А) эсвэл түүний орлуулагч BPS (бисфенол S)-ийг өнгө хөгжүүлэгч болгон агуулдаг. Хувь хүний нэхэмжлэлүүд нь лаазалсан хоолондох концентрацаас 250-1000 дахин их BPA агуулж болно. Хими нь цаасанд химийн холбоогоор бэхлэгдээгүй тул арьс, түрийвч, ойролцоох бусад цаасанд амархан шилждэг. Энэ нь шууд OCR асуудал биш боловч нэхэмжлэлийг шууд тоон хэлбэрт оруулах, бие махбодийн харьцааг багасгах хүчтэй үндэслэл юм.
Хувьсах Загварууд
Стандарт бизнесийн баримт бичгүүд - нэхэмжлэл, банкны хуулга, татварын маягтууд - харьцангуй урьдчилан таамаглах боломжтой загваруудыг дагаж мөрддөг. Нэхэмжлэлүүд нь тийм биш юм. Зөвхөн дөрвөн нийтлэг нэхэмжлэлийн төрлүүдийн хоорондох ялгааг авч үзье:
| Нэхэмлэлийн Төрөл | Загварын Онцлог | OCR Сорилт |
|---|---|---|
| Ресторан | Хоол/уух зүйлийн жагсаалт, טיп мөртэй, хэд хэдэн хагас төгсгөл, үйлчлэгчийн нэр | Гараар бичсэн тип хэмжээ, хувьсах зай |
| Жижиглэн худалдаа/Хүнсний дэлгүүр | Урт зүйлсийн жагсаалт, SKU код, хөнгөлөлт, харилцагчийн хэмнэлт | 50+ мөртэй, холимог үсэг ба тоон код |
| Шатхуун түгээгүүр | Шахуургын дугаар, түлшний ангилал, галлон, нэг галлоны үнэ, одометр | Товчилсон талбайн нэрс, цаг агаарын нөлөө |
| Онлайн/И-мэйл | HTML-ээр боловсруулсан, тогтвортой формат, захиалгын дугаар | Ихэвчлэн цэвэрхэн - гэхдээ PDF экспорт нь артефакт нэмж болно |
Жижиглэнгийн нэхэмжлэл дээр сургагдсан загвар- суурилсан OCR систем нь гараар бичсэн тип бүхий рестораны нэхэмжлэл дээр бүтэлгүйтнэ. Англи хэл дээрх нэхэмжлэлд зориулагдсан хөдөлгүүр нь олон улсын аялалд түгээмэл байдаг олон хэлт загваруудад хүндрэлтэй байх болно. Мөн стандарт цаасны хэмжээтэй баримт бичгүүдэд зориулагдсан систем нь дулааны цаасны нарийхан, тасралтгүй өнхрөх хэлбэрийг бүхэлд нь зохицуулж чадахгүй байж болно.
Жижиг Фонт ба Бага Контраст
Нэхэмлэх принтерүүд нь ихэвчлэн 7-10 пунктын фонтыг ашигладаг - ихэнх баримт бичгүүдийн стандарт биеийн текстээс жижиг. Лазер эсвэл inkjet хэвлэлттэй харьцуулахад дулааны хэвлэлтийн байгалийн бага контрасттай хослуулбал энэ нь хамгийн сүүлийн үеийн OCR хөдөлгүүрүүдэд ч тэмдэгт таних сорилтыг үүсгэдэг. "1" ба "l", "0" ба "O", "5" ба "S" зэрэг тэмдэгтүүд нь жижиг хэмжээтэй, ялангуяа бага зэрэг бүдгэрсний дараа ч гэсэн эргэлзээтэй болдог.
Бие Махбодийн Гэмтэл
Нэхэмжлэлүүд нь халаасанд нугалж, түрийвчэнд эвхэж, дугтуйд хийгддэг. Үе бүр нь OCR хөдөлгүүрээс тэмдэгтийн хил хязгаар, зураас, эсвэл тоос гэж тайлбарлагдаж болох шугам үүсгэдэг. Бороо эсвэл асгарсан ус нь цаасыг муруйлгаж, бэхний тархалтыг үүсгэдэг. Тос ба өөх тос нь нэхэмлэх бичгийг бүдгэрүүлдэг. Лазер принтерээс цэвэрхэн оффисын баримт бичгийг сканнердах үед эдгээр асуудлуудын аль нь ч байхгүй.
Нарийвчил байдлыг ойлгох нь: Гурав Өөр Хэмжүүр
Борлуулагч "99% нарийвчил" гэж зарлахад та асуух хэрэгтэй: 99% нь юу вэ? OCR нарийвчил байдлыг хэмжих гурван үндсэн өөр арга байдаг бөгөөд тус бүр нь өөр өөр түүхийг өгдөг.
Тэмдэгтийн Нарийвчил (Тэмдэгтийн Алдааны Хурд)
Тэмдэгтийн нарийвчил нь хөдөлгүүр хэдэн тэмдэгтийг зөв уншдагийг хэмждэг. Энэ нь Тэмдэгтийн Алдааны Хурд (CER) ашиглан тооцогддог бөгөөд энэ нь тэмдэгт түвшинд нэмэх, хасах, орлуулахыг тоолдог.
Жишээ нь: Хэрэв нэхэмлэх мөр "COFFEE MEDIUM $4.50" гэж уншигдвал ба OCR нь "C0FFEE MEDIUN $4.5O" гэж гарвал энэ нь 21 тэмдэгт дотор 3 алдаатай - 85.7% тэмдэгтийн нарийвчил байдал юм.
Тэмдэгтийн нарийвчил нь хамгийн нарийвчилтай хэмжүүр бөгөөд объектив байдлаар хэмжихэд хамгийн хялбар юм. Энэ нь бүх алдааг тэнцүү гэж үзвэл практик зорилгоор хамгийн бага ашигтай юм. Тодорхойлолт дахь "MEDIUM"-ийг "MEDIUN" болгон буруу унших нь залхмаар байдаг. "$4.50"-ийг "$4.5O" (тэгний оронд үсэг О) болгон буруу унших нь өгөгдөл алдагдсан алдаа юм.
Талбайн Нарийвчил (Талбайн Түвшний F1 Оноо)
Талбайн нарийвчил нь тодорхой өгөгдлийн талбарууд бүрэн нэгж болгон зөв гаргаж авсан эсэхийг хэмждэг. Систем нь нийт дүнгээ зөв олж, гаргаж авсан уу? Огноо? Худалдагчийн нэр? Татварын хэмжээ?
Жишээ нь: Хэрэв OCR систем нэхэмжлэлийг уншиж, дараахь байдлаар буцаавал:
- Нийт: $47.83 (зөв)
- Огноо: 02/28/2026 (зөв)
- Худалдагч: "STARBCUKS" (буруу - "STARBUCKS" байх ёстой)
- Татвар: $3.42 (зөв)
Энэ нь 4 талбараас 3 нь зөв - 75% талбайн нарийвчил юм.
Талбайн нарийвчил нь зардлын менежмент ба нягтлан бодох бүртгэлийн ажлын урсгалд чухал ач холбогдолтой юм. Тодорхойлолт дахь тэмдэгтийн алдаа нь тэвчих боломжтой. Нийт дүнг дэх талбайн алдаа нь бүхэл бүтэн нэхэмжлэлийг хүчингүй болгодог.
Баримт Бичгийн Нарийвчил (Эцсийн-Эцэс хүртэл Амжилттай Байх Хурд)
Баримт бичгийн нарийвчил нь бүх талбар, бүх мөртэй, алдаагүй бүх нэхэмжлэлийг зөв боловсруулсан эсэхийг хэмждэг. Энэ бол хамгийн хатуу хэмжүүр бөгөөд үйлдвэрлэлийн ажлын урсгалд хамгийн бодит юм.
Хэрэв нэхэмжлэлд 8 гаргаж авах боломжтой талбар байвал ба системийн 7 нь зөв болж, нэг мөрийн зүйлийг буруу уншвал баримт бичгийн нарийвчил нь 0% болно - хаана ч гарсан нэг алдаа нь бүхэл бүтэн баримт бичгийг хянах шаардлагатай гэсэн үг юм.
Салбарын жишгүүд нэг хараад:
| Хэмжүүр | Уламжлалт OCR | Хиймэл оюун ухаанаар ажиллах систем |
|---|---|---|
| Тэмдэгтийн нарийвчил | 85-92% | 95-99% |
| Талбайн нарийвчил (чухал талбарууд) | 70-85% | 93-99% |
| Баримт бичгийн нарийвчил (бүх талбар зөв) | 40-60% | 75-92% |
Тэмдэгтийн нарийвчил ба баримт бичгийн нарийвчил хоорондын зөрүү нь "95% нарийвчил" гэж зарлаж буй хэрэгсэл нь бүх нэхэмжлэлийн хагаст нь залруулга шаардлагатай үр дүнг хэрхэн гаргаж болохыг тайлбарладаг.
Нэхэмжлэл дээрх Уламжлалт OCR Нарийвчил: Суурь
Уламжлалт OCR - тэмдэгтүүдийг хэв маяг тааруулах ба хуваах замаар таних дүрэм-суурилсан хөдөлгүүрүүд - нь хэдэн арван жилийн турш байсаар ирсэн. Энэ орон зайд хоёр систем давамгайлж байна.
Tesseract (Нээлттэй Эх сурвалж)
Tesseract нь анх 1980-аад онд HP Labs-д бүтээгдсэн бөгөөд дараа нь Google-ийн халамжинд байсан бөгөөд хамгийн өргөн хэрэглэгддэг нээлттэй эх сурвалжтай OCR хөдөлгүүр юм. Стандарт баримт бичгүүд дээр (бичсэн хуудасны цэвэр скан), Tesseract нь 95-99% тэмдэгтийн нарийвчил байдлыг хангадаг. Нэхэмжлэл дээр зураг нь хамаагүй бага юм.
Бие даасан жишгүүд нь Tesseract нь нэхэмжлэл дээр 50-80% тэмдэгтийн нарийвчил байдлыг хангадаг бөгөөд энэ нь дүрсийн чанар ба нэхэмжлэлийн байдлаас хамаарна. Хөдөлгүүр нь стандарт баримт бичгүүдийн өгүүлбэрүүдийг таних зорилгоор бүтээгдсэн бөгөөд оновчтой болгогдсон - Англи хэлний текстээр сургагдсан хэлний загвар нь санамсаргүй тэмдэгтийн утас шиг харагддаг товчлол, холимог хэлбэрийн текст байхгүй.
Ердийн бүтэлгүйтлийн горимууд нь:
- SKU код ба зүйлийн дугаар нь англи хэлний текстээр сургагдсан хэлний загварт санамсаргүй тэмдэгтийн утас шиг харагддаг тул буруу уншигддаг.
- Үнийн баганууд нь зайг таних чадвар алдагдсан үед децимал тэнхлэгийг алддаг.
- Жижиг дулааны фонтууд нь бага итгэлцэлтэй тэмдэгт тааруулах байдлыг үүсгэдэг.
- Эргэсэн эсвэл налуу дүрсийг утасны камерууд нь нарийвчил байдлыг ихээхэн бууруулдаг.
Tesseract нь нэхэмжлэл дээр хүлээн зөвшөөрөгдөхүйц нарийвчил байдалд хүрэхийн тулд их хэмжээний урьдчилсан боловсруулалт - шулуун болгох, хоёртын болгох, тоос арилгах, контраст сайжруулах - шаарддаг. Оновчтой урьдчилсан боловсруулалттай ч гэсэн нийт ба огноо зэрэг чухал талбаруудын талбайн түвшний нарийвчил нь ихэвчлэн 60-75% байдаг.
ABBYY FineReader (Арилжааны)
ABBYY нь уламжлалт OCR-ийн хамгийн өндөр түвшинг төлөөлдөг. Цэвэр, бүтцийн баримт бичгүүд дээр ABBYY нь 99.8% хүртэл тэмдэгтийн нарийвчил байдлыг хангадаг - уламжлалт OCR ангилалд хамгийн шилдэг нь. Нэхэмжлэл дээр ABBYY нь Tesseract-аас хамаагүй илүү сайн ажилладаг бөгөөд ердийн цэвэр нэхэмжлэл дээр 88-93% тэмдэгтийн нарийвчил байдлыг хангадаг.
ABBYY-ийн давуу тал нь хэдэн арван жилийн сургалтын өгөгдөл, илүү сайн урьдчилсан боловсруулалтын алгоритмууд, өргөн хүрээний хэл ба фонт хамгаалалт юм. Гэхдээ энэ нь баримт бичгийн бүтцийн семантик ойлголтгүйгээр тэмдэгт түвшний танилтад үндэслэдэг. Энэ нь нэхэмжлэл дээр байгаа зүйлийг зөв уншиж чаддаг, гэхдээ доод талын тоо нь гүйлгээний огноо болохыг ойлгодоггүй.
Загварын Асуудал
Талбайн гаргаж авах хүртэл тэмдэгтийн тэмдэгтийн танилтаас цааш явдаг уламжлалт OCR системүүд нь ихэвчлэн загваруудад тулгуурладаг - урьдчилан тодорхойлсон координатын газрын зураг нь системд "нийт нь X,Y байрлалд байдаг" гэж хэлдэг. Энэ арга нь стандарт маягтууд (татвар, даатгалын нэхэмжлэл) -д сайн ажилладаг боловч нэхэмжлэлүүдийн хувьд бүтэлгүйтдэг учир нь:
- Худалдагч, POS систем, улс орнуудын мянга мянган өвөрмөц нэхэмжлэлийн хэлбэр байдаг.
- Ижил дэлгүүрийн сүлжээ ч гэсэн POS тоног төхөөрөмжөө шинэчлэхдээ нэхэмжлэлийн загварыг өөрчилж болно.
- Загвар бүтээх ба засвар үйлчилгээ нь хөдөлмөр их шаарддаг - шинэ загвар бүр гараар тохиргоо хийх шаардлагатай.
- Нэхэмжлэлийн урт нь өөр өөр байдаг (50 зүйлтэй хүнсний дэлгүүрийн нэхэмжлэл нь 2 зүйлтэй кофе шоп нэхэмжлэлээс физикээр ялгаатай).
Загвар-суурилсан системүүд нь ихэвчлэн 50-200 нэхэмжлэлийн загварыг дэмждэг. Энэ нь нэг улсын томоохон жижиглэн худалдаачдыг хамардаг. Энэ нь жижиг бизнес, олон улсын нэхэмжлэл, эсвэл ресторануудын урт сүүлийг хамардаггүй.
Хиймэл Оюун Ухаанаар Ажиллах Систем: Өөр Аргууд
Орчин үеийн хиймэл оюун ухааны нэхэмлэх систем нь уламжлалт OCR-ээс тэс өөрөөр ажилладаг. Хувь тэмдэгтүүдийг тааруулах ба координатуудыг загварт зурахын оронд хиймэл оюун ухааны системүүд нь баримт бичгийн контекстийг ойлгодог том хэлний загварууд ба харааны загваруудыг ашигладаг.
Хиймэл Оюун Ухааны Систем Хэрхэн Ажилладаг Вэ
Процесс нь ихэвчлэн гурван үе шатыг дагаж мөрддөг:
-
Харааны ойлголт. Хиймэл оюун ухааны загвар нь нэхэмлэх дүрсийг (эсвэл PDF) харааны оролт болгон боловсруулж, текст бүс, загварын бүтэц, орон зайн харилцааг тодорхойлдог. Энэ нь хувь тэмдэгтүүдийг тусад нь боловсруулдаг уламжлалт OCR-ээс үндсээр ялгаатай юм.
-
Контекстээр гаргаж авах. "X,Y байрлалд ямар тэмдэгт байна вэ?" гэж асуусны оронд загвар нь "Энэ нэхэмжлэл дээрх нийт хэмжээ хэд вэ?" гэж асуудаг. Энэ нь ихэвчлэн доод талд, "Total", "Amount Due", эсвэл "Grand Total" гэх мэт үгээр эхэлдэг, мөн валютын утгаар форматлагдсан байдаг гэдгийг ойлгодог. Энэхүү контекстийн ойлголт нь хиймэл оюун ухааны систем нь загвар шаардлагагүй, ямар ч загварт хамааралгүй байх боломжийг олгодог.
-
Бүтцийн гаралт. Загвар нь шошготой талбаруудтай бүтцийн өгөгдлийн объектыг буцаадаг: худалдагчийн нэр, огноо, мөрийн зүйлс, хагас төгсгөл, татвар, нийт, төлбөрийн арга. Гаралт хэлбэр нь оролтын нэхэмжлэлийн загвараас үл хамааран тогтвортой байдаг.
Нөхцөл байдлаар Хиймэл Оюун Ухааны Нарийвчил
Хиймэл оюун ухаанаар ажиллах систем нь уламжлалт OCR-ээс хамаагүй өндөр нарийвчил байдлыг хангадаг боловч тоонууд нь нэхэмжлэлийн байдлаас хамаарч ихээхэн ялгаатай байдаг:
| Нэхэмлэлийн Нөхцөл | Талбайн Нарийвчил (Чухал Талбарууд) | Талбайн Нарийвчил (Бүх Талбарууд) | Тэмдэглэл |
|---|---|---|---|
| Цэвэр дижитал нэхэмжлэл (PDF/и-мэйл) | 98-99%+ | 95-98% | Бараг төгс; формат нь тогтвортой байдаг |
| Шинэхэн дулааны нэхэмжлэл (0-3 сар) | 96-99% | 92-96% | Өндөр контраст, тодорхой текст |
| Хуучин дулааны нэхэмжлэл (3-12 сар) | 90-95% | 82-90% | Зарим бүдгэрэлт, ялангуяа зах хэсэгт |
| Бүдгэрсэн дулааны нэхэмжлэл (1-3 жил) | 75-88% | 65-80% | Тэмдэгт алдагдал ихтэй; контекст тусалдаг |
| Ноцтой гэмтэлтэй (3+ жил, халуунд өртсөн) | 50-70% | 40-60% | Текст бүсүүд алга болсон; хэсэгчилсэн гаргалт |
| Нугалсан/хавчсан | 85-93% | 78-88% | Нугалаа нь мөрний илрүүлэлтийг саад болдог |
| Чанар муутай зураг (хөдөлгөөний бүдгэрэлт, сүүдэр) | 80-90% | 70-85% | Дүрсийн чанар нь саад болдог |
Хиймэл оюун ухаан нь нөхцөл байдал муудахад ч гэсэн уламжлалт OCR-ээс илүү өндөр нарийвчил байдлыг хадгалдаг нь контекстийг ашиглан хоосон зайг нөхөх боломжтой тул гол ойлголт юм. Хэрэв хөдөлгүүр "Tot" ба дараа нь "$47.8_" (сүүлийн орон нь уншигдахгүй) гэж уншиж чадвал, энэ нь контекстээс энэ нь нийт талбар бөгөөд алга болсон орон нь дээд мөрүүдээс харахад "3" байх магадлалтай гэдгийг мэддэг. Уламжлалт OCR нь зүгээр л асуултын тэмдэг эсвэл хамгийн сайн нэг тэмдэгтийн таамаглалыг буцаах байсан.
Чухал Талбаруудад Нарийвчил байдлын Зөрүү
Бүх талбарууд нь адил чухал биш юм. Зардлын менежмент ба татварын дагаж мөрдөх байдлын хувьд тодорхой шатлал байдаг:
| Талбар | Давуу эрх | Яагаад Чухал Вэ | Хиймэл Оюун Ухааны Нарийвчил (Цэвэр Нэхэмжлэл) |
|---|---|---|---|
| Нийт Дүн | Чухал | Зардлын үнэ ба хасагдах хэмжээг тодорхойлдог | 98-99% |
| Огноо | Чухал | Татварын жил ба хугацааг тодорхойлох | 97-99% |
| Худалдагчийн Нэр | Өндөр | Ангилал ба аукуудын мөртэй байх шаардлагатай | 95-98% |
| Татварын Хэмжээ | Өндөр | Татварын тайлан ба оруулсан татварын хөнгөлөлтөд шаардлагатай | 96-98% |
| Төлбөрийн Арга | Дунд | Картын хуулгатай тохиролцоход ашигтай | 93-96% |
| Мөрийн Зүйлс | Дунд | Зардлын дэлгэрэнгүй ангилалд шаардлагатай | 88-95% |
| Тип Хэмжээ | Дунд | Хоолны зардалд хамаатай, ихэвчлэн гараар бичсэн | 85-92% |
| Хаяг/Утас | Бага | Зардлын боловсруулалтад ховор хэрэгтэй | 90-95% |
Хиймэл оюун ухаанаар ажиллах системүүд нь хамгийн чухал талбаруудад - нийт дүн ба огноо - хамгийн өндөр нарийвчил байдлыг тогтмол хангадаг, учир нь эдгээр талбарууд нь загвар нь хувь тэмдэгтүүд нь эргэлзээтэй байсан ч ашиглаж болох хүчтэй контекстийн дохио (байрлал, формат, хүрээлэн буй текст) байдаг.
Нарийвчил байдалд Нөлөөлдөг Хүчин Зүйлс
Нарийвчил байдлыг юу бууруулдгийг ойлгох нь автоматжуулсан гаргалтын системд хэзээ итгэх, хэзээ гараар шалгах талаар илүү сайн шийдвэр гаргахад тусална.
Дүрсийн Чанар
Дүрсийн чанар нь OCR нарийвчил байдлыг хянах боломжтой хамгийн том хүчин зүйл юм. Сайтар авсан зураг ба яаран авсан зураг хоёрын хоорондох ялгаа нь талбайн нарийвчил байдлыг 15-20 хувийн цэгээр өөрчилж чадна.
| Хүчин Зүйл | Нарийвчил байдалд Нөлөөлөх Байдал | Юу Хийх Вэ |
|---|---|---|
| Нарийвчил | 200 DPI-ээс доош, нарийвчил байдал огцом буурдаг | Доод тал нь 300 DPI ашиглах; ихэнх утасны камер үүнийг давдаг |
| Гэрэлтүүлэг | Жигд бус гэрэлтүүлэг нь контраст асуудлыг үүсгэдэг | Байгалийн, тархсан гэрлийг ашиглах; шууд дээд гэрлээс зайлсхийх |
| Сүүдэр | Гар/утасны сүүдэр нь текстээ бүдгэрүүлдэг | Гэрлийн эх үүсвэрийг хажуу тийш байрлуулах; шаардлагатай бол чийдэн ашиглах |
| Гэрлийн цацралт | Дулааны цаас нь толь шиг байдаг; гэрэл нь цагаан толбо үүсгэдэг | Гэрлийг унтраах; оронд нь орчны гэрлийг ашиглах |
| Фокус | Бүрэн бус текст нь ямар ч нарийвчилтай байсан ч уншигдахгүй | Текст рүү фокуслах; утсаа тогтвортой барих |
| Өнцөг | Перспективийн гажилт нь тэмдэгтүүдийг муруйлгадаг | Камерыг нэхэмжлэлийн шууд дээд талд, гадаргуутай параллель байрлуулах |
| Хуулах | Хэт их суурь нь ирмэгийг танихад төөрөлдүүлдэг | Нэхэмжлэлийг хүрээний 80% -ийг эзэлдэг байх |
Цаасны Нөхцөл
Цаасны нөхцөл байдал нь хянах боломжгүй хамгийн том хүчин зүйл юм. Та техникийн хувьд дүрсийн чанарыг сайжруулж чадна; та бүдгэрсэн нэхэмжлэлийг буцааж чадахгүй.
Дулааны нэхэмжлэлийн бүдгэрэлтийн хугацаа нь хадгалалтын нөхцлөөс ихээхэн хамаардаг:
- Хамгийн тохиромжтой хадгалалт (харанхуй, сэрүүн, 45-65% чийгшил): стандарт зэрэглэлийн хувьд 5-7 жил, дээд бүрхүүлтэй дулааны цаасанд 25 жил хүртэл уншигдах боломжтой.
- Хэвийн нөхцөл (ширээний шургуулга, хавтастай хавтас): 1-3 жил
- Түрийвч эсвэл халаас: 3-12 сар
- Машины самбар эсвэл бээлийний тасалгаа: долоо хоног - сар, цаг уур хамаарна.
- Шууд нарны гэрэлд өртөх: хоног - долоо хоног
Практик дүгнэлт нь тодорхой байна: нэхэмжлэлийг хүлээн авснаас хойш 48 цагийн дотор тоон хэлбэрт оруулах. Хойшлуулсан хоног бүр хамгийн ихдээ хүртэх OCR нарийвчил байдлыг бууруулдаг. Худалдан авалтын өдөр сканнердсан нэхэмжлэл нь бараг төгс үр дүнг өгнө. Зургаан сарын дараа сканнердсан ижил нэхэмжлэл нь текстний тодорхой байдлын 10-20% -ийг алдсан байж болно.
Нэхэмлэлийн Урт ба Төвөгтэй байдал
Илүү олон мөртэй урт нэхэмжлэлүүд нь зүгээр л алдаа гарах боломжийг нэмэгдүүлдэг тул баримт бичгийн түвшний нарийвчил байдал бага байдаг. 5 зүйлтэй кофе шоп нэхэмжлэл нь 60 зүйлтэй хүнсний дэлгүүрийн нэхэмжлэлээс 100% зөв байх боломж хамаагүй өндөр байдаг.
| Нэхэмлэлийн Урт | Дундаж Мөрний Зүйлс | Баримт Бичгийн Нарийвчил (Хиймэл Оюун Ухаан) | Алдаа Гарах Магадлалтай Талбарууд |
|---|---|---|---|
| Богино (1-5 зүйл) | 8-15 мөр | 90-95% | Худалдагчийн нэр (товчлол) |
| Дунд (6-20 зүйл) | 16-40 мөр | 80-90% | Мөрийн зүйлийн тодорхойлолт |
| Урт (21-50 зүйл) | 41-80 мөр | 70-82% | Зүйлийн тоо, нэгж үнэ |
| Маш Урт (50+ зүйл) | 80+ мөр | 55-70% | Хэд хэдэн талбар; хуримтлагдсан алдаа |
Фонт ба Формат
Зарим POS системүүд нь OCR-д онцгой хэцүү байдаг захиалгат эсвэл нарийхан фонтуудыг ашигладаг. Цэг-матриц нэхэмлэх принтерүүд - зарим шатахуун түгээгүүрийн болон хуучин жижиглэнгийн байгууллагуудад түгээмэл байдаг - нь дулааны принтерээс бага чанартай тэмдэгтүүдийг гаргадаг. Бүх тохиолдолд бичих нь хүмүүст уншихад хэцүү байдаг ч, том үсгүүд нь илүү өвөрмөц хэлбэртэй байдаг тул OCR хөдөлгүүрүүдэд илүү хялбар байдаг.
Нэхэмлэлийн Төрлөөрх Нарийвчил
Өөр өөр нэхэмжлэлийн ангилалууд нь өвөрмөц сорилтуудыг танилцуулж, өөр өөр нарийвчил байдлын профайлыг гаргадаг.
Рестораны Нэхэмжлэл
Рестораны нэхэмжлэлүүд нь OCR-д хамгийн хэцүү зүйлсийн нэг юм, учир нь тэдгээрт ихэвчлэн гараар бичсэн зүйлс ордог - тип хэмжээ, нийт дүн, гарын үсэг. Хиймэл оюун ухаанаар ажиллах систем нь хэвлэгдсэн хэсгүүдийг сайн боловсруулдаг (худалдагч, огноо, хагас төгсгөлийн хувьд 95-98% талбайн нарийвчил), гэхдээ тип мөрөнд гараар бичих чадвартай (70-85% нарийвчил) байдаг. Тип хэмжээ нь ихэвчлэн хамгийн санхүүгийн чухал гараар бичсэн талбар юм.
Хамгийн сайн арга: Хэрэв таны ажлын урсгалд типний нарийвчил чухал бол тип ба нийт дүнг гараар шалгана уу. Хагас төгсгөл, татвар, худалдагчийн талбарууд нь ихэвчлэн шалгалтгүйгээр найдвартай байдаг.
Жижиглэн Худалдаа ба Хүнсний Нэхэмжлэл
Жижиглэнгийн нэхэмжлэлүүд нь нэхэмжлэлийг их хэмжээгээр нь сорьдог. Ердийн хүнсний дэлгүүрийн нэхэмжлэлд 30-60 мөрийн зүйлс байдаг бөгөөд тус бүр нь тодорхойлолт, тоо хэмжээ, үнэтэй байдаг. Мөрийн зүйлийн тодорхойлолтууд нь ихэвчлэн товчлогдсон байдаг (жишээ нь, "Organic Boneless Chicken" гэсний оронд "ORG BNS CHKN") ба OCR хөдөлгүүрт гэмтсэн текст шиг харагддаг дотоод SKU кодуудыг агуулж болно.
Чухал талбайн нарийвчил (нийт, огноо, худалдагч) нь 96-99% өндөр байдаг. Мөрийн зүйлийн нарийвчил нь товчлол ба форматын тогтворгүй байдлаас болж 85-92% бага байдаг. Зардлын ангилал хийх зорилгоор нийт ба худалдагч нь ихэвчлэн хангалттай байдаг - та бүх мөрийн зүйлийг төгс хуулбарлах шаардлагагүй.
Шатахуун түгээгүүрийн Нэхэмжлэл
Шатахуун түгээгүүрийн нэхэмжлэлүүд нь богино боловч ихэвчлэн гэмтэлтэй байдаг. Тэдгээрийг цаг агаарт өртдөг гадаах шахуурганаас гаргадаг, бээлийтэй эсвэл тослог гар дээр боловсруулдаг, мөн ихэвчлэн шууд нугалдаг. Дулааны цаас нь дотор нь ашиглагддаг цааснаас бага чанартай байж болно. Хэмжээ ба огнооны талбайн нарийвчил нь шинэхэн нэхэмжлэлүүдийн хувьд ихэвчлэн 90-96% байдаг боловч байгаль орчны нөлөөллөөс болж бусад нэхэмжлэлийн төрлүүдээс илүү хурдан буурдаг.
Онлайн ба И-мэйл Нэхэмжлэл
Дижитал нэхэмжлэлүүд - и-мэйлээр илгээсэн баталгаа, онлайн худалдан авалтаас авсан PDF татаж авах, дижитал POS системээс авсан и-нэлэмж - нь OCR-д хамгийн хялбар ангилал юм. Тэдгээрт тогтвортой формат, өндөр контраст, цаасны доройтолгүй, талбайн байрлал нь урьдчилан таамаглах боломжтой байдаг. Талбайн нарийвчил нь бүх талбаруудад ихэвчлэн 98% -ийг давдаг, баримт бичгийн нарийвчил нь 92-97% хүрнэ.
Хэрэв та дижитал нэхэмжлэл хүлээн авах сонголттой бол үргэлж сонгоорой. Тэд дулааны цаасны асуудлыг бүхэлд нь арилгаж, хамгийн өндөр гаргалтын нарийвчил байдлыг гаргадаг.
Нэхэмлэлийн Төрлүүдийн Хамрах Хүрээний Хамрах Хүрээ
| Нэхэмлэлийн Төрөл | Нийт Нарийвчил | Огнооны Нарийвчил | Худалдагчийн Нарийвчил | Мөрийн Зүйлсийн Нарийвчил | Дундаж Талбайн Дундаж |
|---|---|---|---|---|---|
| Онлайн/и-мэйл (PDF) | 99% | 99% | 98% | 96% | 98% |
| Шинэхэн жижиглэн худалдаа | 98% | 98% | 96% | 90% | 95% |
| Шинэхэн ресторан | 97% | 97% | 95% | 92% | 93% |
| Шатахуун түгээгүүр | 95% | 94% | 92% | 88% | 91% |
| Хуучин дулааны (6+ сар.) | 88% | 87% | 82% | 72% | 82% |
| Бүдгэрсэн/гэмтэлтэй | 72% | 70% | 65% | 50% | 64% |
PDFSub Нэхэмлэх Сканнердахыг Хэрхэн Зохицуулдаг Вэ
PDFSub-ийн Нэхэмлэх Сканнер нь хиймэл оюун ухаанаар ажиллах системийг ашиглан дулааны цаасны скан, утасны зураг, PDF татаж авах, и-мэйл нэхэмжлэлийн хавсралт зэрэг бүх хэлбэрийн нэхэмжлэлийг боловсруулдаг.
Юу Гаргаж Авах Вэ
Нэхэмлэх сканнер нь нэхэмжлэлийн бүх нэхэмжлэлээс бүтцийн өгөгдлийг тодорхойлж, гаргаж авдаг:
- Худалдагчийн нэр ба хаяг - дэлгүүрийн дугаар ба байршил зэргийг багтаасан бол боломжтой.
- Гүйлгээний огноо ба цаг - автоматаар огнооны хэлбэрийг таних (MM/DD, DD/MM, YYYY-MM-DD).
- Мөрийн зүйлс - тодорхойлолт, тоо хэмжээ, нэгж үнэ, мөрийн нийт дүн.
- Хагас төгсгөл, татвар, ба нийт - нягтлан бодох бүртгэлийн нарийвчил байдлыг хангахын тулд тусдаа талбаруудад хуваагдсан.
- Төлбөрийн арга - бэлэн мөнгө, зээлийн карт (сүүлийн дөрвөн орон), дебет, гар утасны төлбөр.
- Валют - тэмдэг ба форматлалтаас автоматаар танигдсан.
Хувьсах Загваруудыг Хэрхэн Зохицуулдаг Вэ
PDFSub нь загвар ашигладаггүй. Хиймэл оюун ухааны хөдөлгүүр нь координатын зураглалаас биш, контекстээр баримт бичгийн бүтцийг ойлгож, тус бүр нэхэмжлэлийг бие даан шинжилдэг. Энэ нь ямар ч худалдагчаас, ямар ч улс орны, урьдчилсан тохиргоо шаардлагагүйгээр ямар ч нэхэмжлэлийн загвартай ажилладаг гэсэн үг юм. Та Бруклиний кофе шоп нэхэмжлэлийг, Мюнхений эмийн сангийн нэхэмжлэлийг, эсвэл Токиогийн таксины нэхэмжлэлийг байршуулсан ч гэсэн гаргалтын процесс нь ижил байна.
Боловсруулалт ба Нууцлал
Дижитал PDF нэхэмжлэлүүдийн хувьд анхны текст гаргалт нь таны хөтөч дээр явагддаг - байршуулах шаардлагагүй. Сканнердсан дүрстэй эсвэл хиймэл оюун ухааны боловсруулалт шаардлагатай нэхэмжлэлүүдийн хувьд файл нь гаргалтын хөдөлгүүрт илгээгдэж, боловсруулагдаж, гаргалт дууссаны дараа анхны файл нь хадгалагдахгүй.
Та 7 хоногийн турш үнэгүй туршилт -аар нэхэмлэх сканнерыг туршиж үзэх боломжтой - хэд хэдэн нэхэмжлэлийг байршуулж, гаргалтын үр дүнг анхныхтай нь харьцуулж, таны тодорхой нэхэмжлэлийн төрлүүдийн нарийвчил байдлыг үнэлнэ. Хэзээ ч цуцлах боломжтой.
Нэхэмлэх Сканнердахыг Сайжруулах Зөвлөмжүүд
Та нэхэмжлэлийг авч байхдаа хэд хэдэн энгийн дадлыг дагаж мөрдвөл гаргалтын нарийвчил байдлыг ихээхэн сайжруулж чадна.
Авах Техник
-
Байгалийн, тархсан гэрлийг ашигла. Өдрийн цагаар цонхны ойролцоо сканнердах нь хиймэл дээд гэрэлтүүлгээс илүү сайн үр дүнг өгдөг. Зорилго нь хатуу сүүдэргүй жигд гэрэлтүүлэг юм.
-
Нэхэмжлэлийг хавтгай, харанхуй гадаргуу дээр байрлуул. Харанхуй ширээ эсвэл countertops нь ирмэгийг таних ба текст таних байдалд тусалдаг контрастыг бий болгодог. Цагаан гадаргуу дээр нэхэмжлэлийг сканнердахаас зайлсхий - ирмэг нь үл үзэгдэх болно.
-
Камераа шууд дээд талд нь барь. Перспективийн гажилтаас зайлсхийхийн тулд камерыг нэхэмжлэлтэй параллель байрлуул. Бага зэрэг өнцөг ч гэсэн тэмдэгтүүдийг багасгах хангалттай муруйлгаж болно.
-
Гэрлийг унтраа. Дулааны цаас нь толь шиг байдаг. Камерын гэрэл нь OCR хөдөлгүүрт цагаан толбо болж харагддаг бөгөөд ихэвчлэн хамгийн чухал текстэн дээр байдаг.
-
Хүрээг дүүргэ. Нэхэмжлэл нь дүрсийн ойролцоогоор 80% -ийг эзэлдэг байх ёстой. Хэт их суурь нь нарийвчлалыг дэмий үрдэг. Хэтэрхий нягт хуулах нь ирмэгийн текстийг таслах эрсдэлтэй.
-
Текст рүү товших. Автомат фокус нь ихэвчлэн хэвлэгдсэн текст биш, харин цаасны гадаргуу дээр түгжигддэг. Тодорхой тэмдэгт дүрслэхийн тулд текстэн дээр товших.
-
Нугалаа ба үрчлээг хавтгай болго. Сканнердахаас өмнө нэхэмжлэлийг хавтгай болгон дарна уу. Нугалаа нь OCR хөдөлгүүрээс тэмдэгт эсвэл мөрний таслал гэж тайлбарлагдаж болох сүүдэр үүсгэдэг. Хэрэв нэхэмжлэл нь их хэмжээгээр нугалсан бол эхлээд хүнд номын доор хэдэн минут дарж үзээрэй.
Цаг
-
48 цагийн дотор скан хий. Дулааны нэхэмжлэлүүд нь шууд доройтож эхэлдэг. Та тэдгээрийг хурдан авч байвал нарийвчил байдал өндөр байх болно. Нэхэмлэх сканнердахыг өдөр бүр эсвэл өдрийн төгсгөлд хийх дадал болго, сар бүр нэг удаа хийх багц процесс биш.
-
Багц өдрийг бүү хүлээ. Нэхэмжлэлийг нэг сар хадгалж, дараа нь бүгдийг нь нэг дор скан хийх нь бага нарийвчил байдлыг баталгаажуулдаг. Эдгээр нэхэмжлэлүүдийн зарим нь дөрвөн долоо хоногийг түрийвч, халаас, эсвэл машинд өнгөрөөх бөгөөд энэ хугацаанд бүхэлд нь бүдгэрнэ.
Файлын Удирдлага
-
Анхны зургийг хадгал. Гаргалтын дараа ч гэсэн анхны скан эсвэл зургийг хадгал. Хэрэв та дараа нь сайжруулсан хэрэгслээр дахин гаргах шаардлагатай бол анхны зураг нь таны үнэн эх сурвалж юм.
-
Боломжтой бол PDF хэлбэрийг ашигла. Хэрэв таны сканнер програм эсвэл утас нь PDF гаралт санал болгодог бол JPEG-ээс илүүд үзээрэй. PDF нь илүү өндөр чанарыг хадгалдаг ба олон хуудастай нэхэмжлэлүүдийг (жишээ нь, хоёр хэсэгт сканнердсан урт хүнсний нэхэмжлэл) зохицуулдаг.
Гараар Хянах Хэзээ Вэ
Хиймэл оюун ухаанаар ажиллах систем нь бага эрсдэлтэй нэхэмжлэлүүдийн хувьд хараагүй итгэхэд хангалттай - $4.50 кофе, $12 зогсоолын тасалбар. Гэхдээ зарим нөхцөл байдал нь гараар шалгах шаардлагатай болдог.
Эдгээрийг Үргэлж Шалгана Уу
- $500-аас дээш нэхэмжлэл. Өндөр үнэтэй нэхэмжлэлийн гаргалтын алдааны санхүүгийн нөлөө нь 30 секундын гараар шалгахад зохистой юм.
- Татварт чухал нэхэмжлэл. Татварын хөнгөлөлт болгон ашиглах гэж буй аливаа нэхэмжлэлийг шалгах ёстой. IRS нь $75-аас дээш хувь тус бүрийн зардлын баримт бичгийг шаарддаг бөгөөд хөнгөлөлтөд буруу дүнг оруулах нь аудит асуултыг өдөөж болно.
- Гараар бичсэн элементүүдтэй нэхэмжлэл. Тип хэмжээ, гараар хийсэн үнийн өөрчлөлт, гараар бичсэн тэмдэглэлүүд нь хиймэл оюун ухаанаар ажиллах системийн хувьд хамгийн сул цэг хэвээр байна. Хэрэв нэхэмжлэлд бичгээр бичсэн зүйлс орвол эдгээр талбаруудыг шалгана уу.
- Бүдгэрсэн эсвэл гэмтэлтэй нэхэмжлэл. Хэрэв та нэхэмжлэлийг өөрийн нүдээр бараг уншиж чадахгүй бол шалгалтгүйгээр хиймэл оюун ухааны гаргалтыг бүү итгэ. Ноцтой гэмтэлтэй нэхэмжлэлүүдийг ойролцоо гэж үзэх ёстой, эрх бүхий гэж биш.
- Гадаад валютын нэхэмжлэл. Валютын хөрвүүлэлт ба танил бус тоон хэлбэрүүд (децимал тусгаарлагч болгон цэг ба таслал) нь гаргалтын алдааг үүсгэж болно. Олон улсын нэхэмжлэл дээрх дүнг ба валютыг шалгана уу.
Эдгээрийг Сонгомол Шалгана Уу
- 20+ зүйлтэй хүнсний нэхэмжлэл. 3-5 мөрийн зүйлийг сонгомол шалгаж, нийт дүн нь нийлбэртэй тэнцэж байгаа эсэхийг шалгана уу. Хэрэв нийт дүн зөв бол хувь мөрийн зүйлийн алдаа нь таны зардлын тайланд нөлөөлөх магадлал багатай.
- Танил бус худалдагчдаас авсан нэхэмжлэл. Шинэ худалдагчаас авсан анхны нэхэмжлэл нь хиймэл оюун ухаан нь тухайн загварыг өмнө нь хараагүй тул бага нарийвчил байдлыг гаргаж болно. Эхнийхийг шалгасны дараа ижил худалдагчаас авсан дараагийн нэхэмжлэлүүд нь ихэвчлэн илүү найдвартай байдаг.
- Багцлагдсан нэхэмжлэл. Хэрэв та нэг дор 50+ нэхэмжлэлийг боловсруулж байгаа бол тэдгээрийн 10-15% -ийг сонгомол шалгана уу. Хэрэв нарийвчил байдал тогтмол өндөр байвал та үлдсэнд нь итгэж болно.
Шалгалгүйгээр Итгэх
- Цэвэр формат ба стандарт загвартай дижитал/и-мэйл нэхэмжлэл.
- Томоохон жижиглэн худалдаачдаас авсан шинэхэн нэхэмжлэл бөгөөд нийт дүн нь дугуй тоо эсвэл таны банкны хуулгатай тохирч байна.
- $25-аас доош нэхэмжлэл бөгөөд шалгалтын өртөг нь боломжит алдааны өртөгөөс давсан.
Нэхэмжлэлийг Шууд Тоон Хэлбэрт Оруулах Бизнесийн Үндэслэл
Нарийвчил байдлын өгөгдлүүд нь нэгэн дуу авиатай дүгнэлтэд хүргэдэг: нэхэмжлэлийг сканнердах хамгийн сайн цаг бол шууд л юм. Хойшлуулсан хоног бүр нарийвчил байдлыг алддаг, харин дулааны бүдгэрэлтээс болж алдагдсан нарийвчил байдлыг хэзээ ч нөхөн авч чадахгүй.
Эдийн засгийг авч үзье:
- Дундаж татвараас хасагдах нэхэмжлэлийн үнэ: $35-75
- 1 жилийн дотор OCR уншигдах чадвараас давсан бүдгэрэлтийн магадлал: 30-50% (түрийвч хадгалалт)
- Сканердахаас өмнө алдах магадлал: сар тутамд 15-25%
- Нэхэмжлэл тутамд дундаж татварын хэмнэлт (25% захын хүүтэй): $8.75-18.75
- Нэг нэхэмжлэлийг утас ашиглан скан хийх хугацаа: 5-10 секунд
Тооцоо нь энгийн. $12 татварын хөнгөлөлтийг хадгалсан 10 секундын скан нь цагийн байдлаар 4,320 долларын бүтээмжтэй тэнцэнэ. Хэрэв та зөвхөн өндөр үнэтэй нэхэмжлэлийг скан хийсэн ч гэсэн оруулсан цаг хугацааны өгөөж нь асар их юм.
BPA-ийн нөлөөллийг тооцоонд оруулах - дулааны нэхэмжлэлүүдийг боловсруулах нь бисфенол нэгдлүүдийн хэмжигдэхүйц хэмжээг арьстай харьцах замаар шилжүүлдэг - ба шууд тоон хэлбэрт оруулахын тулд үндэслэл нь санхүүгийн болон эрүүл мэндийн холбоотой болдог. Европын Холбоо нь дулааны цаасан дахь BPA-г шат дараатай арилгаж эхэлсэн бөгөөд АНУ-ын хэд хэдэн муж улс ижил төстэй хязгаарлалтыг баталсан эсвэл санал болгосон.
Цаашид юу хүлээх вэ
Сүүлийн таван жилийн хугацаанд баримт бичгийн OCR (оптик тэмдэгт таних) нягтшил нь уламжлалт OCR инженерчлэлээс илүүтэйгээр харааны хэлний загваруудын дэвшил хөдөлгөгч хүч болж, жилд ойролцоогоор 2-3 хувиар сайжирсан. Одоогийн үеийн хиймэл оюун ухаанаар мэдээлэл гаргаж авах хэрэгслүүд нь бодит нягтшлын түвшинг харуулж байна: цэвэр баримт бичгүүд дээрх чухал талбаруудын нягтшил нь анх удаа 97%-ийг тасралтгүй давж байгаа бөгөөд энэ нь ихэнх бизнесийн ажлын урсгалд баримт бичгийг бүрэн автоматжуулан боловсруулах боломжийг олгож байна.
Үлдсэн нягтшлын зөрүү буюу гараар бичсэн тэмдэглэл, маш бүдгэрсэн дулааны цаас, өвөрмөц POS формат зэрэг нь цаашид багасах болно. Гэхдээ дулааны цаасны асуудал нь тооцоолол биш, харин биет шинж чанартай холбоотой. Хиймэл оюун ухааны ямар ч дэвшил нь цааснаас химийн хувьд алга болсон текстийг сэргээж чадахгүй.
Практик шийдэл хэвээр байна: Баримтыг эрт хуулж ав, гэрэл сайн тусах газар ав, мөн хиймэл оюун ухаанаар мэдээллийг гаргаж ав. Хамгийн чухал баримт бичгүүдийн хувьд нийт дүнг нь шалгаж үз. Бусад бүх зүйлийн хувьд тоонууд дээр найдаад үргэлжлүүлэн ажилла.
PDFSub-ийн баримт сканнер нь ямар ч төрлийн, ямар ч ханган нийлүүлэгчээс, ямар ч хэлээр ирсэн баримтыг боловсруулдаг. Өөрийн баримтуудтайгаа нягтшлыг нь шалгахын тулд 7 хоногийн үнэгүй туршилтыг эхлүүлээд үз – энэ нийтлэл дэх нягтшлын тоонууд нь салбарын жишиг үзүүлэлт бөгөөд таны баримт дээр гарч буй тоонууд л хамгийн чухал нь юм.