ความแม่นยำของ OCR สำหรับใบเสร็จ: สิ่งที่คาดหวังได้จากการสแกนด้วย AI
การแยกข้อมูลด้วย AI: แนวทางที่แตกต่าง
การแยกข้อมูลใบเสร็จด้วย AI ในปัจจุบันทำงานแตกต่างจาก OCR แบบดั้งเดิมอย่างสิ้นเชิง แทนที่จะจับคู่รูปแบบตัวอักษรแต่ละตัวและจับคู่พิกัดกับเทมเพลต ระบบ AI จะใช้โมเดลภาษาขนาดใหญ่และโมเดลการมองเห็นที่เข้าใจบริบทของเอกสาร
การทำงานของการแยกข้อมูลด้วย AI
โดยทั่วไป กระบวนการจะประกอบด้วยสามขั้นตอน:
-
การทำความเข้าใจด้วยภาพ โมเดล AI จะประมวลผลรูปภาพใบเสร็จ (หรือ PDF) เป็นอินพุตภาพ ระบุบริเวณข้อความ โครงสร้างเลย์เอาต์ และความสัมพันธ์เชิงพื้นที่ ซึ่งแตกต่างอย่างสิ้นเชิงจาก OCR แบบดั้งเดิมที่ประมวลผลตัวอักษรแยกกัน
-
การแยกข้อมูลตามบริบท แทนที่จะถามว่า "ตัวอักษรใดอยู่ที่ตำแหน่ง X,Y?" โมเดลจะถามว่า "ยอดรวมบนใบเสร็จนี้คือเท่าใด?" โมเดลจะเข้าใจว่ายอดรวมมักจะอยู่ใกล้ด้านล่าง โดยมีคำว่า "Total," "Amount Due," หรือ "Grand Total" นำหน้า และมีรูปแบบเป็นค่าสกุลเงิน ความเข้าใจตามบริบทนี้คือสิ่งที่ทำให้การแยกข้อมูลด้วย AI ไม่ขึ้นกับรูปแบบ — ไม่จำเป็นต้องใช้เทมเพลต
-
ผลลัพธ์ที่มีโครงสร้าง โมเดลจะส่งคืนออบเจกต์ข้อมูลที่มีโครงสร้างพร้อมฟิลด์ที่มีป้ายกำกับ: ชื่อผู้ขาย, วันที่, รายการสินค้า, ยอดรวมย่อย, ภาษี, ยอดรวม, วิธีการชำระเงิน รูปแบบผลลัพธ์จะสอดคล้องกันโดยไม่คำนึงถึงเลย์เอาต์ของใบเสร็จอินพุต
ความแม่นยำของ AI ตามเงื่อนไข
การแยกข้อมูลด้วย AI ให้ความแม่นยำสูงขึ้นอย่างมากเมื่อเทียบกับ OCR แบบดั้งเดิม แต่ตัวเลขจะแตกต่างกันอย่างมากตามเงื่อนไขของใบเสร็จ:
| เงื่อนไขใบเสร็จ | ความแม่นยำของฟิลด์ (ฟิลด์สำคัญ) | ความแม่นยำของฟิลด์ (ทุกฟิลด์) | หมายเหตุ |
|---|---|---|---|
| ใบเสร็จดิจิทัลที่ชัดเจน (PDF/อีเมล) | 98-99%+ | 95-98% | เกือบสมบูรณ์แบบ; รูปแบบสอดคล้องกัน |
| ใบเสร็จความร้อนสด (0-3 เดือน) | 96-99% | 92-96% | ความคมชัดสูง, ข้อความชัดเจน |
| ใบเสร็จความร้อนเก่า (3-12 เดือน) | 90-95% | 82-90% | สีซีดจางบางส่วน, โดยเฉพาะขอบ |
| ใบเสร็จความร้อนสีซีด (1-3 ปี) | 75-88% | 65-80% | ข้อความขาดหายไปอย่างมาก; บริบทช่วยได้ |
| เสื่อมสภาพอย่างรุนแรง (3+ ปี, โดนความร้อน) | 50-70% | 40-60% | บริเวณข้อความขาดหาย; แยกข้อมูลบางส่วน |
| ยับ/ย่น | 85-93% | 78-88% | รอยยับรบกวนการตรวจจับบรรทัด |
| ภาพคุณภาพต่ำ (ภาพเบลอ, เงา) | 80-90% | 70-85% | คุณภาพของภาพเป็นคอขวด |
ข้อคิดสำคัญคือ AI ยังคงรักษาความแม่นยำที่สูงกว่า OCR แบบดั้งเดิมแม้ในขณะที่เงื่อนไขแย่ลง เพราะสามารถใช้บริบทเพื่อเติมเต็มส่วนที่ขาดหายไปได้ หากเอนจิ้นสามารถอ่าน "Tot" ตามด้วย "$47.8_" (โดยที่ตัวเลขสุดท้ายอ่านไม่ออก) มันจะทราบจากบริบทว่านี่คือฟิลด์ยอดรวม และตัวเลขที่ขาดหายไปน่าจะเป็น "3" โดยพิจารณาจากรายการสินค้าด้านบน OCR แบบดั้งเดิมจะแสดงเพียงเครื่องหมายคำถามหรือการคาดเดาตัวอักษรเดี่ยวที่ดีที่สุด
ช่องว่างความแม่นยำในฟิลด์สำคัญ
ไม่ใช่ทุกฟิลด์จะสำคัญเท่ากัน สำหรับการจัดการค่าใช้จ่ายและการปฏิบัติตามข้อกำหนดทางภาษี มีลำดับชั้นที่ชัดเจน:
| ฟิลด์ | ลำดับความสำคัญ | ความสำคัญ | ความแม่นยำของ AI (ใบเสร็จชัดเจน) |
|---|---|---|---|
| ยอดรวม | สำคัญ | กำหนดมูลค่าค่าใช้จ่ายและจำนวนเงินที่หักลดหย่อน | 98-99% |
| วันที่ | สำคัญ | กำหนดปีภาษีและช่วงเวลาที่กำหนด | 97-99% |
| ชื่อผู้ขาย | สูง | จำเป็นสำหรับการจัดหมวดหมู่และเส้นทางการตรวจสอบ | 95-98% |
| ยอดรวมภาษี | สูง | จำเป็นสำหรับการรายงานภาษีและเครดิตภาษีซื้อ | 96-98% |
| วิธีการชำระเงิน | ปานกลาง | มีประโยชน์สำหรับการกระทบยอดกับใบแจ้งยอดบัตร | 93-96% |
| รายการสินค้า | ปานกลาง | จำเป็นสำหรับการจัดหมวดหมู่ค่าใช้จ่ายโดยละเอียด | 88-95% |
| ยอดทิป | ปานกลาง | เกี่ยวข้องกับค่าอาหาร มักเขียนด้วยลายมือ | 85-92% |
| ที่อยู่/โทรศัพท์ | ต่ำ | ไม่ค่อยจำเป็นสำหรับการประมวลผลค่าใช้จ่าย | 90-95% |
เครื่องมือแยกข้อมูลด้วย AI ให้ความแม่นยำสูงสุดอย่างสม่ำเสมอในฟิลด์ที่สำคัญที่สุด — ยอดรวมและวันที่ — เนื่องจากฟิลด์เหล่านี้มีสัญญาณบริบทที่แข็งแกร่ง (ตำแหน่ง, รูปแบบ, ข้อความรอบข้าง) ที่โมเดลสามารถใช้ประโยชน์ได้แม้ว่าตัวอักษรแต่ละตัวจะไม่ชัดเจนก็ตาม
ปัจจัยที่มีผลต่อความแม่นยำ
การทำความเข้าใจว่าอะไรทำให้ความแม่นยำลดลง จะช่วยให้คุณตัดสินใจได้ดีขึ้นว่าเมื่อใดควรเชื่อถือการแยกข้อมูลอัตโนมัติ และเมื่อใดควรตรวจสอบด้วยตนเอง
คุณภาพของภาพ
คุณภาพของภาพเป็นปัจจัยที่ควบคุมได้ใหญ่ที่สุดในความแม่นยำของ OCR ความแตกต่างระหว่างภาพที่ถ่ายอย่างระมัดระวังกับภาพถ่ายอย่างเร่งรีบ อาจส่งผลต่อความแม่นยำของฟิลด์ถึง 15-20 เปอร์เซ็นต์
| ปัจจัย | ผลกระทบต่อความแม่นยำ | สิ่งที่ควรทำ |
|---|---|---|
| ความละเอียด | ต่ำกว่า 200 DPI ความแม่นยำจะลดลงอย่างรวดเร็ว | ใช้ความละเอียดอย่างน้อย 300 DPI; กล้องโทรศัพท์ส่วนใหญ่เกินกว่านี้ |
| แสง | แสงที่ไม่สม่ำเสมอทำให้เกิดปัญหาความเปรียบต่าง | ใช้แสงธรรมชาติที่กระจายตัว หลีกเลี่ยงแสงเหนือศีรษะโดยตรง |
| เงา | เงาจากมือ/โทรศัพท์บดบังข้อความ | จัดตำแหน่งแหล่งกำเนิดแสงไปด้านข้าง ใช้โคมไฟหากจำเป็น |
| แสงแฟลชสะท้อน | กระดาษความร้อนสะท้อนแสง แฟลชทำให้เกิดจุดสว่างจ้า | ปิดแฟลช ใช้แสงโดยรอบแทน |
| โฟกัส | ข้อความเบลอจะอ่านไม่ออกที่ความละเอียดใดๆ | แตะที่ข้อความเพื่อโฟกัส ถือโทรศัพท์ให้นิ่ง |
| มุม | การบิดเบือนมุมมองทำให้ตัวอักษรผิดรูป | ถือกล้องให้อยู่เหนือใบเสร็จโดยตรง ขนานกับพื้นผิว |
| การครอบตัด | พื้นหลังมากเกินไปทำให้การตรวจจับขอบสับสน | ให้ใบเสร็จกินพื้นที่ 80% ของเฟรม |
สภาพกระดาษ
สภาพกระดาษเป็นปัจจัยที่ควบคุมไม่ได้ใหญ่ที่สุด คุณสามารถปรับปรุงคุณภาพของภาพด้วยเทคนิค แต่คุณไม่สามารถทำให้ใบเสร็จที่ซีดจางกลับมาเหมือนเดิมได้
ระยะเวลาการซีดจางของใบเสร็จความร้อนขึ้นอยู่กับสภาพการจัดเก็บอย่างมาก:
-
การจัดเก็บในอุดมคติ (มืด, เย็น, ความชื้น 45-65%): อ่านได้ 5-7 ปีสำหรับเกรดมาตรฐาน, สูงสุด 25 ปีสำหรับกระดาษความร้อนเคลือบพิเศษ
-
สภาวะปกติ (ลิ้นชักโต๊ะ, แฟ้มเอกสาร): 1-3 ปี
-
กระเป๋าสตางค์หรือกระเป๋าเสื้อ: 3-12 เดือน
-
คอนโซลหน้ารถหรือช่องเก็บของ: สัปดาห์ถึงเดือน ขึ้นอยู่กับสภาพอากาศ
-
การโดนแสงแดดโดยตรง: วันถึงสัปดาห์
ข้อสรุปที่นำไปใช้ได้จริงชัดเจน: แปลงใบเสร็จเป็นดิจิทัลภายใน 48 ชั่วโมงหลังจากได้รับ ทุกวันที่ล่าช้าจะลดความแม่นยำสูงสุดที่ทำได้ ใบเสร็จที่สแกนในวันที่ซื้อจะให้ผลลัพธ์ที่เกือบสมบูรณ์แบบ ใบเสร็จเดียวกันที่สแกนในอีกหกเดือนต่อมาอาจสูญเสียความคมชัดของข้อความไป 10-20%
ความยาวและความซับซ้อนของใบเสร็จ
ใบเสร็จที่ยาวกว่าและมีรายการสินค้ามากกว่าจะมีความแม่นยำในระดับเอกสารต่ำกว่า เพียงเพราะมีโอกาสเกิดข้อผิดพลาดมากขึ้น ใบเสร็จร้านกาแฟที่มี 5 รายการ มีโอกาสที่จะถูกต้อง 100% มากกว่าใบเสร็จซูเปอร์มาร์เก็ตที่มี 60 รายการ
| ความยาวใบเสร็จ | จำนวนรายการโดยเฉลี่ย | ความแม่นยำของเอกสาร (AI) | ฟิลด์ที่มีแนวโน้มเกิดข้อผิดพลาดมากที่สุด |
|---|---|---|---|
| สั้น (1-5 รายการ) | 8-15 บรรทัด | 90-95% | ชื่อผู้ขาย (ตัวย่อ) |
| ปานกลาง (6-20 รายการ) | 16-40 บรรทัด | 80-90% | คำอธิบายรายการสินค้า |
| ยาว (21-50 รายการ) | 41-80 บรรทัด | 70-82% | ปริมาณสินค้า, ราคาต่อหน่วย |
| ยาวมาก (50+ รายการ) | 80+ บรรทัด | 55-70% | หลายฟิลด์; ข้อผิดพลาดสะสม |
แบบอักษรและรูปแบบ
ระบบ POS บางระบบใช้แบบอักษรที่กำหนดเองหรือแบบอักษรที่แคบ ซึ่งเป็นความท้าทายอย่างยิ่งสำหรับ OCR เครื่องพิมพ์ใบเสร็จแบบดอทเมทริกซ์ — ซึ่งยังคงพบได้ทั่วไปในปั๊มน้ำมันบางแห่งและร้านค้าปลีกเก่าๆ จะสร้างตัวอักษรที่มีคุณภาพต่ำกว่าเครื่องพิมพ์ความร้อน รูปแบบตัวพิมพ์ใหญ่ทั้งหมด แม้จะอ่านยากสำหรับมนุษย์ แต่จริงๆ แล้วง่ายกว่าสำหรับเอนจิ้น OCR เนื่องจากตัวอักษรตัวพิมพ์ใหญ่มีรูปร่างที่แตกต่างกันมากกว่า
ความแม่นยำตามประเภทใบเสร็จ
ประเภทใบเสร็จที่แตกต่างกันมีความท้าทายเฉพาะตัวและให้โปรไฟล์ความแม่นยำที่แตกต่างกัน
ใบเสร็จร้านอาหาร
ใบเสร็จร้านอาหารเป็นหนึ่งในใบเสร็จที่ท้าทายที่สุดสำหรับ OCR เนื่องจากมักมีส่วนที่เขียนด้วยลายมือ — ยอดทิป ยอดรวม และลายเซ็น การแยกข้อมูลด้วย AI จัดการส่วนที่พิมพ์ได้ดี (ความแม่นยำฟิลด์ 95-98% สำหรับผู้ขาย, วันที่, ยอดรวมย่อย) แต่มีปัญหาในการรู้จำลายมือในบรรทัดทิป (ความแม่นยำ 70-85%) ยอดทิปมักเป็นฟิลด์ที่เขียนด้วยลายมือที่สำคัญทางการเงินที่สุด
แนวทางปฏิบัติที่ดีที่สุด: หากความแม่นยำของทิปมีความสำคัญต่อเวิร์กโฟลว์ของคุณ ให้ตรวจสอบทิปและยอดรวมด้วยตนเอง ฟิลด์ยอดรวมย่อย ภาษี และผู้ขายมักจะเชื่อถือได้โดยไม่ต้องตรวจสอบ
ใบเสร็จร้านค้าปลีกและซูเปอร์มาร์เก็ต
ใบเสร็จร้านค้าปลีกท้าทาย OCR ด้วยปริมาณที่มาก ใบเสร็จซูเปอร์มาร์เก็ตทั่วไปมีรายการสินค้า 30-60 รายการ แต่ละรายการมีคำอธิบาย ปริมาณ และราคา คำอธิบายรายการสินค้ามักใช้ตัวย่อ (เช่น "ORG BNS CHKN" สำหรับ "Organic Boneless Chicken") และอาจมีรหัส SKU ภายในที่ดูเหมือนข้อความที่เสียหายสำหรับเอนจิ้น OCR
ความแม่นยำของฟิลด์สำคัญ (ยอดรวม วันที่ ผู้ขาย) สูงที่ 96-99% ความแม่นยำของรายการสินค้าต่ำกว่าที่ 85-92% เนื่องจากตัวย่อและความไม่สอดคล้องกันของรูปแบบ สำหรับวัตถุประสงค์ในการจัดหมวดหมู่ค่าใช้จ่าย ยอดรวมและผู้ขายมักจะเพียงพอ — คุณไม่ค่อยต้องการให้รายการสินค้าทั้งหมดถูกถอดความอย่างสมบูรณ์แบบ
ใบเสร็จปั๊มน้ำมัน
ใบเสร็จปั๊มน้ำมันสั้นแต่เสื่อมสภาพบ่อยครั้ง ถูกจ่ายจากหัวจ่ายกลางแจ้งที่สัมผัสกับสภาพอากาศ ถูกจัดการด้วยมือที่สวมถุงมือหรือมีไขมัน และมักจะถูกยับทันที กระดาษความร้อนอาจมีคุณภาพต่ำกว่าที่ใช้ในอาคาร ความแม่นยำของฟิลด์สำหรับยอดรวมและวันที่โดยทั่วไปคือ 90-96% สำหรับใบเสร็จสด แต่จะลดลงเร็วกว่าประเภทใบเสร็จอื่นๆ เนื่องจากสัมผัสกับสภาพแวดล้อม
ใบเสร็จออนไลน์และอีเมล
ใบเสร็จดิจิทัล — การยืนยันทางอีเมล, การดาวน์โหลด PDF จากการซื้อออนไลน์, ใบเสร็จอิเล็กทรอนิกส์จากระบบ POS ดิจิทัล — เป็นประเภทที่ง่ายที่สุดสำหรับ OCR มีรูปแบบที่สอดคล้องกัน ความคมชัดสูง ไม่มีการเสื่อมสภาพของกระดาษ และตำแหน่งฟิลด์ที่คาดเดาได้ ความแม่นยำของฟิลด์โดยทั่วไปสูงกว่า 98% สำหรับทุกฟิลด์ และความแม่นยำของเอกสารสูงถึง 92-97%
หากคุณมีตัวเลือกในการรับใบเสร็จดิจิทัล ให้เลือกเสมอ ใบเสร็จเหล่านี้จะช่วยแก้ปัญหาเรื่องกระดาษความร้อนได้อย่างสมบูรณ์และให้ความแม่นยำในการแยกข้อมูลสูงสุด
การเปรียบเทียบตามประเภทใบเสร็จ
| ประเภทใบเสร็จ | ความแม่นยำยอดรวม | ความแม่นยำวันที่ | ความแม่นยำผู้ขาย | ความแม่นยำรายการสินค้า | ค่าเฉลี่ยฟิลด์โดยรวม |
|---|---|---|---|---|---|
| ออนไลน์/อีเมล (PDF) | 99% | 99% | 98% | 96% | 98% |
| ร้านค้าปลีกสด | 98% | 98% | 96% | 90% | 95% |
| ร้านอาหารสด | 97% | 97% | 95% | 92% | 93% |
| ปั๊มน้ำมัน | 95% | 94% | 92% | 88% | 91% |
| ใบเสร็จเก่า (6+ เดือน) | 88% | 87% | 82% | 72% | 82% |
| ซีดจาง/เสียหาย | 72% | 70% | 65% | 50% | 64% |
PDFSub จัดการการสแกนใบเสร็จอย่างไร
เครื่องสแกนใบเสร็จ ของ PDFSub ใช้การแยกข้อมูลด้วย AI เพื่อประมวลผลใบเสร็จในทุกรูปแบบ — การสแกนกระดาษความร้อน, ภาพถ่ายจากโทรศัพท์, การดาวน์โหลด PDF และไฟล์แนบใบเสร็จทางอีเมล
สิ่งที่สกัดได้
เครื่องสแกนใบเสร็จจะระบุและสกัดข้อมูลที่มีโครงสร้างจากใบเสร็จทุกใบ:
- ชื่อและที่อยู่ผู้ขาย — รวมถึงหมายเลขร้านค้าและที่ตั้งหากมี
- วันที่และเวลาทำรายการ — พร้อมการตรวจจับรูปแบบวันที่อัตโนมัติ (MM/DD, DD/MM, YYYY-MM-DD)
- รายการสินค้า — คำอธิบาย, ปริมาณ, ราคาต่อหน่วย, และราคารวมของแต่ละรายการ
- ยอดรวมย่อย, ภาษี, และยอดรวม — แยกเป็นฟิลด์ที่แตกต่างกันเพื่อความแม่นยำทางบัญชี
- วิธีการชำระเงิน — เงินสด, บัตรเครดิต (สี่หลักสุดท้าย), เดบิต, การชำระเงินผ่านมือถือ
- สกุลเงิน — ตรวจจับอัตโนมัติจากสัญลักษณ์และรูปแบบ
การจัดการเลย์เอาต์ที่หลากหลาย
PDFSub ไม่ใช้เทมเพลต เอนจิ้น AI จะวิเคราะห์ใบเสร็จแต่ละใบอย่างอิสระ โดยเข้าใจโครงสร้างเอกสารผ่านบริบท แทนที่จะเป็นการจับคู่พิกัด ซึ่งหมายความว่าสามารถทำงานกับเลย์เอาต์ใบเสร็จใดก็ได้จากผู้ขายรายใดก็ได้ ในประเทศใดก็ได้ โดยไม่จำเป็นต้องมีการกำหนดค่าล่วงหน้า ไม่ว่าคุณจะอัปโหลดใบเสร็จร้านกาแฟจากบรูคลิน, ใบเสร็จร้านขายยาจากมิวนิก, หรือใบเสร็จแท็กซี่จากโตเกียว กระบวนการแยกข้อมูลก็เหมือนกัน
การประมวลผลและความเป็นส่วนตัว
สำหรับใบเสร็จ PDF ดิจิทัล การแยกข้อความเบื้องต้นจะเกิดขึ้นในเบราว์เซอร์ของคุณ — ไม่จำเป็นต้องอัปโหลด สำหรับรูปภาพที่สแกนหรือใบเสร็จที่ต้องการการประมวลผลด้วย AI ไฟล์จะถูกส่งไปยังเอนจิ้นการแยกข้อมูล ประมวลผล และต้นฉบับจะไม่ถูกเก็บรักษาไว้หลังจากกระบวนการแยกข้อมูลเสร็จสมบูรณ์
คุณสามารถทดลองใช้เครื่องสแกนใบเสร็จได้ด้วย ทดลองใช้ฟรี 7 วัน — อัปโหลดใบเสร็จสองสามใบและตรวจสอบผลการแยกข้อมูลกับต้นฉบับเพื่อประเมินความแม่นยำสำหรับประเภทใบเสร็จเฉพาะของคุณ สามารถยกเลิกได้ตลอดเวลา
เคล็ดลับสำหรับการสแกนใบเสร็จให้ดียิ่งขึ้น
คุณสามารถปรับปรุงความแม่นยำในการแยกข้อมูลได้อย่างมากโดยปฏิบัติตามแนวทางง่ายๆ ไม่กี่ข้อเมื่อทำการจับภาพใบเสร็จ
เทคนิคการจับภาพ
-
ใช้แสงธรรมชาติที่กระจายตัว การสแกนใกล้หน้าต่างในตอนกลางวันให้ผลลัพธ์ที่ดีกว่าแสงไฟเหนือศีรษะ เป้าหมายคือการให้แสงสม่ำเสมอโดยไม่มีเงาที่คมชัด
-
วางใบเสร็จบนพื้นผิวที่เรียบและมืด โต๊ะทำงานหรือเคาน์เตอร์ที่มืดจะสร้างความเปรียบต่างที่ช่วยในการตรวจจับขอบและการรู้จำข้อความ หลีกเลี่ยงการสแกนใบเสร็จบนพื้นผิวสีขาว — ขอบจะมองไม่เห็น
-
ถือกล้องให้อยู่เหนือใบเสร็จโดยตรง วางกล้องให้อยู่ขนานกับใบเสร็จเพื่อหลีกเลี่ยงการบิดเบือนมุมมอง แม้แต่มุมเล็กน้อยก็สามารถทำให้ตัวอักษรผิดรูปจนลดความแม่นยำได้
-
ปิดแฟลช กระดาษความร้อนสะท้อนแสง แฟลชกล้องจะสร้างจุดแสงจ้าที่ปรากฏเป็นพื้นที่สีขาวว่างเปล่าสำหรับเอนจิ้น OCR ซึ่งมักจะอยู่เหนือข้อความที่สำคัญที่สุด
-
ให้ใบเสร็จเต็มเฟรม ใบเสร็จควรครอบครองภาพประมาณ 80% พื้นหลังมากเกินไปจะสิ้นเปลืองความละเอียด การครอบตัดที่แคบเกินไปอาจตัดข้อความที่ขอบออก
-
แตะที่ข้อความเพื่อโฟกัส ระบบออโต้โฟกัส มักจะจับโฟกัสที่พื้นผิวกระดาษ แทนที่จะเป็นข้อความที่พิมพ์ออกมา แตะบริเวณข้อความเพื่อให้แน่ใจว่าตัวอักษรคมชัด
-
ทำให้รอยพับและรอยย่นเรียบ กดใบเสร็จให้เรียบก่อนสแกน รอยพับจะสร้างเงาที่ OCR engine อาจตีความว่าเป็นตัวอักษรหรือการขึ้นบรรทัดใหม่ หากใบเสร็จยับมาก ลองกดทับด้วยหนังสือเล่มหนาๆ สักครู่ก่อน
เวลา
-
สแกนภายใน 48 ชั่วโมง ใบเสร็จความร้อนจะเริ่มเสื่อมสภาพทันที ยิ่งคุณจับภาพได้เร็วเท่าไร ความแม่นยำก็จะยิ่งสูงขึ้นเท่านั้น ทำให้การสแกนใบเสร็จเป็นนิสัยประจำวันหรือตอนสิ้นวัน แทนที่จะเป็นการประมวลผลเป็นชุดรายเดือน
-
อย่ารอจนถึงวันรวมยอด การปฏิบัติตามปกติคือการเก็บใบเสร็จไว้เป็นเวลาหนึ่งเดือนแล้วสแกนทั้งหมดในคราวเดียว ซึ่งรับประกันความแม่นยำที่ต่ำลง ใบเสร็จบางใบจะใช้เวลาสี่สัปดาห์ในกระเป๋าสตางค์ กระเป๋าเสื้อ หรือรถยนต์ — สีซีดจางตลอดเวลา
การจัดการไฟล์
-
เก็บภาพต้นฉบับไว้ แม้หลังจากการแยกข้อมูลแล้ว ให้เก็บสแกนหรือรูปถ่ายต้นฉบับไว้ หากคุณต้องการแยกข้อมูลอีกครั้งในภายหลังด้วยเครื่องมือที่ดีขึ้น ภาพต้นฉบับคือแหล่งความจริงของคุณ
-
ใช้รูปแบบ PDF หากเป็นไปได้ หากแอปสแกนเนอร์หรือโทรศัพท์ของคุณมีตัวเลือกเอาต์พุตเป็น PDF ให้เลือกใช้แทน JPEG ไฟล์ PDF จะรักษาคุณภาพที่สูงกว่าและจัดการใบเสร็จหลายหน้า (เช่น ใบเสร็จยาวๆ ของซูเปอร์มาร์เก็ตที่สแกนเป็นสองส่วน)
เมื่อใดที่ควรตรวจสอบด้วยตนเอง
การแยกข้อมูลด้วย AI นั้นดีพอที่จะเชื่อถือได้โดยไม่ต้องคิดสำหรับใบเสร็จที่มีความสำคัญต่ำ เช่น กาแฟราคา 4.50 ดอลลาร์ หรือค่าจอดรถ 12 ดอลลาร์ แต่บางสถานการณ์ก็จำเป็นต้องมีการตรวจสอบด้วยตนเอง
ควรตรวจสอบเสมอสำหรับสิ่งเหล่านี้
- ใบเสร็จที่มีมูลค่าเกิน 500 ดอลลาร์ ผลกระทบทางการเงินของข้อผิดพลาดในการแยกข้อมูลบนใบเสร็จที่มีมูลค่าสูงนั้นคุ้มค่ากับการตรวจสอบด้วยตนเอง 30 วินาที
- ใบเสร็จที่สำคัญต่อภาษี ใบเสร็จใดๆ ที่คุณวางแผนจะใช้ลดหย่อนภาษีควรได้รับการตรวจสอบ กรมสรรพากรต้องการเอกสารสำหรับค่าใช้จ่ายแต่ละรายการที่เกิน 75 ดอลลาร์ และจำนวนเงินที่ไม่ถูกต้องในการลดหย่อนอาจนำไปสู่คำถามในการตรวจสอบ
- ใบเสร็จที่มีลายมือ จำนวนเงินทิป การปรับราคาด้วยตนเอง และบันทึกด้วยลายมือยังคงเป็นจุดอ่อนที่สุดสำหรับการแยกข้อมูลด้วย AI หากใบเสร็จมีลายมือ ให้ตรวจสอบช่องเหล่านั้น
- ใบเสร็จที่ซีดจางหรือเสียหาย หากคุณแทบจะอ่านใบเสร็จด้วยตาเปล่าได้ยาก อย่าเชื่อการแยกข้อมูลด้วย AI โดยไม่ต้องตรวจสอบ ใบเสร็จที่เสื่อมสภาพอย่างรุนแรงควรถือเป็นค่าประมาณมากกว่าเป็นข้อมูลอ้างอิง
- ใบเสร็จสกุลเงินต่างประเทศ การแปลงสกุลเงินและรูปแบบตัวเลขที่ไม่คุ้นเคย (จุด vs. จุลภาคเป็นตัวแบ่งทศนิยม) อาจทำให้เกิดข้อผิดพลาดในการแยกข้อมูล ตรวจสอบจำนวนเงินและสกุลเงินบนใบเสร็จระหว่างประเทศ
ตรวจสอบแบบสุ่มสำหรับสิ่งเหล่านี้
- ใบเสร็จซื้อของชำที่มี 20+ รายการ ตรวจสอบแบบสุ่ม 3-5 รายการ และยืนยันว่ายอดรวมตรงกับผลรวม หากยอดรวมถูกต้อง ข้อผิดพลาดของรายการแต่ละรายการไม่น่าจะส่งผลต่อการรายงานค่าใช้จ่ายของคุณ
- ใบเสร็จจากผู้ขายที่ไม่คุ้นเคย ใบเสร็จใบแรกจากผู้ขายรายใหม่อาจให้ความแม่นยำต่ำกว่าเนื่องจาก AI ยังไม่เคยเห็นรูปแบบนั้นมาก่อน หลังจากตรวจสอบใบเสร็จใบแรกแล้ว ใบเสร็จต่อๆ ไปจากผู้ขายรายเดียวกันมักจะเชื่อถือได้มากกว่า
- ใบเสร็จที่ประมวลผลเป็นชุด หากคุณกำลังประมวลผลใบเสร็จ 50+ ใบพร้อมกัน ให้ตรวจสอบแบบสุ่ม 10-15% หากความแม่นยำสูงอย่างสม่ำเสมอ คุณสามารถเชื่อถือส่วนที่เหลือได้
เชื่อถือได้โดยไม่ต้องตรวจสอบ
- ใบเสร็จดิจิทัล/อีเมล ที่มีรูปแบบสะอาดตาและเค้าโครงมาตรฐาน
- ใบเสร็จใหม่ จากร้านค้าหลักที่ยอดรวมเป็นเลขกลมๆ หรือตรงกับใบแจ้งยอดธนาคารของคุณ
- ใบเสร็จมูลค่าต่ำกว่า 25 ดอลลาร์ ซึ่งค่าใช้จ่ายในการตรวจสอบเกินกว่าค่าใช้จ่ายของข้อผิดพลาดที่อาจเกิดขึ้น