OCR là gì?
OCR (Nhận dạng ký tự quang học) là công nghệ tự động chuyển đổi văn bản trong hình ảnh thành dữ liệu văn bản số. Khi bạn chụp ảnh hóa đơn, nó có thể tự động đọc và trích xuất ngày tháng, số tiền, tên nhà cung cấp và nhiều thông tin khác.
OCR truyền thống có những hạn chế về độ chính xác, nhưng những tiến bộ gần đây trong công nghệ AI đã cho phép đọc chữ viết tay và hóa đơn có bố cục phức tạp với độ chính xác cao.
Lợi ích của việc sử dụng OCR
Tiết kiệm thời gian đáng kể
Nhập liệu thủ công mất 1-2 phút cho mỗi hóa đơn. Với OCR, chỉ mất vài giây. Với 100 hóa đơn, bạn tiết kiệm hơn 2 giờ.
Ít lỗi nhập liệu hơn
Nhập liệu thủ công dễ mắc lỗi đánh máy, đặc biệt với số. OCR giảm đáng kể lỗi do con người.
Ghi nhận theo thời gian thực
Chụp ảnh ngay khi nhận hóa đơn và việc nhập liệu đã xong. Không còn "để sau sẽ sắp xếp".
Phân loại tự động
AI-OCR có thể tự động xác định danh mục chi phí từ nội dung đã đọc. Làm cho việc kế toán dễ dàng hơn.
OCR truyền thống vs AI-OCR
| OCR truyền thống | AI-OCR | |
|---|---|---|
| Nhận dạng ký tự | Độ chính xác cao chỉ với văn bản in | Xử lý được chữ viết tay và mờ |
| Xử lý bố cục | Chỉ định dạng cố định | Xử lý được nhiều bố cục khác nhau |
| Hiểu ngữ nghĩa | Chỉ đọc văn bản | Nhận diện số tiền, ngày, nhà cung cấp |
| Phân loại tự động | Không | Tự động xác định danh mục chi phí |
| Học và cải thiện | Quy tắc cố định | Cải thiện theo thời gian sử dụng |
Cách AI-OCR hoạt động
AI-OCR sử dụng mạng nơ-ron được huấn luyện trên lượng lớn hình ảnh hóa đơn. Thay vì chỉ đơn giản đọc văn bản, nó hiểu cấu trúc hóa đơn và nhận ra vị trí của các thông tin cụ thể.
Các bước xử lý của AI-OCR
- 1
Tiền xử lý hình ảnh
Cải thiện độ chính xác thông qua hiệu chỉnh độ nghiêng, loại bỏ nhiễu và điều chỉnh độ tương phản
- 2
Phát hiện vùng văn bản
Xác định các vùng chứa văn bản trong hóa đơn
- 3
Nhận dạng ký tự
Deep learning nhận dạng ký tự với độ chính xác cao
- 4
Cấu trúc hóa thông tin
Tự động phân loại ngày, số tiền, nhà cung cấp và các mục thành dữ liệu có cấu trúc
- 5
Ước tính danh mục
Tự động ước tính danh mục chi phí phù hợp từ nội dung
AI-OCR của Denpyo trích xuất những gì
Ngày
Ngày mua/giao dịch
Số tiền
Bao gồm/không bao gồm thuế
Nhà cung cấp
Tên cửa hàng/công ty
Mặt hàng
Hàng hóa/dịch vụ đã mua
Danh mục
Ước tính tự động
Thuế
Thuế suất và số tiền
Mẹo để OCR chính xác hơn
Chụp ảnh trong điều kiện ánh sáng tốt
Bóng và ánh sáng mờ làm giảm độ chính xác. Đặt hóa đơn phẳng ở nơi có ánh sáng tốt.
Chụp toàn bộ hóa đơn
Cắt mép có nghĩa là mất thông tin. Đảm bảo toàn bộ hóa đơn nằm trong khung hình.
Chụp từ phía trên trực tiếp
Chụp nghiêng góc gây méo hình. Giữ điện thoại vuông góc với hóa đơn.
Chụp hóa đơn sớm
Văn bản trên hóa đơn nhiệt mờ dần theo thời gian. Chụp ngay khi nhận được.