Rất nhiều doanh nghiệp phải dừng bước trên con đường số hóa tài liệu khi gặp phải những tài liệu, hóa đơn, giấy tờ được biên soạn bằng chữ, số viết tay. Nguyên nhân bởi công nghệ OCR truyền thống không thể nhận diện được các mẫu chữ viết tay hoặc dữ liệu chữ viết tay quá lớn (mỗi người một kiểu chữ). Để giải quyết vấn đề đó, các doanh nghiệp công nghệ lần lượt cho ra đời các công nghệ, phần mềm nhận dạng chữ viết tay. Nhưng đâu mới là phần mềm tốt nhất và có thể đáp ứng được nhu cầu số hóa tài liệu của doanh nghiệp?
Tổng quan về công nghệ nhận dạng chữ viết tay
Nhận dạng chữ viết tay (Handwriting recognition – HWR), còn được gọi là Nhận dạng văn bản viết tay (Handwritten Text Recognition – HTR), là khả năng máy tính nhận và giải thích dữ liệu chữ viết tay dễ hiểu từ các nguồn như tài liệu giấy, ảnh, màn hình cảm ứng và các thiết bị khác. Hình ảnh của văn bản viết có thể được cảm nhận “tắt dòng” từ một mảnh giấy bằng cách quét quang học (nhận dạng ký tự quang học) hoặc nhận dạng từ thông minh. Ngoài ra, các chuyển động của đầu bút có thể được cảm nhận “trên đường”, ví dụ như bề mặt màn hình máy tính dựa trên bút, một công việc thường dễ dàng hơn vì có nhiều manh mối hơn. Một hệ thống nhận dạng chữ viết xử lý định dạng, thực hiện phân đoạn chính xác thành các ký tự và tìm các từ hợp lý nhất.
Nhận dạng chữ viết tay được coi là một phiên bản nâng cấp hơn của công nghệ nhận dạng chữ quang học OCR. Một công nghệ vốn được biết đến nhờ khả năng nhận dạng chữ in từ hình ảnh.
Ngày nay, công nghệ nhận dạng chữ viết tay (ICR) ngày càng được ứng dụng phổ biến hơn. Nó góp phần không nhỏ vào các công tác số hóa tài liệu, sổ đỏ, hộ khẩu,…
Các phần mềm nhận dạng chữ viết tay hoạt động như thế nào?
ICR là một công nghệ mở rộng của Nhận dạng ký tự quang học (OCR) tập trung vào các ký tự văn bản in. Trong khi đó, các dịch vụ ICR cho phép hệ thống máy tính học các kiểu và phông chữ viết tay khác nhau để cải thiện độ chính xác và nhận dạng văn bản.
Phần mềm ICR được tích hợp vào một hệ thống nhận đầu vào của một tài liệu viết tay. Nó quét thông tin và trích xuất dữ liệu từ các tài liệu. Chúng ta hãy hiểu hoạt động của công nghệ nhận dạng chữ viết tay trong trường hợp sử dụng xác minh tài liệu số của một ngân hàng .
– Người dùng cuối sẽ hiển thị ID của họ trước máy ảnh. Phần mềm ICR sẽ quét tài liệu và trích xuất thông tin từ ID (Tên, DoB, v.v.)
– Người dùng cũng có thể được yêu cầu tải lên bản chấp thuận viết tay (theo hướng dẫn của hệ thống). Văn bản đồng ý sẽ được quét và trích xuất.
– Cả thông tin trích xuất sẽ được xác minh và dữ liệu, cũng như kết quả, sẽ được gửi đến ngân hàng.
Quá trình trích xuất dữ liệu tự động giúp doanh nghiệp loại bỏ các khâu nhập dữ liệu tốn kém thời gian và không hiệu quả. Không chỉ tiết kiệm thời gian mà còn tiết kiệm chi phí thuê nhân viên cho công việc nhập liệu. Dữ liệu được trích xuất có thể được sử dụng thêm trong một hệ thống luồng dữ liệu tự động có thể giúp các doanh nghiệp đảm bảo mô hình hóa dự đoán trên các tập dữ liệu lớn để làm cho hệ thống hiệu quả hơn và được tối ưu hóa.
Ứng dụng của công nghệ nhận dạng chữ viết tay
Phần mềm ICR được phát minh bởi Joseph Corcoran vào năm 1993 với mục đích xử lý biểu mẫu tự động. Quá trình này bao gồm ba giai đoạn, trong đó hình ảnh tài liệu được phần mềm chụp và xử lý, sau đó thông tin được trích xuất bằng công cụ ICR và trong giai đoạn cuối cùng, kết quả được xử lý để xác nhận đầu ra đó một cách tự động.
Cùng với thời gian, phát minh này đã được chứng minh là có hiệu quả đối với nhiều ứng dụng kinh doanh trong thế giới thực. Ngày nay, phần mềm kinh doanh hiện đại sử dụng dịch vụ ICR để điền biểu mẫu tự động. Trước ICR, việc xác định dữ liệu phi cấu trúc là một quá trình phức tạp. Tuy nhiên, hiện nay các công nghệ đổi mới có khả năng tự động hóa quá trình trích xuất dữ liệu cho dù nó là dạng chữ viết tay có cấu trúc, không có cấu trúc hay chữ thảo. Phần mềm ICR có các ứng dụng sau ở cấp độ công nghiệp:
- Hệ thống Nhận dạng Ký tự Thông minh được sử dụng bởi Tự động hóa Quy trình Robot (RPA) trên toàn thế giới.
- Để tối ưu hóa các hoạt động tại nơi làm việc, ICR được sử dụng trong các ứng dụng của Nhận dạng Dấu hiệu Quang học (OMR).
- Phần mềm ICR được sử dụng để thu thập dữ liệu trong môi trường điện tử.
- Xác minh tài liệu điện tử để xác minh danh tính của cá nhân trực tuyến. Ứng dụng này hầu hết được sử dụng trong các ngân hàng và viện tài chính.
- Xác minh sự đồng ý viết tay trong môi trường kỹ thuật số.
- Phần mềm ICR được sử dụng để tự động hóa quy trình nhập dữ liệu thủ công ở cấp độ công nghiệp.
Phần mềm nhận dạng chữ viết tay nào tốt nhất hiện nay?
Nhằm phục vụ cho quá trình số hóa doanh nghiệp, tổ chức. FSI đã nghiên cứu và ra mắt Công nghệ nhận dạng và bóc tách chữ, số viết tay H-IONE. H-IONE là giải pháp công nghệ nhận dạng chữ, số viết tay, được sử dụng trong việc nhận dạng, bóc tách, trích xuất thông tin tự động từ các hồ sơ, tài liệu dạng biểu mẫu có trường thông tin được điền bằng tay tại các vị trí cố định (tờ khai, phiếu đăng ký, bài kiểm tra, phiếu điều tra,…)
Tính năng của H-IONE
H-IONE sở hữu những tính năng tốt nhất của những công nghệ, phẩm mềm nhận dạng chữ viết tay ICR:
- Nhận dạng số viết tay
- Nhận dạng một chữ cái viết tay rời rạc hoặc liền nhau
- Nhận dạng từ viết tay rời rạc hoặc liền nhau
- Phân hoạch chữ viết tay
- Xác thực giấy tờ (CMT, sổ đỏ, hộ chiếu, bằng lái xe,…)
Ưu điểm của H-IONE
- Khả năng nhân dạng cao: Nhận dạng các trường thông tin số viết tay chính xác tới 98%, nhận dạng chữ viết tay chính xác 90%
- Ứng dụng công nghệ OCR: Đọc và trích xuất các thông tin trên giấy tờ, tự động hóa quy trình điền thông tin của người dùng, rút ngắn thời gian nhập liệu, giảm thiểu sai sót
- Ứng dụng Deep Learning: Giúp tự động chỉnh sửa để nâng cao độ chính xác cao
- Ứng dụng Machine Learning: Nhận dạng chữ in trên các tài liệu dạng ảnh, bóc tách trường thông tin cần thiết trên văn bản, form mẫu
- Ứng dụng xử lý ngôn ngữ tự nhiên (NLP): Đối với chữ viết tay Tiếng Việt, chữ số, nhận dạng chữ cái trong ô, chữ viết tay rời rạc trong ô vuông theo form biểu mẫu, một từ viết tay liền…