Nhận dạng ký tự quang học cho tiếng Việt







25/12/2024

Vui lòng đánh dấu trang này.



Nhận dạng ký tự quang học (OCR) là sự chuyển đổi điện tử hoặc cơ học các hình ảnh của văn bản được đánh máy, viết tay hoặc in sang văn bản được mã hóa bằng máy, cho dù từ tài liệu được quét, ảnh chụp tài liệu, ảnh cảnh (ví dụ: văn bản trên biển hiệu và biển quảng cáo ở dạng ngang ảnh), hoặc từ văn bản phụ đề được xếp chồng lên hình ảnh (ví dụ: từ chương trình truyền hình).

Được sử dụng rộng rãi để nhập dữ liệu từ hồ sơ giấy in - cho dù hộ chiếu, hóa đơn, bảng sao kê ngân hàng, biên lai máy tính, danh thiếp, thư, bản in dữ liệu tĩnh hoặc bất kỳ tài liệu phù hợp nào khác - đó là một phương pháp phổ biến để số hóa văn bản in để chúng có thể được chỉnh sửa điện tử, tìm kiếm, lưu trữ nhỏ gọn hơn, hiển thị trực tuyến và được sử dụng trong các quy trình máy như điện toán nhận thức, dịch máy và (trích xuất) text-to-sp OCR là một trường con của nghiên cứu nhận dạng mẫu bao gồm trí tuệ nhân tạo và thị giác máy tính.

Các phiên bản trước yêu cầu đào tạo với các bức ảnh của các ký tự riêng lẻ và làm việc trên một kiểu chữ duy nhất tại một thời điểm. Các hệ thống tiên tiến có khả năng cung cấp độ chính xác nhận dạng cao cho phần lớn các kiểu chữ hiện đã được phổ biến rộng rãi, cũng như các hệ thống chấp nhận một số định dạng tệp ảnh kỹ thuật số làm đầu vào. Một số hệ thống nhất định có khả năng sao chép đầu ra được định dạng giống với trang gốc nhất có thể, bao gồm đồ họa, cột và các thành phần phi văn bản khác.