OCRize’s .NET OCR plug-in trích xuất văn bản từ các bảng quét hoặc chụp ảnh. Các thuật toán máy học tiên tiến và các mạng nơ-ron được đào tạo đặc biệt xác định chính xác cấu trúc của các bảng, trích xuất văn bản từ các ô, và tổ chức nó thành các bảng tính có thể tìm kiếm và chỉnh sửa.
OcrInput
.Lấy các tệp lắp ráp tương ứng từ phần Phát hành hoặc tải gói từ NuGet để thêm OCRize trực tiếp vào không gian làm việc của bạn.
Mặc định, OCRize có thể tự động nhận diện một loạt các ngôn ngữ dựa trên bảng chữ cái Latin Mở rộng. Tuy nhiên, việc cung cấp một ngôn ngữ cụ thể có thể cải thiện đáng kể độ chính xác nhận diện. Hãy chỉ định rõ ràng ngôn ngữ khi nhận diện các văn bản Cyrillic, Trung Quốc và Hindi.
OCRize hỗ trợ các định dạng phổ biến từ máy quét hoặc máy ảnh, bao gồm PDF, JPEG, PNG và TIFF. Kết quả nhận diện được trả lại dưới dạng văn bản thuần, HTML, Microsoft Word, PDF, JSON và XML.
Chất lượng hình ảnh tốt rất quan trọng cho việc OCR chính xác. Sử dụng máy quét hoặc máy ảnh có độ phân giải cao. Thư viện bao gồm bộ lọc tiên tiến để tự động cải thiện chất lượng hình ảnh trước khi nhận dạng.