OCRize’s .NET OCR plug-in trích xuất văn bản từ các tệp PDF đã quét hoặc chuyển đổi chúng thành tài liệu tìm kiếm được, bảo tồn hình ảnh gốc. Các thuật toán tiên tiến xác định chính xác văn bản và cấu trúc bảng, biến nó thành giải pháp lý tưởng cho việc trích xuất văn bản từ PDF.
OcrInput
.Lấy các tệp lắp ráp tương ứng từ phần Phát hành hoặc tải gói từ NuGet để thêm OCRize trực tiếp vào không gian làm việc của bạn.
Mặc định, OCRize có thể tự động nhận diện một loạt các ngôn ngữ dựa trên bảng chữ cái Latin Mở rộng. Tuy nhiên, việc cung cấp một ngôn ngữ cụ thể có thể cải thiện đáng kể độ chính xác nhận diện. Hãy chỉ định rõ ràng ngôn ngữ khi nhận diện các văn bản Cyrillic, Trung Quốc và Hindi.
OCRize hỗ trợ các định dạng phổ biến từ máy quét hoặc máy ảnh, bao gồm PDF, JPEG, PNG và TIFF. Kết quả nhận diện được trả lại dưới dạng văn bản thuần, HTML, Microsoft Word, PDF, JSON và XML.
Chất lượng hình ảnh tốt rất quan trọng cho việc OCR chính xác. Sử dụng máy quét hoặc máy ảnh có độ phân giải cao. Thư viện bao gồm bộ lọc tiên tiến để tự động cải thiện chất lượng hình ảnh trước khi nhận dạng.