Chuyển đổi PDF quét sang Văn bản OCR

Trích xuất văn bản từ PDF quét hoặc chuyển đổi chúng thành tài liệu có thể tìm kiếm. Đọc bất kỳ bố cục và kiểu dáng nào, xác định chính xác cấu trúc của văn bản và bảng. Bảo tồn hình ảnh gốc ở nền để giữ lại nội dung. OCRize - Giải pháp trích xuất văn bản PDF của bạn cho .NET.

Chuyển đổi PDF quét thành văn bản cho .NET

OCRize’s .NET OCR plug-in trích xuất văn bản từ các tệp PDF đã quét hoặc chuyển đổi chúng thành tài liệu tìm kiếm được, bảo tồn hình ảnh gốc. Các thuật toán tiên tiến xác định chính xác văn bản và cấu trúc bảng, biến nó thành giải pháp lý tưởng cho việc trích xuất văn bản từ PDF.

Cách sử dụng Plugin PDF đã quét thành văn bản

Cài đặt gói OCRize từ NuGet hoặc một tệp được tải xuống cục bộ.
Đặt khóa giấy phép của bạn.
Tải một hình ảnh đã quét vào đối tượng OcrInput.
Tạo một phiên bản của engine nhận diện OCRize.
Trích xuất văn bản từ PDF được quét.
Đầu ra văn bản được nhận diện hoặc lưu vào một tệp.

Nhận Plugin Chuyển đổi PDF quét thành văn bản

Lấy các tệp lắp ráp tương ứng từ phần Phát hành hoặc tải gói từ NuGet để thêm OCRize trực tiếp vào không gian làm việc của bạn.

Tương thích với Microsoft Windows hoặc một hệ điều hành tương thích với .NET Standard 2.0
Yêu cầu một môi trường phát triển như Microsoft Visual Studio.

Câu Hỏi Thường Gặp

Có cần phải chỉ định một ngôn ngữ không?

Mặc định, OCRize có thể tự động nhận diện một loạt các ngôn ngữ dựa trên bảng chữ cái Latin Mở rộng. Tuy nhiên, việc cung cấp một ngôn ngữ cụ thể có thể cải thiện đáng kể độ chính xác nhận diện. Hãy chỉ định rõ ràng ngôn ngữ khi nhận diện các văn bản Cyrillic, Trung Quốc và Hindi.

Các định dạng tệp nào được hỗ trợ?

OCRize hỗ trợ các định dạng phổ biến từ máy quét hoặc máy ảnh, bao gồm PDF, JPEG, PNG và TIFF. Kết quả nhận diện được trả lại dưới dạng văn bản thuần, HTML, Microsoft Word, PDF, JSON và XML.

Cách đạt được kết quả tốt nhất là gì?

Chất lượng hình ảnh tốt rất quan trọng cho việc OCR chính xác. Sử dụng máy quét hoặc máy ảnh có độ phân giải cao. Thư viện bao gồm bộ lọc tiên tiến để tự động cải thiện chất lượng hình ảnh trước khi nhận dạng.