Сканований PDF до тексту OCR

Витягайте текст з відсканованих PDF-файлів або перетворюйте їх на пошукові документи. Читайте будь-яку розкладку та стиль, точно визначайте структуру тексту та таблиць. Зберігайте оригінальні зображення на фоні для збереження змісту. OCRize - Ваше рішення для витягування тексту з PDF для .NET.

OCRізувати сканований PDF в текст для .NET

OCRize’s .NET OCR plug-in витягує текст з масштабованих PDF-документів або перетворює їх у пошукові документи, зберігаючи оригінальні зображення. Сучасні алгоритми точно визначають текст та структури таблиць, роблячи його вашим надійним рішенням для витягування тексту з PDF.

Як використовувати плагін для перетворення зісканованого PDF у текст

Встановіть пакет OCRize з NuGet або з локально завантаженого файлу.
Встановіть свої ключі ліцензії.
Завантажте отсканований зображення в об’єкт OcrInput.
Створити екземпляр двигуна розпізнавання OCRize.
Витягніть текст з відсканованого PDF.
Виведіть визнаний текст або збережіть його у файл.

Отримайте модуль перетворення отсканованого PDF-файлу на текст.

Отримайте відповідні файли збірки з релізів або завантажте пакет з NuGet, щоб безпосередньо додати OCRize до вашого робочого простору.

Сумісний з Microsoft Windows або сумісною ОС з .NET Standard 2.0
Потребує середовища розробки, такого як Microsoft Visual Studio.

Часті Питання

Чи обов’язково вказувати мову?

За замовчуванням, OCRize може автоматично розпізнавати широкий спектр мов на основі розширеного латинського алфавіту. Однак надання конкретної мови може суттєво підвищити точність розпізнавання. Явно вказуйте мову під час розпізнавання текстів кирилицею, китайською та гінді.

Які формати файлів підтримуються?

OCRize підтримує популярні формати з сканерів або камер, включаючи PDF, JPEG, PNG та TIFF. Результати розпізнавання повертаються у вигляді простого тексту, HTML, Microsoft Word, PDF, JSON та XML.

Як досягти кращого результату?

Якісне зображення - це ключовий фактор для точного OCR. Використовуйте сканер або камеру високої роздільної здатності. Бібліотека містить розширені фільтри для автоматичного покращення якості зображення перед розпізнаванням.