Сканированный PDF в текст OCR

Извлекайте текст из отсканированных PDF-документов или преобразуйте их в доступные для поиска документы. Читайте любой макет и стиль, точно определяйте структуру текста и таблиц. Сохраняйте оригинальные изображения на заднем плане для сохранения содержания. OCRize - Ваше решение для извлечения текста из PDF для .NET.

OCRize Scanned PDF to Text для .NET

OCRize’s .NET OCR плагин извлекает текст из отсканированных PDF-файлов или преобразует их в поисковые документы, сохраняя оригинальные изображения. Продвинутые алгоритмы точно определяют текст и структуру таблиц, что делает его вашим надежным решением для извлечения текста из PDF.

Как использовать плагин Scanned PDF to Text

Установите пакет OCRize из NuGet или из локально загруженного файла.
Установите ключи лицензии.
Загрузите отсканированное изображение в объект OcrInput.
Создайте экземпляр движка распознавания OCRize.
Извлеките текст из отсканированного PDF.
Вывести распознанный текст или сохранить его в файл.

Сканированный PDF в текстовый конвертер плагин

Получите соответствующие файлы сборки из раздела Releases или загрузите пакет из NuGet, чтобы добавить OCRize непосредственно в ваше рабочее пространство.

Совместимо с Microsoft Windows или совместимой ОС с .NET Standard 2.0
Требует среды разработки, такой как Microsoft Visual Studio.

Часто задаваемые вопросы

Необходимо ли указывать язык?

По умолчанию, OCRize может автоматически распознавать широкий спектр языков на основе расширенного латинского алфавита. Однако указание конкретного языка может значительно повысить точность распознавания. Явно указывайте язык при распознавании текстов на кириллице, китайском и хинди.

Какие форматы файлов поддерживаются?

OCRize поддерживает популярные форматы от сканеров или камер, включая PDF, JPEG, PNG и TIFF. Результаты распознавания возвращаются в виде простого текста, HTML, Microsoft Word, PDF, JSON и XML.

Как добиться наилучшего результата?

Хорошее качество изображения имеет решающее значение для точного OCR. Используйте сканер или камеру с высоким разрешением. Библиотека включает в себя продвинутые фильтры для автоматического улучшения качества изображения перед распознаванием.