OCRize’s .NET OCR плагин извлекает текст из отсканированных PDF-файлов или преобразует их в поисковые документы, сохраняя оригинальные изображения. Продвинутые алгоритмы точно определяют текст и структуру таблиц, что делает его вашим надежным решением для извлечения текста из PDF.
OcrInput
.Получите соответствующие файлы сборки из раздела Releases или загрузите пакет из NuGet, чтобы добавить OCRize непосредственно в ваше рабочее пространство.
По умолчанию, OCRize может автоматически распознавать широкий спектр языков на основе расширенного латинского алфавита. Однако указание конкретного языка может значительно повысить точность распознавания. Явно указывайте язык при распознавании текстов на кириллице, китайском и хинди.
OCRize поддерживает популярные форматы от сканеров или камер, включая PDF, JPEG, PNG и TIFF. Результаты распознавания возвращаются в виде простого текста, HTML, Microsoft Word, PDF, JSON и XML.
Хорошее качество изображения имеет решающее значение для точного OCR. Используйте сканер или камеру с высоким разрешением. Библиотека включает в себя продвинутые фильтры для автоматического улучшения качества изображения перед распознаванием.