El complemento OCR de .NET de OCRize extrae texto de archivos PDF escaneados o los convierte en documentos de búsqueda, preservando las imágenes originales. Algoritmos avanzados identifican con precisión el texto y las estructuras de tabla, lo que lo convierte en su solución ideal para la extracción de texto de PDF.
OcrInput
.Obtén los archivos de ensamblado respectivos de las versiones o descarga el paquete desde NuGet para agregar OCRize directamente a tu espacio de trabajo.
Por defecto, OCRize puede reconocer automáticamente una amplia gama de idiomas basados en el alfabeto latino extendido. Sin embargo, proporcionar un idioma específico puede mejorar significativamente la precisión del reconocimiento. Especifica explícitamente el idioma al reconocer textos en cirílico, chino e hindi.
OCRize admite formatos populares de escáneres o cámaras, incluidos PDF, JPEG, PNG y TIFF. Los resultados del reconocimiento se devuelven en texto sin formato, HTML, Microsoft Word, PDF, JSON y XML.
Buena calidad de imagen es crucial para una OCR precisa. Utilice un escáner o una cámara de alta resolución. La biblioteca incluye filtros avanzados para mejorar automáticamente la calidad de imagen antes de la reconocimiento.