O plug-in OCR da .NET da OCRize extrai texto de PDFs digitalizados ou os converte em documentos pesquisáveis, preservando as imagens originais. Algoritmos avançados identificam com precisão estruturas de texto e tabelas, tornando-o a sua solução ideal para extração de texto em PDF.
OcrInput
.Obtenha os arquivos de montagem correspondentes nas Releases ou baixe o pacote do NuGet para adicionar o OCRize diretamente ao seu espaço de trabalho.
Por padrão, o OCRize pode reconhecer automaticamente uma ampla gama de idiomas com base no alfabeto latino estendido. No entanto, fornecer um idioma específico pode aumentar significativamente a precisão do reconhecimento. Especifique explicitamente o idioma ao reconhecer textos em cirílico, chinês e hindi.
OCRize suporta formatos populares de scanners ou câmeras, incluindo PDF, JPEG, PNG e TIFF. Os resultados do reconhecimento são retornados em texto simples, HTML, Microsoft Word, PDF, JSON e XML.
Boa qualidade de imagem é crucial para OCR preciso. Use um scanner ou câmera de alta resolução. A biblioteca inclui filtros avançados para melhorar automaticamente a qualidade da imagem antes do reconhecimento.