Le plug-in OCR de .NET d’OCRize extrait le texte des PDF numérisés ou les convertit en documents consultables, préservant les images originales. Des algorithmes avancés identifient avec précision le texte et les structures de tableau, en faisant votre solution de choix pour l’extraction de texte PDF.
OcrInput
.Obtenez les fichiers d’assemblage respectifs à partir des versions ou téléchargez le package depuis NuGet pour ajouter OCRize directement à votre espace de travail.
Par défaut, OCRize peut automatiquement reconnaître un large éventail de langues basées sur l’alphabet latin étendu. Cependant, fournir une langue spécifique peut améliorer considérablement la précision de la reconnaissance. Spécifiez explicitement la langue lors de la reconnaissance de textes en cyrillique, chinois et hindi.
OCRize prend en charge les formats populaires des scanners ou des caméras, y compris PDF, JPEG, PNG et TIFF. Les résultats de reconnaissance sont renvoyés en texte brut, HTML, Microsoft Word, PDF, JSON et XML.
Bonne qualité d’image est crucial pour une OCR précise. Utilisez un scanner ou un appareil photo haute résolution. La bibliothèque inclut des filtres avancés pour améliorer automatiquement la qualité de l’image avant la reconnaissance.