Le plug-in OCR .NET d’OCRize extrait du texte à partir d’images contenant de grandes quantités de texte structuré, comme des contrats scannés, des accords, des pages de livres, des articles, des journaux, et plus encore. Le moteur de reconnaissance détermine avec précision la structure du document, vous permettant de travailler avec des mises en page complexes, y compris du texte en plusieurs colonnes.
OcrInput
.Obtenez les fichiers d’assemblage respectifs à partir des versions ou téléchargez le package depuis NuGet pour ajouter OCRize directement à votre espace de travail.
Par défaut, OCRize peut automatiquement reconnaître un large éventail de langues basées sur l’alphabet latin étendu. Cependant, fournir une langue spécifique peut améliorer considérablement la précision de la reconnaissance. Spécifiez explicitement la langue lors de la reconnaissance de textes en cyrillique, chinois et hindi.
OCRize prend en charge les formats populaires des scanners ou des caméras, y compris PDF, JPEG, PNG et TIFF. Les résultats de reconnaissance sont renvoyés en texte brut, HTML, Microsoft Word, PDF, JSON et XML.
Bonne qualité d’image est crucial pour une OCR précise. Utilisez un scanner ou un appareil photo haute résolution. La bibliothèque inclut des filtres avancés pour améliorer automatiquement la qualité de l’image avant la reconnaissance.