OCRize’s .NET OCR-Plugin extrahiert Text aus gescannten PDFs oder wandelt sie in durchsuchbare Dokumente um, wobei die ursprünglichen Bilder erhalten bleiben. Fortschrittliche Algorithmen identifizieren Texte und Tabellenstrukturen genau und machen es zu Ihrer bevorzugten Lösung für die Textextraktion aus PDFs.
OcrInput
-Objekt.Holen Sie sich die entsprechenden Assemblierungsdateien aus den Releases oder laden Sie das Paket von NuGet herunter, um OCRize direkt in Ihre Arbeitsumgebung hinzuzufügen.
Standardmäßig kann OCRize automatisch eine Vielzahl von Sprachen basierend auf dem erweiterten lateinischen Alphabet erkennen. Das Bereitstellen einer spezifischen Sprache kann jedoch die Erkennungsgenauigkeit erheblich verbessern. Geben Sie die Sprache ausdrücklich an, wenn Sie kyrillische, chinesische und Hindi-Texte erkennen.
OCRize unterstützt gängige Formate von Scannern oder Kameras, einschließlich PDF, JPEG, PNG und TIFF. Die Erkennungsergebnisse werden in Plaintext, HTML, Microsoft Word, PDF, JSON und XML zurückgegeben.
Gute Bildqualität ist entscheidend für eine präzise OCR. Verwenden Sie einen Scanner oder eine Kamera mit hoher Auflösung. Die Bibliothek enthält fortschrittliche Filter, um die Bildqualität vor der Erkennung automatisch zu verbessern.