Il plug-in OCR di OCRize per .NET estrae testo da PDF scansionati o li converte in documenti ricercabili, preservando le immagini originali. Algoritmi avanzati identificano con precisione il testo e le strutture delle tabelle, rendendolo la tua soluzione ideale per l’estrazione di testo da PDF.
OcrInput
.Ottieni i rispettivi file di assemblaggio dalle Release o scarica il pacchetto da NuGet per aggiungere OCRize direttamente al tuo spazio di lavoro.
Per impostazione predefinita, OCRize può riconoscere automaticamente un’ampia gamma di lingue basate sull’alfabeto latino esteso. Tuttavia, fornire una lingua specifica può migliorare significativamente l’accuratezza del riconoscimento. Specifica esplicitamente la lingua quando riconosci testi in cirillico, cinese e hindi.
OCRize supporta formati popolari da scanner o fotocamere, inclusi PDF, JPEG, PNG e TIFF. I risultati del riconoscimento vengono restituiti in testo semplice, HTML, Microsoft Word, PDF, JSON e XML.
Buona qualità dell’immagine è cruciale per un’OCR accurata. Utilizza uno scanner o una fotocamera ad alta risoluzione. La libreria include filtri avanzati per migliorare automaticamente la qualità dell’immagine prima del riconoscimento.