Převod skenovaného PDF na text pomocí OCR

Extrahujte text ze skenovaných PDF nebo je převádějte na prohledávatelné dokumenty. Přečtěte jakékoli rozložení a styl, přesně definujte strukturu textu a tabulek. Zachovejte původní obrázky na pozadí pro udržení obsahu. OCRize - Vaše řešení pro extrakci textu z PDF pro .NET.

OCRizujte naskenovaný PDF na text pro .NET

OCRize’s .NET OCR plug-in extrahuje text z naskenovaných PDF nebo je převádí na prohledávatelné dokumenty, přičemž zachovává původní obrázky. Pokročilé algoritmy přesně identifikují text a struktury tabulek, což z něj činí vaši ideální volbu pro extrakci textu z PDF.

Jak používat plugin pro převod naskenovaného PDF na text

Nainstalujte balíček OCRize z NuGet nebo z místně staženého souboru.
Nastavte své licenční klíče.
Načtěte naskenovaný obrázek do objektu OcrInput.
Vytvořte instanci rozpoznávacího enginu OCRize.
Extrahujte text z naskenovaného PDF souboru.
Výstup zobrazte rozpoznaný text nebo uložte do souboru.

Získejte plugin pro převod naskenovaného PDF na text.

Získejte příslušné soubory sestavení z verzí nebo stáhněte balíček z NuGet, abyste přidali OCRize přímo do svého pracovního prostoru.

Kompatibilní s Microsoft Windows nebo kompatibilním operačním systémem s .NET Standardem 2.0.
Vyžaduje vývojové prostředí jako Microsoft Visual Studio.

Často kladené dotazy

Je specifikace jazyka nezbytná?

Ve výchozím nastavení může OCRize automaticky rozpoznávat širokou škálu jazyků založených na rozšířené latinské abecedě. Specifikování konkrétního jazyka však může výrazně zlepšit přesnost rozpoznávání. Výslovně specifikujte jazyk při rozpoznávání cyrilice, čínských a hindských textů.

Které formáty souborů jsou podporovány?

OCRize podporuje populární formáty ze skenerů nebo fotoaparátů, včetně PDF, JPEG, PNG a TIFF. Výsledky rozpoznávání jsou vraceny v prostém textu, HTML, Microsoft Word, PDF, JSON a XML.

Jak dosáhnout nejlepšího výsledku?

Kvalita obrazu je klíčová pro přesný OCR. Použijte skener nebo fotoaparát s vysokým rozlišením. Knihovna obsahuje pokročilé filtry pro automatické zlepšení kvality obrazu před rozpoznáním.