OCRize’s .NET OCR plug-in extrahuje text z naskenovaných PDF nebo je převádí na prohledávatelné dokumenty, přičemž zachovává původní obrázky. Pokročilé algoritmy přesně identifikují text a struktury tabulek, což z něj činí vaši ideální volbu pro extrakci textu z PDF.
OcrInput
.Získejte příslušné soubory sestavení z verzí nebo stáhněte balíček z NuGet, abyste přidali OCRize přímo do svého pracovního prostoru.
Ve výchozím nastavení může OCRize automaticky rozpoznávat širokou škálu jazyků založených na rozšířené latinské abecedě. Specifikování konkrétního jazyka však může výrazně zlepšit přesnost rozpoznávání. Výslovně specifikujte jazyk při rozpoznávání cyrilice, čínských a hindských textů.
OCRize podporuje populární formáty ze skenerů nebo fotoaparátů, včetně PDF, JPEG, PNG a TIFF. Výsledky rozpoznávání jsou vraceny v prostém textu, HTML, Microsoft Word, PDF, JSON a XML.
Kvalita obrazu je klíčová pro přesný OCR. Použijte skener nebo fotoaparát s vysokým rozlišením. Knihovna obsahuje pokročilé filtry pro automatické zlepšení kvality obrazu před rozpoznáním.