OCRize’s .NET OCR plug-in wyodrębnia tekst z zeskanowanych plików PDF lub przekształca je w dokumenty przeszukiwalne, zachowując oryginalne obrazy. Zaawansowane algorytmy dokładnie identyfikują tekst i struktury tabel, co czyni go idealnym rozwiązaniem do wyodrębniania tekstu z PDF.
OcrInput
.Pobierz odpowiednie pliki assembly z sekcji Releases lub pobierz paczkę z NuGet, aby dodać OCRize bezpośrednio do swojego obszaru roboczego.
Domyślnie, OCRize może automatycznie rozpoznawać szeroki zakres języków opartych na rozszerzonej alfabetze łacińskim. Jednak podanie konkretnego języka może znacznie poprawić dokładność rozpoznawania. Wyraźnie określ język przy rozpoznawaniu tekstów cyrylicznych, chińskich i hindi.
OCRize wspiera popularne formaty z skanerów lub aparatów, w tym PDF, JPEG, PNG i TIFF. Wyniki rozpoznawania są zwracane w formacie prostego tekstu, HTML, Microsoft Word, PDF, JSON i XML.
Dobra jakość obrazu jest kluczowa dla dokładnego OCR. Użyj skanera lub aparatu o wysokiej rozdzielczości. Biblioteka zawiera zaawansowane filtry, które automatycznie poprawiają jakość obrazu przed rozpoznaniem.