ปลั๊กอิน OCR ของ OCRize ใน .NET สามารถดึงข้อความจาก PDF ที่สแกนหรือแปลงเป็นเอกสารที่ค้นหาได้ โดยรักษาภาพต้นฉบับไว้ อัลกอริธึมขั้นสูงสามารถระบุข้อความและโครงสร้างตารางได้อย่างแม่นยำ ทำให้เป็นโซลูชันที่คุณควรใช้สำหรับการดึงข้อความจาก PDF.
OcrInput
รับไฟล์ assembly ที่เกี่ยวข้องจาก Releases หรือดาวน์โหลดแพ็กเกจจาก NuGet เพื่อเพิ่ม OCRize โดยตรงเข้าสู่พื้นที่ทำงานของคุณ。
โดยปกติแล้ว OCRize สามารถจดจำภาษาได้หลากหลายชนิดโดยอัตโนมัติตามอักษรละตินที่ขยาย อย่างไรก็ตาม การระบุภาษาที่เฉพาะเจาะจงสามารถเพิ่มความแม่นยำในการจดจำได้อย่างมาก ระบุภาษาที่ชัดเจนเมื่อทำการจดจำข้อความในอักษรซีริลลิก จีน และฮินดี
OCRize รองรับรูปแบบที่นิยมจากสแกนเนอร์หรือกล้อง รวมถึง PDF, JPEG, PNG และ TIFF ผลลัพธ์การรู้จำจะถูกส่งคืนในรูปแบบข้อความธรรมดา, HTML, Microsoft Word, PDF, JSON และ XML.
คุณภาพภาพที่ดีเป็นสิ่งสำคัญสำหรับ OCR ที่แม่นยำ ใช้สแกนเนอร์หรือกล้องความละเอียดสูง ห้องสมุดมีตัวกรองขั้นสูงเพื่อปรับปรุงคุณภาพภาพโดยอัตโนมัติก่อนการระบบจดจำการแปลงเอกสาร