1. 产品
  2.   将扫描的 PDF 转换为文本

转换扫描PDF为文本OCR

从扫描的PDF中提取文本或将其转换为可搜索的文档。准确读取任何布局和样式,清晰定义文本和表格的结构。保留背景中的原始图像以保持内容完整性。OCRize - 您的.NET PDF文本提取解决方案。

将OCR化扫描的PDF转换为文本用于.NET

OCRize 的.NET OCR 插件从扫描的 PDF 中提取文本或将其转换为可搜索的文档,同时保留原始图像。先进的算法准确识别文本和表格结构,使其成为 PDF 文本提取的首选解决方案。

如何使用掃描PDF轉文字插件

  • 从NuGet或本地下载的文件安装OCRize包。
  • 设置您的许可证密钥。
  • 将扫描的图像加载到 OcrInput 对象中。
  • 创建OCRize识别引擎的实例。
  • 从扫描的PDF中提取文本。
  • 输出识别的文本或将其保存到文件中。

获取扫描PDF转文本转换器插件

获取相应的程序集文件从发布版本中,或者从 NuGet 获取包,以直接将 OCRize 添加到您的工作区。

  • 与Microsoft Windows或具有.NET Standard 2.0的兼容操作系统兼容。
  • 需要像Microsoft Visual Studio这样的开发环境。

常见问题

在文本中指定语言是否必要?

默认情况下,OCRize 可以自动识别基于扩展拉丁字母的广泛语言。然而,提供特定的语言可以显著提高识别准确性。在识别西里尔文、中文和印地语文本时,请明确指定语言。

支持哪些文件格式?

OCRize 支持来自扫描仪或相机的热门格式,包括 PDF、JPEG、PNG 和 TIFF。识别结果以纯文本、HTML、Microsoft Word、PDF、JSON 和 XML 的形式返回。

如何实现最佳结果?

良好的图像质量对于准确的OCR至关重要。使用扫描仪或高分辨率相机。图书馆包含高级滤镜,可在识别之前自动改善图像质量。

 中文