Surya:功能强大的开源OCR文档处理工具包,支持90多种语言的OCR识别,提供布局分析、阅读顺序检测和表格识别等功能。无论是PDF、图像还是Word文档,Surya都能高效处理。基于先进的多模态模型,Surya实现了精准的文本检测、灵活的布局分析和智能的表格识别,提升文档数字化处理效率。 Surya:开源OCR文档处理工具包,支持90多种语言识别 主要功能特点: 多语言OCR: 支持90多种语言的OCR识别,与云服务相比具有竞争力的基准测试结果,覆盖了全球大部分常见语言。 文本检测: 能够进行行级文本检测,不受语言限制,确保精确的文本识别。 布局分析: 检测文档中的表格、图像、标题等元素,提供全面的布局分析功能。 阅读顺序检测: 能够理解文档的逻辑阅读顺序,确保生成的文档内容有序且易于阅读。 表格识别: 识别文档中的表格结构,包括行和列,支持复杂表格的精确提取。 高效性能: 基于先进的多模态模型,Surya实现了高效的文本处理和识别,提升了文档处理效率。 多种文档类型: 支持PDF、图像、Word文档等多种文档格式,灵活应对不同类型的文档处理需求。 使用简便: 安装和使用简单,支持Python 3.10+和PyTorch,用户可以快速上手。 GPU优化: 使用GPU时,通过正确设置环境变量,可以显著提高性能,适应大规模文档处理需求。 开源项目: 作为开源项目,Surya可以自由获取和使用,适合开发者进行二次开发和功能扩展。 使用方法: 一、安装和设置: 1.安装Python和PyTorch: Surya需要Python 3.10+和PyTorch。请确保您的环境中安装了这两个工具。 2.克隆Surya项目: 打开终端,运行以下命令克隆Surya项目: git clone https://github.com/VikParuchuri/surya.git cd surya 3.安装依赖: 运行以下命令安装Surya的主要和开发依赖项 poetry install 4.激活虚拟环境: 运行以下命令激活虚拟环境 poetry shell 二、使用Surya进行OCR 1.加载模型: Surya的模型权重将在首次运行时自动下载。 2.运行OCR示例代码: 以下是如何从Python使用Surya进行OCR的示例代码 from PIL import Image from surya.ocr import run_ocr from surya.model.detection.model import load_model as load_det_model, load_processor as load_det_processor from surya.model.recognition.model import load_model as load_rec_model from surya.model.recognition.processor import load_processor as load_rec_processor # 加载图片 image = Image.open(“IMAGE_PATH”) langs = [“en”] # 替换为你的语言 – 可选但推荐 # 加载模型 det_processor, det_model = load_det_processor(), load_det_model() rec_model, rec_processor = load_rec_model(), load_rec_processor() # 运行OCR predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor) 三、 高级功能 1.启用模型编译: 设置环境变量来启用模型编译 export COMPILE_RECOGNITION=true export COMPILE_DETECTOR=true export COMPILE_LAYOUT=true export COMPILE_TABLE_REC=true # 或者使用 export COMPILE_ALL=true 2.文本行检测: Surya可以检测文本行并输出包含检测到的边界框的JSON文件。 3.布局和阅读顺序: Surya可以输出包含检测到的布局和阅读顺序的JSON文件。 4.表格识别: Surya可以输出包含检测到的表格单元格和行/列ID以及行/列边界框的JSON文件。 四、性能优化 使用GPU优化: 在使用GPU时,正确设置 RECOGNITION_BATCH_SIZE 环境变量可以显著提高性能。每个批次项将使用40MB的VRAM,可以实现非常高的批量大小。 五、故障排除 提升OCR效果: 增加图像分辨率,使文本更大。如果分辨率已经很高,尝试将其降低到不超过2048px的宽度。 对图像进行预处理(二值化、去倾斜等)可以帮助处理非常老旧/模糊的图像。 可以调整 DETECTOR_BLANK_THRESHOLD 和 DETECTOR_TEXT_THRESHOLD 以获得更好的结果。 通过以上步骤,您可以充分利用 Surya 进行高效的OCR文档处理。
数据统计
相关导航
懒人Excel 是一个非常适合初学者的 Excel 学习网站。它提供了详细的 Excel 使用说明书,包括函数公式、操作技巧、数据分析、图表模板、VBA(Visual Basic for Applications)和数据透视表教程。这个网站通过图文并茂的方式,帮助用户快速掌握各种 Excel 技巧,非常适合小白新手。
TipRanks
TipRanks是一个专为投资者设计的综合性在线研究平台,旨在通过提供数据驱动的分析工具和信息,帮助用户做出更明智的投资决策。它整合了来自美国、加拿大和英国的股票评级、分析师预测、深度文章以及企业报告等数据,为用户提供全面的股票研究和分析能力。
VDOC.PUB
VDOC.PUB是一个多类型学术文档共享平台,专注于提供外文书下载的网站。用户可以在该网站上免费下载并阅读这些书籍,支持多种格式的电子书下载,如PDF、EPUB、MOBI等,无需进行任何注册或付费操作。
UIGEN-T1
UIGEN-T1是一个基于 Qwen2.5-Coder-7B 模型微调的开源 UI 设计生成工具,能够根据用户输入的提示生成结构清晰且符合标准的 HTML 和 CSS 代码。该工具特别适合生成仪表板、登录页面和注册表单等基础前端页面。
NHK world
NHK world是日本广播协会的官方网站,在其网站上不仅能获取到来自日本的各类新闻资讯,包括政治、经济、文化、科技等多个领域,还可以了解到日本的传统文化、流行趋势以及各种生活资讯。非日语母语者可以在上面学习和提高他们的日语水平。
iArtbook
iArtbook 是一款由 Alexander Kondrashov 开发的专业手机绘画应用,专为艺术家和绘画爱好者设计。它提供无限图层、多种笔刷、动画制作、Apple Pencil 支持以及时间推移视频录制等功能,帮助用户在数字平台上轻松创作精美的艺术作品。
Authing
Authing是一家领先的统一身份认证 (IDaaS) 身份云服务提供商,基于零信任安全体系,提供全面的身份认证管理解决方案。其核心功能包括身份和访问管理 (IAM)、统一身份管理、统一身份认证、权限管理、双因素认证、多因素认证 (MFA)、权限管理系统、身份管理、访问控制、单点登录 (SSO) 软件和身份安全。
changedetection.io
changedetection.io是一个开源的网页变化监控工具,它能够自动化检测网页内容的任何变化,并通过电子邮件、Slack、Discord等多种渠道发送实时通知。不仅功能强大,而且使用起来也非常简单,无论是个人用户还是企业用户,都能轻松上手。
暂无评论...
