diff --git a/docs/about_model/convert_model/index.html b/docs/about_model/convert_model/index.html index 3be080e7..52341c52 100644 --- a/docs/about_model/convert_model/index.html +++ b/docs/about_model/convert_model/index.html @@ -1416,7 +1416,7 @@
+Global: text_score: 0.5 use_det: true @@ -749,8 +749,6 @@
Global
部分 如果输入图像的宽高比大于width_height_ratio
,则会跳过文本检测,直接进行后续识别width_height_ratio=-1
:不用这个参数- -- use_cuda
- bool
- false
是否使用CUDA,加速推理 -+ intra_op_num_threads
int
-1 @@ -889,7 +884,13 @@
Det
部分use_cuda
bool
- false
是否使用CUDA,加速推理 +是否使用CUDA加速推理 ++ + use_dml
+ bool
+ false
是否使用DirectML加速推理(仅限于Window10及以上) @@ -1053,9 +1054,9 @@ limit_side_len
Rec
部分Last updated - 24 Apr 2024, 09:27 +0800 + data-authdate="2024-05-15T22:43:19+0800" + title="15 May 2024, 22:43 +0800"> + 15 May 2024, 22:43 +0800 .
@@ -1697,7 +1698,7 @@
Rec
部分Rec
部分Rec
部分 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1651,8 +1651,8 @@id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1714,8 +1714,8 @@
@@ -853,7 +853,7 @@id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/blog/04_inference_summary/index.html b/docs/blog/04_inference_summary/index.html index ebedd7ba..f1274982 100644 --- a/docs/blog/04_inference_summary/index.html +++ b/docs/blog/04_inference_summary/index.html @@ -1467,7 +1467,7 @@
获取字典内容 获取字典内容 获取字典内容 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1605,8 +1605,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1668,8 +1668,8 @@
可视化查看 + id="fbedacTab" data-bs-toggle="tab" data-bs-target="#fbedac" + type="button" role="tab" aria-controls="fbedac" aria-selected="true">可视化查看id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/blog/index.xml b/docs/blog/index.xml index 9f502aed..f315ab65 100644 --- a/docs/blog/index.xml +++ b/docs/blog/index.xml @@ -25,7 +25,7 @@
Wed, 05 Oct 2022 00:00:00 +0000 https://rapidai.github.io/RapidOCRDocs/docs/blog/02_config_parameter/ -notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: &use_cuda false intra_op_num_threads: &intra_nums -1 inter_op_num_threads: &inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0. +notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: &intra_nums -1 inter_op_num_threads: &inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0. - diff --git a/docs/business_support/index.html b/docs/business_support/index.html index 27996a58..02d51f5a 100644 --- a/docs/business_support/index.html +++ b/docs/business_support/index.html @@ -1406,7 +1406,7 @@
服务三:国产操作系 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1658,8 +1658,8 @@
服务三:国产操作系 id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1721,8 +1721,8 @@
服务三:国产操作系 id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/changelog/index.html b/docs/changelog/index.html index 3ba1c886..928c0981 100644 --- a/docs/changelog/index.html +++ b/docs/changelog/index.html @@ -1336,7 +1336,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1588,8 +1588,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1651,8 +1651,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/changelog/index.xml b/docs/changelog/index.xml index 82c2ca8a..b6210b46 100644 --- a/docs/changelog/index.xml +++ b/docs/changelog/index.xml @@ -13,11 +13,11 @@
Sat, 08 Oct 2022 00:00:00 +0000 https://rapidai.github.io/RapidOCRDocs/docs/changelog/rapidocr/ -🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 + 🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU -添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1. +添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.- diff --git a/docs/changelog/rapidocr/index.html b/docs/changelog/rapidocr/index.html index a31a8665..92f143ba 100644 --- a/docs/changelog/rapidocr/index.html +++ b/docs/changelog/rapidocr/index.html @@ -33,22 +33,22 @@ - +添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1." /> - + - +添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1."/> @@ -661,6 +661,7 @@
+
- 🛠️2024-05-15 v1.3.19 update:
- 🧚🏻♀️2024-05-12 v1.3.18 update:
- 🔥2024-04-19 v1.3.17 update:
- 📘2024-04-07 v1.3.16 update:
@@ -736,6 +737,7 @@
+
- 🛠️2024-05-15 v1.3.19 update:
- 🧚🏻♀️2024-05-12 v1.3.18 update:
- 🔥2024-04-19 v1.3.17 update:
- 📘2024-04-07 v1.3.16 update:
@@ -811,7 +813,12 @@
-@@ -1722,7 +1729,7 @@🧚🏻♀️2024-05-12 v1.3.18 update:
+
🛠️2024-05-15 v1.3.19 update:
+
+- 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用
+- 在Windows平台仍然恢复到v1.3.18前,默认安装
+onnxruntime
库。如DirectML可用,且显式指定时,需要手动安装。- 相关讨论:PR #178 Discussion #175
+🧚🏻♀️2024-05-12 v1.3.18 update:
@@ -1078,9 +1085,9 @@
- Merge PR #176
- 支持python 3.12
2021-03-24 udpate:
Last updated - 12 May 2024, 15:21 +0800 + data-authdate="2024-05-15T22:43:19+0800" + title="15 May 2024, 22:43 +0800"> + 15 May 2024, 22:43 +0800 .
2021-03-24 udpate: 2021-03-24 udpate: 2021-03-24 udpate: 🍜2023-05-22 api update: 🍜2023-05-22 api update: 🍜2023-05-22 api update: 2023-10-23 v1.3.9 update: 2023-10-23 v1.3.9 update: 2023-10-23 v1.3.9 update: 🏸2023-04-16 ocrweb v0.1.1 update: 🏸2023-04-16 ocrweb v0.1.1 update: 🏸2023-04-16 ocrweb v0.1.1 update: (推荐) 加入QQ频道 (推荐) 加入QQ频道 (推荐) 加入QQ频道 Q: 边缘总有一行 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1711,8 +1711,8 @@
Q: 边缘总有一行 id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1774,8 +1774,8 @@
只使用识别 + id="fbecdaTab" data-bs-toggle="tab" data-bs-target="#fbecda" + type="button" role="tab" aria-controls="fbecda" aria-selected="true">只使用识别Q: 边缘总有一行 id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/index.html b/docs/index.html index bcc11e4e..dce44183 100644 --- a/docs/index.html +++ b/docs/index.html @@ -1498,7 +1498,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1750,8 +1750,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1813,8 +1813,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/inference_engine/index.html b/docs/inference_engine/index.html index b3b0153b..e7f4d092 100644 --- a/docs/inference_engine/index.html +++ b/docs/inference_engine/index.html @@ -1302,7 +1302,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1554,8 +1554,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1617,8 +1617,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/inference_engine/onnxruntime/index.html b/docs/inference_engine/onnxruntime/index.html index bfa205ff..29e95472 100644 --- a/docs/inference_engine/onnxruntime/index.html +++ b/docs/inference_engine/onnxruntime/index.html @@ -1310,7 +1310,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1562,8 +1562,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1625,8 +1625,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/inference_engine/onnxruntime/infer_optim/index.html b/docs/inference_engine/onnxruntime/infer_optim/index.html index 3a60895b..7bf01d42 100644 --- a/docs/inference_engine/onnxruntime/infer_optim/index.html +++ b/docs/inference_engine/onnxruntime/infer_optim/index.html @@ -1742,7 +1742,7 @@
参考资料 参考资料 参考资料 相关对比表格 相关对比表格 相关对比表格 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1562,8 +1562,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1625,8 +1625,8 @@
只使用检测 + id="ecabfdTab" data-bs-toggle="tab" data-bs-target="#ecabfd" + type="button" role="tab" aria-controls="ecabfd" aria-selected="true">只使用检测id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/inference_engine/openvino/infer-gpu/index.html b/docs/inference_engine/openvino/infer-gpu/index.html index 87d7f6ad..33e8d0a1 100644 --- a/docs/inference_engine/openvino/infer-gpu/index.html +++ b/docs/inference_engine/openvino/infer-gpu/index.html @@ -1377,7 +1377,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1629,8 +1629,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1692,8 +1692,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/inference_engine/openvino/infer/index.html b/docs/inference_engine/openvino/infer/index.html index 95dec2e2..8d2436e3 100644 --- a/docs/inference_engine/openvino/infer/index.html +++ b/docs/inference_engine/openvino/infer/index.html @@ -1629,7 +1629,7 @@
OpenVINO与ONNXRuntime id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1881,8 +1881,8 @@
OpenVINO与ONNXRuntime id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1944,8 +1944,8 @@
OpenVINO与ONNXRuntime id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/install_usage/index.html b/docs/install_usage/index.html index 7db88485..6fd53410 100644 --- a/docs/install_usage/index.html +++ b/docs/install_usage/index.html @@ -1336,7 +1336,7 @@
id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1588,8 +1588,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1651,8 +1651,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/install_usage/rapidocr/cli/index.html b/docs/install_usage/rapidocr/cli/index.html index bfb5237a..ec4738bc 100644 --- a/docs/install_usage/rapidocr/cli/index.html +++ b/docs/install_usage/rapidocr/cli/index.html @@ -818,26 +818,26 @@
使用示例 图像预测 + id="cbafdeTab" data-bs-toggle="tab" data-bs-target="#cbafde" + type="button" role="tab" aria-controls="cbafde" aria-selected="true">图像预测
使用示例 +
@@ -886,7 +886,7 @@使用示例 +
@@ -919,7 +919,7 @@使用示例 +
@@ -952,7 +952,7 @@使用示例 +
@@ -1678,7 +1678,7 @@使用示例 使用示例 使用示例 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1580,8 +1580,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1643,8 +1643,8 @@
PIL.Image.Image + id="dabefcTab" data-bs-toggle="tab" data-bs-target="#dabefc" + type="button" role="tab" aria-controls="dabefc" aria-selected="true">PIL.Image.Image Bytes + id="cbafedTab" data-bs-toggle="tab" data-bs-target="#cbafed" + type="button" role="tab" aria-controls="cbafed" aria-selected="true">Bytes Path + id="ebacfdTab" data-bs-toggle="tab" data-bs-target="#ebacfd" + type="button" role="tab" aria-controls="ebacfd" aria-selected="true">Path @@ -906,7 +909,7 @@id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/install_usage/rapidocr/index.xml b/docs/install_usage/rapidocr/index.xml index a31d79b2..c20f83b7 100644 --- a/docs/install_usage/rapidocr/index.xml +++ b/docs/install_usage/rapidocr/index.xml @@ -35,7 +35,7 @@ info 如果在安装过程中,出现某个依赖包不能正确安装时,可 class RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明: 以config.yaml方式 找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path="your.yaml") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。 -info 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = "min", det_thresh: float = 0.3, det_box_thresh: float = 0. +info 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = "min", det_thresh: float = 0.
- diff --git a/docs/install_usage/rapidocr/install/index.html b/docs/install_usage/rapidocr/install/index.html index 0978ea65..fd4a3200 100644 --- a/docs/install_usage/rapidocr/install/index.html +++ b/docs/install_usage/rapidocr/install/index.html @@ -1578,7 +1578,7 @@
安装 安装 安装 +info 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = "min", det_thresh: float = 0." /> - + +info 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = "min", det_thresh: float = 0."/> @@ -803,7 +803,7 @@
初始化 -
+np.ndarray + id="aefbdcTab" data-bs-toggle="tab" data-bs-target="#aefbdc" + type="button" role="tab" aria-controls="aefbdc" aria-selected="true">np.ndarrayclass RapidOCR: def __init__( self, @@ -812,6 +812,7 @@
初始化 初始化 输入 str + id="ebfdacTab" data-bs-toggle="tab" data-bs-target="#ebfdac" + type="button" role="tab" aria-controls="ebfdac" aria-selected="true">str
输入 +
@@ -946,7 +949,7 @@输入 +
@@ -986,7 +989,7 @@输入 +
@@ -1026,7 +1029,7 @@输入 +
@@ -1068,7 +1071,7 @@输入 +
@@ -1120,38 +1123,38 @@输出 只有检测 + id="debfacTab" data-bs-toggle="tab" data-bs-target="#debfac" + type="button" role="tab" aria-controls="debfac" aria-selected="true">只有检测 只有分类 + id="cbaedfTab" data-bs-toggle="tab" data-bs-target="#cbaedf" + type="button" role="tab" aria-controls="cbaedf" aria-selected="true">只有分类 只有识别 + id="abcefdTab" data-bs-toggle="tab" data-bs-target="#abcefd" + type="button" role="tab" aria-controls="abcefd" aria-selected="true">只有识别 检测 + 识别 + id="cefabdTab" data-bs-toggle="tab" data-bs-target="#cefabd" + type="button" role="tab" aria-controls="cefabd" aria-selected="true">检测 + 识别 分类 + 识别 + id="aefdcbTab" data-bs-toggle="tab" data-bs-target="#aefdcb" + type="button" role="tab" aria-controls="aefdcb" aria-selected="true">分类 + 识别 检测 + 分类 + 识别 + id="cbfdaeTab" data-bs-toggle="tab" data-bs-target="#cbfdae" + type="button" role="tab" aria-controls="cbfdae" aria-selected="true">检测 + 分类 + 识别 @@ -1167,7 +1170,7 @@
输出 +
@@ -1231,7 +1234,7 @@输出 +
@@ -1294,7 +1297,7 @@输出 +
@@ -1360,7 +1363,7 @@输出 +
@@ -1427,7 +1430,7 @@输出 +
@@ -1493,7 +1496,7 @@输出 +
@@ -1583,14 +1586,14 @@可视化查看结果 只可视化检测 + id="febcdaTab" data-bs-toggle="tab" data-bs-target="#febcda" + type="button" role="tab" aria-controls="febcda" aria-selected="true">只可视化检测 可视化检测和识别 + id="cdefbaTab" data-bs-toggle="tab" data-bs-target="#cdefba" + type="button" role="tab" aria-controls="cdefba" aria-selected="true">可视化检测和识别 @@ -1606,7 +1609,7 @@
可视化查看结果 +
@@ -1652,7 +1655,7 @@可视化查看结果 +
@@ -1749,9 +1752,9 @@@@ -2393,7 +2396,7 @@可视化查看结果
Last updated - 24 Apr 2024, 09:27 +0800 + data-authdate="2024-05-15T22:43:19+0800" + title="15 May 2024, 22:43 +0800"> + 15 May 2024, 22:43 +0800 .
可视化查看结果 可视化查看结果 可视化查看结果 Python调用 以文件方式发送POST请求 + id="facedbTab" data-bs-toggle="tab" data-bs-target="#facedb" + type="button" role="tab" aria-controls="facedb" aria-selected="true">以文件方式发送POST请求
以base64方式发送POST请求 + id="ecadbfTab" data-bs-toggle="tab" data-bs-target="#ecadbf" + type="button" role="tab" aria-controls="ecadbf" aria-selected="true">以base64方式发送POST请求 @@ -866,7 +866,7 @@Python调用 +
@@ -908,7 +908,7 @@Python调用 +
@@ -1763,7 +1763,7 @@API输出 API输出 API输出 使用 CPU端推理 + id="ebafdcTab" data-bs-toggle="tab" data-bs-target="#ebafdc" + type="button" role="tab" aria-controls="ebafdc" aria-selected="true">CPU端推理 GPU端推理 + id="faedbcTab" data-bs-toggle="tab" data-bs-target="#faedbc" + type="button" role="tab" aria-controls="faedbc" aria-selected="true">GPU端推理 @@ -816,7 +816,7 @@
使用 +
前提是安装了CPU版的PaddlePaddle
@@ -859,7 +859,7 @@使用 +
前提是安装了GPU版的PaddlePaddle,注意在实例化
@@ -1628,7 +1628,7 @@RapidOCR
类时,需要通过参数显式指定使用GPU。推理速度比较 推理速度比较 推理速度比较 使用步骤 使用步骤 使用步骤 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1613,8 +1613,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1676,8 +1676,8 @@
@@ -747,7 +747,7 @@id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/install_usage/rapidocr_web/nuitka_package/index.html b/docs/install_usage/rapidocr_web/nuitka_package/index.html index 17e8cea0..91d978c4 100644 --- a/docs/install_usage/rapidocr_web/nuitka_package/index.html +++ b/docs/install_usage/rapidocr_web/nuitka_package/index.html @@ -1616,7 +1616,7 @@
补充 补充 补充 运行步骤 运行步骤 运行步骤 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1626,8 +1626,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1689,8 +1689,8 @@
Python使用 + id="ebfacdTab" data-bs-toggle="tab" data-bs-target="#ebfacd" + type="button" role="tab" aria-controls="ebfacd" aria-selected="true">Python使用id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/install_usage/rapidocr_web/rapidocr_web/index.html b/docs/install_usage/rapidocr_web/rapidocr_web/index.html index 902b1f7d..af680d78 100644 --- a/docs/install_usage/rapidocr_web/rapidocr_web/index.html +++ b/docs/install_usage/rapidocr_web/rapidocr_web/index.html @@ -1517,7 +1517,7 @@
使用 使用 使用 在线Demo 在线Demo 在线Demo 相关产品概览图 相关产品概览图 相关产品概览图 2. 使用 终端使用 + id="dcaebfTab" data-bs-toggle="tab" data-bs-target="#dcaebf" + type="button" role="tab" aria-controls="dcaebf" aria-selected="true">终端使用
2. 使用 +
@@ -780,7 +780,7 @@2. 使用 +
@@ -1552,7 +1552,7 @@3. 查看效果 3. 查看效果 3. 查看效果 id: 10 , href: "\/RapidOCRDocs\/docs\/install_usage\/rapidocr\/usage\/", title: "使用说明", - description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.3, det_box_thresh: float = 0.", + description: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见config.yaml engine = RapidOCR(config_path=\"your.yaml\") (推荐) 以具体参数传入,参数基本和config.yaml中对应,只是个别名称有所区别。\ninfo 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = \"min\", det_thresh: float = 0.", content: "初始化 link类RapidOCR是主类,其初始化函数如下:\nclass RapidOCR: def __init__(self, config_path: Optional[str] = None, **kwargs): pass 支持两种自定义传参数的方案,下面分别详细说明:\n以config.yaml方式\n找到rapidocr_onnxruntime安装目录下的config.yaml文件,可以通过pip show rapidocr_onnxruntime找到其安装路径。 将config.yaml拷贝出来,放到当前运行目录下 按需自定义参数修改即可,具体参数解释,参见" } ); @@ -1554,8 +1554,8 @@
id: 38 , href: "\/RapidOCRDocs\/docs\/blog\/02_config_parameter\/", title: "config.yaml参数解释", - description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", - content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: \u0026use_cuda false intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 use_cuda bool false 是否使用CUDA,加速推理 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA,加速推理 limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " + description: "notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.", + content: " notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: \u0026intra_nums -1 inter_op_num_threads: \u0026inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0.9 label_list: ['0', '180'] Rec: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_rec_infer.onnx rec_img_shape: [3, 48, 320] rec_batch_num: 6 Global部分 link 参数名称 取值范围 默认值 作用 text_score [0, 1] 0.5 文本识别结果置信度,值越大,把握越大 use_angle_cls bool true 是否使用文本行的方向分类 print_verbose bool true 是否打印各个部分耗时信息 min_height int 30 图像最小高度(单位是像素)低于这个值,会跳过文本检测阶段,直接进行后续识别 width_height_ratio int 8 如果输入图像的宽高比大于width_height_ratio,则会跳过文本检测,直接进行后续识别width_height_ratio=-1:不用这个参数 intra_op_num_threads int -1 参见docs inter_op_num_threads int -1 参见docs min_height是用来过滤只有一行文本的图像(如下图),这类图像不会进入文本检测模块,直接进入后续过程。\nDet部分 link 参数名称 取值范围 默认值 作用 use_cuda bool false 是否使用CUDA加速推理 use_dml bool false 是否使用DirectML加速推理(仅限于Window10及以上) limit_side_len - 736 限制图像边的长度的像素值 limit_type [min, max] min 限制图像的最小边长度还是最大边为limit_side_len 示例解释:当limit_type=min和limit_side_len=736时,图像最小边小于736时,会将图像最小边拉伸到736,另一边则按图像原始比例等比缩放。 thresh [0, 1] 0.3 图像中文字部分和背景部分分割阈值值越大,文字部分会越小 box_thresh [0, 1] 0.5 文本检测所得框是否保留的阈值,值越大,召回率越低 max_candidates - 1000 图像中最大可检测到的文本框数目,一般够用 unclip_ratio [1.6, 2.0] 1.6 控制文本检测框的大小,值越大,检测框整体越大 use_dilation bool true 是否使用形态学中的膨胀操作,一般采用默认值即可 score_mode string fast fast是求rectangle区域的平均分数,容易造成弯曲文本漏检,slow是求polygon区域的平均分数,会更准确,但速度有所降低,可按需选择 Cls部分 link 参数名称 取值范围 默认值 作用 cls_img_shape - [3, 48, 192] 输入方向分类模型的图像Shape(CHW) cls_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 cls_thresh [0, 1] 0.9 方向分类结果的置信度 label_list - [0, 180] 方向分类的标签,0°或者180°,该参数不能动 Rec部分 link 参数名称 取值范围 默认值 作用 rec_img_shape - [3, 48, 320] 输入文本识别模型的图像Shape(CHW) rec_batch_num - 6 批次推理的batch大小,一般采用默认值即可,太大并没有明显提速,效果还可能会差 " } ); index.add( @@ -1617,8 +1617,8 @@
id: 45 , href: "\/RapidOCRDocs\/docs\/changelog\/rapidocr\/", title: "rapidocr_onnxruntime/openvino", - description: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.", - content: "🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " + description: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU 添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.", + content: "🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161\n🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle\n🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数\n♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU\n添加自动padding策略:当传入图像小于min_height或者\u003ewidth_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1.3.8 update: link 修复issue #133 📡2023-09-21 v1.3.7 update: link 完善VisRes类在终端情况下的使用 修复auto_text_det的条件错误 🧸2023-09-20 v1.3.6 update: link 添加VisRes类,便于快速可视化结果。详情参见demo.py用法 😀2023-09-20 v1.3.5 update: link Fixed issue #122 ⏰2023-09-18 v1.3.4 update: link 优化更新参数部分的函数实现 🧸2023-09-06 v1.3.2 update: link 修复issue #116 ⭐2023-08-29 v1.3.1 update: link 修复issue #115 🎉2023-08-26 v1.3.0 update: link 将PaddleOCR v4版对应的文本检测和文本识别轻量模型转换为onnx,并打包到whl中。 接口与v1.2.x一致,直接使用即可。 😉2023-07-12 v1.2.12 update: link 在rapidocr_onnxruntime初始化时,添加det_use_cuda、cls_use_cuda、rec_use_cuda参数 兼容配置文件方式传入RapidOCR类中 rapidocr_openvino同理 🎮2023-03-11 v1.2.2 update: link 修复实例化python中RapidOCR类传入参数错误 🧢2023-03-07 v1.2.1 update: link rapidocr系列包更新到v1.2.0 优化python下rapidocr系列包的接口传入参数,支持实例化类时,动态给定各个参数,更加灵活。 如果不指定,则用config.yaml下的默认参数。 具体可参见:传入参数 ⛸2023-02-16 update: link 优化ocrweb部分代码,可直接pip安装,快速使用,详情参见README。 优化python中各个部分的推理代码,更加紧凑,同时易于维护。 🎉2023-01-21 update: link [python] 添加含有文字的图像方向分类模块,具体参见Rapid Orientation ⚽2022-12-19 update: link [python] 添加表格结构还原模块,具体参见Rapid Table 🤖2022-12-14 update: link [python] 将配置参数和模型移到模块里面,同时将模型打到whl包内,可以直接pip安装使用,更加方便快捷。 详情参见:README 🧻2022-11-20 update: link [python] 添加版面分析部分,支持中文、英文和表格三种版面的检测分析。详情参见:Rapid Structure部分。 🎃2022-11-01 update: link 添加Hugging Face Demo, 增加可以调节超参数的功能,详情可访问Hugging Face Demo 🚩2022-10-01 udpate: link 修复python部分下一些较小bugs merge来自AutumnSun1996的OCRWeb实现的多语言部署demo,详情参见:ocrweb_mutli-README 添加onnxruntime-gpu推理速度较慢于CPU的问题说明,详情参见:onnxruntime-gpu版相关说明 🛴2022-09-01 update: link 由于openvino发布了2022.2.0.dev20220829版本,该版本解决了cls部分模型推理的问题。至此,基于openvino的rapidocr完成了统一,全部由openvino推理引擎完成。 详细使用方法参见:python/README 🧸2022-08-17 update: link python/ocrweb部分 v1.1.0发布,详情参见v1.1.0 🕶2022-08-14 update: link ocrweb部分增加以API方式部署调用的功能,可以通过发送POST请求,来获得OCR识别结果。 详情参见:API方式调用 ✨2022-07-07 update: link 修复python版中v3 rec推理bug,并将v3 rec与v2 rec合并为同一套推理代码,更加简洁和方便 添加python模块下的单元测试 该页面添加致谢模块,感谢为这个项目作出贡献的小伙伴。 😁2022-07-05 update: link 添加对单行文本的处理能力,对于单行文本,可自行设定阈值,不过检测模块,直接识别即可。详情参见README 优化python部分代码逻辑,更优雅简洁。 🏝2022-06-30 update: link python推理部分,增加参数选择使用GPU推理的配置选项,在正确安装onnxruntime-gpu版本前提下,可以一键使用(Fix issue#30) 具体基于GPU的推理情况,需要等我后续整理一下,再更新出来 详情参见:onnxruntime-gpu版推理配置 📌2022-06-25 update: link 重新整理python部分推理代码,将常用调节参数全部放到yaml文件中,便于调节,更加容易使用 详情参见:README 🍿2022-05-15 udpate: link 增加PaddleOCR v3 rec模型转换后的ONNX模型,直接去网盘下载替换即可。(百度网盘 | Google Drive) 增加文本识别模型各个版本效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本识别模型从自己构建测试集上的指标来看不如之前的好。 😀2022-05-12 upadte link 增加PaddleOCR v3 det模型转换的ONNX模型,直接去网盘下载,替换即可。(百度网盘 | Google Drive) 增加各个版本文本检测模型效果对比表格,详情点击各个版本ONNX模型效果对比。v3的文本检测模型从指标来看是好于之前的v2的,推荐使用。 🎧2022-04-04 udpate: link 增加python下的基于OpenVINO推理引擎的支持 给出OpenVINO和ONNXRuntime的性能对比表格 详情参见:python/README 2022-02-24 udpate: link 优化python目录下的推理代码 添加调用不同语言模型的推理代码示例 详情参见:python/onnxruntime_infer/README 2021-12-18 udpate: link 添加Google Colab Demo 2021-11-28 udpate: link 更新ocrweb部分 添加显示各个阶段处理时间 更新说明文档 更换文本检测模型为ch_PP-OCRv2_det_infer.onnx,推理更快,更准 2021-11-13 udpate: link 添加python版本中文本检测和识别可调节的超参数,主要有box_thresh|unclip_ratio|text_score,详情见参数调节 将文本识别中字典位置以参数方式给出,便于灵活配置,详情见keys_path 2021-10-27 udpate: link 添加使用onnxruntime-gpu版推理的代码(不过gpu版本的onnxruntime不太好用,按照官方教程配置,感觉没有调用起来GPU) 具体使用步骤参见: onnxruntime-gpu推理配置 2021-09-13 udpate: link 添加基于python的whl文件,便于使用,详情参见release/python_sdk 2021-09-11 udpate: link 添加PP-OCRv2新增模型onnx版本 使用方法推理代码不变,直接替换对应模型即可。 经过在自有测试集上评测: PP-OCRv2检测模型效果有大幅度提升,模型大小没变。 PP-OCRv2识别模型效果无明显提升,模型大小增加了3.58M。 模型上传到百度网盘 提取码:30jv 2021-08-07 udpate: link PP-Structure 表格结构和cell坐标预测 正在整理中 之前做的,未完成的,欢迎提PR 打Dokcer镜像 尝试onnxruntime-gpu推理 2021-07-17 udpate: link 完善README文档 增加英文、数字识别onnx模型,具体参见python/en_number_ppocr_mobile_v2_rec,用法同其他 整理一下模型转onnx 2021-07-04 udpate: link 目前仓库下的python程序已经可以在树莓派4B上,成功运行,详细信息请进群,询问群主 更新整体结构图,添加树莓派的支持 2021-06-20 udpate: link 优化ocrweb中识别结果显示,同时添加识别动图演示 更新datasets目录,添加一些常用数据库链接(搬运一下^-^) 更新FAQ 2021-06-10 udpate: link 添加server版文本识别模型,详情见提取码:30jv 2021-06-08 udpate: link 整理仓库,统一模型下载路径 完善相关说明文档 2021-03-24 udpate: link 新模型已经完全兼容ONNXRuntime 1.7 或更高版本。 特别感谢:@Channingss 新版onnxruntime比1.6.0 性能提升40%以上。 " } ); index.add( diff --git a/docs/related_projects/related_projects/index.html b/docs/related_projects/related_projects/index.html index e9ee5240..691ccd96 100644 --- a/docs/related_projects/related_projects/index.html +++ b/docs/related_projects/related_projects/index.html @@ -1573,7 +1573,7 @@
印章OCR 印章OCR 印章OCR Buy me a Coffee Buy me a Coffee Buy me a Coffee +info 以下参数均有默认值,可以不传入任何参数,直接初始化使用即可。intra_op_num_threads和inter_op_num_threads仅是rapidocr_onnxruntime版本下的,其他推理引擎,请参见各自源码 class RapidOCR: def __init__( self, text_score: float = 0.5, print_verbose: bool = False, min_height: int = 30, width_height_ratio: float = 8, det_use_cuda: bool = False, det_use_dml: bool = False, det_model_path: Optional[str] = None, det_limit_side_len: float = 736, det_limit_type: str = "min", det_thresh: float = 0.
- @@ -351,7 +351,7 @@ Q: onnxruntime arm32 有人编译过吗? 我编译成功了,但是使用的
Wed, 05 Oct 2022 00:00:00 +0000 https://rapidai.github.io/RapidOCRDocs/docs/blog/02_config_parameter/ -notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 use_cuda: &use_cuda false intra_op_num_threads: &intra_nums -1 inter_op_num_threads: &inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: *use_cuda model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0. +notifications 该部分以rapidocr_onnxruntime库下config.yaml为例作讲解,其他推理引擎相关配置,请移步具体源码查看。 config.yaml源码 link 详情 Global: text_score: 0.5 use_det: true use_cls: true use_rec: true print_verbose: false min_height: 30 width_height_ratio: 8 intra_op_num_threads: &intra_nums -1 inter_op_num_threads: &inter_nums -1 Det: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_PP-OCRv4_det_infer.onnx limit_side_len: 736 limit_type: min thresh: 0.3 box_thresh: 0.5 max_candidates: 1000 unclip_ratio: 1.6 use_dilation: true score_mode: fast Cls: intra_op_num_threads: *intra_nums inter_op_num_threads: *inter_nums use_cuda: false use_dml: false model_path: models/ch_ppocr_mobile_v2.0_cls_infer.onnx cls_image_shape: [3, 48, 192] cls_batch_num: 6 cls_thresh: 0. - @@ -419,11 +419,11 @@ QQ交流群 link欢迎加入我们的QQ群下载模型及测试程序。1群:8
Sat, 08 Oct 2022 00:00:00 +0000 https://rapidai.github.io/RapidOCRDocs/docs/changelog/rapidocr/ -🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 + 🛠️2024-05-15 v1.3.19 update: link 因为DirectML受支持设备限制,因此将DirectML作为一个选项写入配置文件,选择性调用 在Windows平台仍然恢复到v1.3.18前,默认安装onnxruntime库。如DirectML可用,且显式指定时,需要手动安装。 相关讨论:PR #178 Discussion #175 🧚🏻♀️2024-05-12 v1.3.18 update: link Merge PR #176 支持python 3.12 🔥2024-04-19 v1.3.17 update: link Merge PR 修复issue #170 📘2024-04-07 v1.3.16 update: link修复issue #161 🍿2024-03-07 v1.3.15 update: link 修复 issue #158 增加三个推理引擎(onnxruntime、openvino,paddlepaddle)初始化RapidOCR类,指定线程数的参数 🎂2024-03-05 v1.3.14 update: link添加可使用的CPU核心数,包括三个推理引擎,onnxruntime/OpenVINO/PaddlePaddle 🔖2024-02-28 v1.3.13 update: link 优化LoadImage类,添加对输入PIL.Image.Image的支持 修复不同输入类型下,图像通道顺序不同的问题 🍉2024-02-27 v1.3.12 update: link可视化函数适配Pillow v9和v10两个版本,自动根据各个版本情况,来选择相应获得char大小的函数 ♥️2024-02-04 v1.3.11 update: linkMerge PR #151 by LWQ2EDU -添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.3.9 update: link 优化rapidocr系列库主函数代码逻辑,便于小伙伴们二次开发 Merge PR #141 by theikkila Merge PR #139 by debanjum 😜2023-10-25 v1. +添加自动padding策略:当传入图像小于min_height或者>width_height_ratio时,会触发自动padding图像,后续再进入检测。 ⚠️注意:padding值多少?当前值是一个权衡设置,大家可根据具体使用场景,自定设置合适值。 🌈2024-01-30 v1.3.10 update: link 修复get_boxes_img_without_det bug by AuroraWright 🥰2023-12-28 v1.- diff --git a/sitemap.xml b/sitemap.xml index 008e07da..225ed331 100644 --- a/sitemap.xml +++ b/sitemap.xml @@ -33,7 +33,7 @@
2024-05-12T15:24:22+08:00 https://rapidai.github.io/RapidOCRDocs/docs/install_usage/rapidocr/usage/ -2024-04-24T09:27:46+08:00 +2024-05-15T22:43:19+08:00 https://rapidai.github.io/RapidOCRDocs/docs/install_usage/rapidocr/cli/ 2024-04-24T09:27:46+08:00 @@ -117,7 +117,7 @@2024-04-24T09:27:46+08:00 https://rapidai.github.io/RapidOCRDocs/docs/blog/02_config_parameter/ -2024-04-24T09:27:46+08:00 +2024-05-15T22:43:19+08:00 https://rapidai.github.io/RapidOCRDocs/docs/blog/03_which_inference/ 2024-04-24T09:27:46+08:00 @@ -138,7 +138,7 @@2023-09-28T08:38:57+08:00 https://rapidai.github.io/RapidOCRDocs/docs/changelog/rapidocr/ -2024-05-12T15:21:03+08:00 +2024-05-15T22:43:19+08:00 https://rapidai.github.io/RapidOCRDocs/docs/changelog/rapidocr_paddle/ 2024-05-12T15:21:03+08:00 @@ -150,7 +150,7 @@2024-05-12T15:24:22+08:00 https://rapidai.github.io/RapidOCRDocs/ -2024-05-15T10:37:00+08:00 +2024-05-15T22:43:19+08:00 https://rapidai.github.io/RapidOCRDocs/categories/