飞浆介绍图片

简介

飞桨(PaddlePaddle)OCR(Optical Character Recognition)是一个开源的深度学习框架,用于文字识别任务。它提供了一系列强大的工具和模型,可以用于实现各种文本识别应用。

飞桨OCR主要包括以下几个方面的功能和特点:

文字检测(Text Detection):通过检测图像中的文本区域,确定文本的位置和边界框。文字识别(Text Recognition):将检测到的文本区域进行识别,将图像中的文字转化为可读的文本内容。文字方向检测(Text Direction Detection):自动检测文本的朝向,包括水平、垂直和倾斜等方向。多语言支持:飞桨OCR可以处理多种语言的文字识别,包括中文、英文以及其他语种。

飞桨OCR提供了预训练的模型,例如EAST、CRNN和Rosetta等,这些模型可以在各种场景下进行文字识别。此外,飞桨OCR还提供了丰富的工具函数和API,方便用户进行模型训练、推理和部署。

表格识别效果图

项目介绍

项目连接:

功能很强大,开源做以下检测项:

飞浆支持识别项目

安装难点

使用该项目需要安装项目文件里的requirements.txt,里面的依赖包,其他的正常pip install都很顺利,就lanms-neo==1.0.2比较折腾,window环境要安装lanms-neo,Luix安装lanms;

pip install lanms-neo==1.0.2#没有安装Visual Studio无效

问题

报错: Microsoft Visual C++ 14.0 is required gcc:,gcc: error: /EHsc: No such file or directory ,gcc.exe’ failed with exit status 1

解决办法

我在网上找了很多方法试了图片修改文字软件,就是不想Visual Studio,但是都没成功!最后还是安装了Visual Studio 2022不想走弯路的直接按照一下安装。

安装的网址:

Microsoft C++ 生成工具 – Visual Studio

下载 C++ Build Tools,并安装C++桌面开发,默认前几个就行

安装C++

安装完成之后,在运行一下代码

pip install lanms-neo==1.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装成功

模型缩写介绍

飞桨OCR(文字识别)中的一些常用模型和任务的缩写及其含义如下:

DET:Text Detection(文字检测) DET模型用于检测图像中的文本区域,并确定文本的位置和边界框。CLS:Text Classification(文本分类) CLS模型用于将给定的文本分为不同的类别或标签。文字方向分类通常使用深度学习模型进行文本分类任务。E2E:End-to-End Text Recognition(端到端文字识别) E2E模型将文字检测和文字识别任务整合在一起,实现从图像到最终文本结果的完整识别过程。REC:Text Recognition(文字识别) REC模型用于将图像中的文字转换为可读的文本内容。文本识别模型可以使用传统的方法(如CRNN)或基于Transformer的方法(如Rosetta)。SR:Speech Recognition(语音识别) SR模型用于将语音信号转换为文字。通过训练深度学习模型,可以实现准确的语音识别任务。KIE:Knowledge Information Extraction(知识信息抽取) KIE模型用于从文本中提取有用的知识信息,例如实体识别、关系抽取和事件提取等任务。

这些缩写代表了OCR中涉及的不同任务和模型,通过组合使用它们,可以构建出适用于不同场景和需求的文字识别系统

模型推理调用文本检测模型推理

文本检测模型推理,默认使用DB模型的配置参数。超轻量中文检测模型推理,可以执行如下命令:

# 下载超轻量中文检测模型:
wget  https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar
tar xf ch_PP-OCRv3_det_infer.tar
python3 tools/infer/predict_det.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\"

可视化文本检测结果默认保存到./inference_results文件夹里面,结果文件的名称前缀为'det_res';

使用CPU进行预测,执行命令如下:

python3 tools/infer/predict_det.py --image_dir=\"./doc/imgs/1.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\"  --use_gpu=False

文本识别模型推理

注意 PP-OCRv3的识别模型使用的输入shape为3,48,320, 如果使用其他识别模型,则需根据模型设置参数–rec_image_shape。此外,PP-OCRv3的识别模型默认使用的rec_algorithm为SVTR_LCNet,注意和原始SVTR的区别。

超轻量中文识别模型推理,可以执行如下命令:

# 下载超轻量中文识别模型:
wget  https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar
tar xf ch_PP-OCRv3_rec_infer.tar
python3 tools/infer/predict_rec.py --image_dir=\"./doc/imgs_words/ch/word_4.jpg\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\"

英文识别模型推理

英文识别模型推理,可以执行如下命令, 注意修改字典路径:

# 下载英文数字识别模型:
wget https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_infer.tar
tar xf en_PP-OCRv3_rec_infer.tar
python3 tools/infer/predict_rec.py --image_dir=\"./doc/imgs_words/en/word_1.png\" --rec_model_dir=\"./en_PP-OCRv3_rec_infer/\" --rec_char_dict_path=\"ppocr/utils/en_dict.txt\"

方向分类模型推理

方向分类模型推理,可以执行如下命令:

# 下载超轻量中文方向分类器模型:
wget  https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar
tar xf ch_ppocr_mobile_v2.0_cls_infer.tar
python3 tools/infer/predict_cls.py --image_dir=\"./doc/imgs_words/ch/word_4.jpg\" --cls_model_dir=\"ch_ppocr_mobile_v2.0_cls_infer\"

文本检测、方向分类和文字识别串联推理

注意 PP-OCRv3的识别模型使用的输入shape为3,48,320, 如果使用其他识别模型,则需根据模型设置参数–rec_image_shape。此外图片修改文字软件,PP-OCRv3的识别模型默认使用的rec_algorithm为SVTR_LCNet,注意和原始SVTR的区别。

以超轻量中文OCR模型推理为例,在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径,也支持PDF文件、参数det_model_dir,cls_model_dir和rec_model_dir分别指定检测,方向分类和识别的inference模型路径。参数use_angle_cls用于控制是否启用方向分类模型。use_mp表示是否使用多进程。total_process_num表示在使用多进程时的进程数。可视化识别结果默认保存到 ./inference_results 文件夹里面。

# 使用方向分类器
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --cls_model_dir=\"./cls/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=true
# 不使用方向分类器
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=false
# 使用多进程
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=false --use_mp=True --total_process_num=6
# 使用PDF文件,可以通过使用`page_num`参数来控制推理前几页,默认为0,表示推理所有页
python3 tools/infer/predict_system.py --image_dir=\"./xxx.pdf\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --cls_model_dir=\"./cls/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=true --page_num=2

附一张识别效果图

发表回复

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源