飞浆介绍图片
简介
飞桨(PaddlePaddle)OCR(Optical Character Recognition)是一个开源的深度学习框架,用于文字识别任务。它提供了一系列强大的工具和模型,可以用于实现各种文本识别应用。
飞桨OCR主要包括以下几个方面的功能和特点:
文字检测(Text Detection):通过检测图像中的文本区域,确定文本的位置和边界框。文字识别(Text Recognition):将检测到的文本区域进行识别,将图像中的文字转化为可读的文本内容。文字方向检测(Text Direction Detection):自动检测文本的朝向,包括水平、垂直和倾斜等方向。多语言支持:飞桨OCR可以处理多种语言的文字识别,包括中文、英文以及其他语种。
飞桨OCR提供了预训练的模型,例如EAST、CRNN和Rosetta等,这些模型可以在各种场景下进行文字识别。此外,飞桨OCR还提供了丰富的工具函数和API,方便用户进行模型训练、推理和部署。
表格识别效果图
项目介绍
项目连接:
功能很强大,开源做以下检测项:
飞浆支持识别项目
安装难点
使用该项目需要安装项目文件里的requirements.txt,里面的依赖包,其他的正常pip install都很顺利,就lanms-neo==1.0.2比较折腾,window环境要安装lanms-neo,Luix安装lanms;
pip install lanms-neo==1.0.2#没有安装Visual Studio无效
问题
报错: Microsoft Visual C++ 14.0 is required gcc:,gcc: error: /EHsc: No such file or directory ,gcc.exe’ failed with exit status 1
解决办法
我在网上找了很多方法试了图片修改文字软件,就是不想Visual Studio,但是都没成功!最后还是安装了Visual Studio 2022不想走弯路的直接按照一下安装。
安装的网址:
Microsoft C++ 生成工具 – Visual Studio
下载 C++ Build Tools,并安装C++桌面开发,默认前几个就行
安装C++
安装完成之后,在运行一下代码
pip install lanms-neo==1.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
安装成功
模型缩写介绍
飞桨OCR(文字识别)中的一些常用模型和任务的缩写及其含义如下:
DET:Text Detection(文字检测) DET模型用于检测图像中的文本区域,并确定文本的位置和边界框。CLS:Text Classification(文本分类) CLS模型用于将给定的文本分为不同的类别或标签。文字方向分类通常使用深度学习模型进行文本分类任务。E2E:End-to-End Text Recognition(端到端文字识别) E2E模型将文字检测和文字识别任务整合在一起,实现从图像到最终文本结果的完整识别过程。REC:Text Recognition(文字识别) REC模型用于将图像中的文字转换为可读的文本内容。文本识别模型可以使用传统的方法(如CRNN)或基于Transformer的方法(如Rosetta)。SR:Speech Recognition(语音识别) SR模型用于将语音信号转换为文字。通过训练深度学习模型,可以实现准确的语音识别任务。KIE:Knowledge Information Extraction(知识信息抽取) KIE模型用于从文本中提取有用的知识信息,例如实体识别、关系抽取和事件提取等任务。
这些缩写代表了OCR中涉及的不同任务和模型,通过组合使用它们,可以构建出适用于不同场景和需求的文字识别系统
模型推理调用文本检测模型推理
文本检测模型推理,默认使用DB模型的配置参数。超轻量中文检测模型推理,可以执行如下命令:
# 下载超轻量中文检测模型:
wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar
tar xf ch_PP-OCRv3_det_infer.tar
python3 tools/infer/predict_det.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\"
可视化文本检测结果默认保存到./inference_results文件夹里面,结果文件的名称前缀为'det_res';
使用CPU进行预测,执行命令如下:
python3 tools/infer/predict_det.py --image_dir=\"./doc/imgs/1.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --use_gpu=False
文本识别模型推理
注意 PP-OCRv3的识别模型使用的输入shape为3,48,320, 如果使用其他识别模型,则需根据模型设置参数–rec_image_shape。此外,PP-OCRv3的识别模型默认使用的rec_algorithm为SVTR_LCNet,注意和原始SVTR的区别。
超轻量中文识别模型推理,可以执行如下命令:
# 下载超轻量中文识别模型:
wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar
tar xf ch_PP-OCRv3_rec_infer.tar
python3 tools/infer/predict_rec.py --image_dir=\"./doc/imgs_words/ch/word_4.jpg\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\"
英文识别模型推理
英文识别模型推理,可以执行如下命令, 注意修改字典路径:
# 下载英文数字识别模型:
wget https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_infer.tar
tar xf en_PP-OCRv3_rec_infer.tar
python3 tools/infer/predict_rec.py --image_dir=\"./doc/imgs_words/en/word_1.png\" --rec_model_dir=\"./en_PP-OCRv3_rec_infer/\" --rec_char_dict_path=\"ppocr/utils/en_dict.txt\"
方向分类模型推理
方向分类模型推理,可以执行如下命令:
# 下载超轻量中文方向分类器模型:
wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar
tar xf ch_ppocr_mobile_v2.0_cls_infer.tar
python3 tools/infer/predict_cls.py --image_dir=\"./doc/imgs_words/ch/word_4.jpg\" --cls_model_dir=\"ch_ppocr_mobile_v2.0_cls_infer\"
文本检测、方向分类和文字识别串联推理
注意 PP-OCRv3的识别模型使用的输入shape为3,48,320, 如果使用其他识别模型,则需根据模型设置参数–rec_image_shape。此外图片修改文字软件,PP-OCRv3的识别模型默认使用的rec_algorithm为SVTR_LCNet,注意和原始SVTR的区别。
以超轻量中文OCR模型推理为例,在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径,也支持PDF文件、参数det_model_dir,cls_model_dir和rec_model_dir分别指定检测,方向分类和识别的inference模型路径。参数use_angle_cls用于控制是否启用方向分类模型。use_mp表示是否使用多进程。total_process_num表示在使用多进程时的进程数。可视化识别结果默认保存到 ./inference_results 文件夹里面。
# 使用方向分类器
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --cls_model_dir=\"./cls/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=true
# 不使用方向分类器
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=false
# 使用多进程
python3 tools/infer/predict_system.py --image_dir=\"./doc/imgs/00018069.jpg\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=false --use_mp=True --total_process_num=6
# 使用PDF文件,可以通过使用`page_num`参数来控制推理前几页,默认为0,表示推理所有页
python3 tools/infer/predict_system.py --image_dir=\"./xxx.pdf\" --det_model_dir=\"./ch_PP-OCRv3_det_infer/\" --cls_model_dir=\"./cls/\" --rec_model_dir=\"./ch_PP-OCRv3_rec_infer/\" --use_angle_cls=true --page_num=2
附一张识别效果图
1、本站资源针对会员完全免费,站点中所有资源大部分为投稿作者付费教程,切勿轻易添加教程上除本站信息外的任何联系方式,谨防被割,如有疑问请随时联系客服。
2、本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。