OCR汉字输入的最佳解决方案

一、OCR汉字录入的最佳解决之道（论文文献综述）

蔡斯琪^[1]（2021）在《不定长中文文本图像的识别算法研究》文中认为文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,文本长短不一的特点,对中文文本的识别任务依旧富有挑战性。随着深度学习的兴起,给计算机视觉领域带来了更多的解决方案。针对以上问题,本文将利用深度学习技术,结合中文文本的特性,进行对不定长中文文本图像的序列识别模型算法研究,主要研究内容如下:（1）利用中文词频的分布差异,提出了基于bigram混合标签的联合CTCAttention方法。此方法首先从中文文本数据集中统计高频二字子词,把它们加入到原始单字符标签中,构建bigram混合标签,缩短了编码和译码长度,有助于减少循环神经网络的长期依赖问题。在解码阶段,CTC模块输出一个初步结果,其中混淆的预测被替换为二字子词。利用CTC的帧间对齐能力和初步预测结果,引导Attention模块聚焦注意力范围,精确解码。在两个中文文本合成数据集、一个手写中文文本数据集、一个街景长文本数据集上做了测试。与现有的方法相比,此方法在不定长中文文本识别上精确度最高。（2）降低中文词频的影响,提出了基于降低词汇依赖的CTC-Attention监督训练方法。此方法通过构建乱序文本语料,合成大量文本图像用于训练,降低训练集的词频差异。同时通过多任务学习方式同时训练基于CTC的模型和基于Attention的模型,使用额外的KL散度损失用于互监督两者的训练,最终使模型更加关注于使用视觉特征进行解码,降低了对词汇的依赖。实验表明,此互监督训练策略对两个模型的识别能力都有不同程度的提升。（3）开发了一套文本识别系统,包含Web界面的功能演示端和可供编程调用的应用程序接口（Application Programming Interface,API）。Web界面便于用户可视化操作,上传文本行图像查看识别结果。同时提供的API可供远程调用,按规范发送请求报文就可得到包含识别结果的JSON文件,不限制开发语言。

沈港^[2]（2021）在《基于RPA的自动化办公系统的设计与实现》文中进行了进一步梳理自动化设备逐渐取代人力是社会发展中无法逆转的趋势,制造行业通过标准化的机器人流水线实现生产自动化,给企业带来巨大的效益。近些年随着计算机和互联网的发展,大多数企业都已转换为数字化无纸办公模式,在实际办公中会有一些流程固定,经常重复执行的工作,这类工作往往浪费时间且可能出错,容易给企业带来不良影响。在这种背景下,一种在办公领域替代人力工作的机器流程自动化（Robotic Process Automation,RPA）技术应运而生,RPA技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作,再结合光学字符识别技术读取桌面文字信息,可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力,可以将员工从重复、低价值的工作中解放出来,将精力投入到高附加值的工作上,从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。S公司IT部门对公司各项工作流程进行梳理后,决定对其中的部分工作流程进行RPA开发,以减少员工的工作量,助力企业数字化转型。本文内容主要涉及笔者在实习期间参与开发的基于RPA的自动化办公系统。首先,本文介绍了自动化办公系统相关的研究背景,介绍了国内外对于自动化办公的探索历程,展示了在国内外一些自动化办公探索中的实际案例。通过对S公司现状和面临的问题进行分析,从而引申出本课题的研究意义,以及本项目完成后会给S公司带来的效益。随后对本系统开发过程中使用到的相关技术进行分析。其次,针对S公司每一项工作的现状进行分析,梳理其业务流程,对每条流程的可行性进行评估;然后根据业务流程需求,在Ui Path平台上进行自动化流程的设计与开发工作,并详细讲解每个模块开发中的关键点和使用的关键技术。最后,从系统测试方面对RPA机器人的测试目的和测试方法进行介绍,并对测试结果进行分析。结合测试中收集的数据,对比人力和本系统的效率,证明本自动化办公系统会给企业带来三个方面的实际效益。本文所开发的自动化办公系统为企业实际项目,现已经投入使用,经过上线部署并测试运行,证明其可满足S企业的业务需求,通过S企业的交付验证,本文可以为其它RPA系统研发提供一定的借鉴。

仁青东主^[3]（2021）在《基于深度学习的藏文古籍木刻本文字识别研究》文中认为文字识别（Character Recognition,CR）是利用计算机将人们可理解的文字或者图像信息自动转化为计算机可以阅读、查询与编辑的以计算机内码表示的方法。藏文是藏族文化的重要载体,在我国历史上藏文撰写的各类典籍数量仅次于汉文,是中华文化宝库中的瑰宝,具有重要的人文科学研究及应用价值。藏文文字识别是藏语计算语言学科的一项重要研究内容,涉及信息科学、数学、语言科学、认知科学以及其它方面的领域。因此,使用藏文文字识别来保护和使用藏文古籍文献已成为文献资源数字化的一个重要研究热点。然而,受制于藏文古籍文献数字化无损采集、版面分析、文字识别等技术的不成熟,很多珍贵文献、易破损的纸质文献无法采集和数字化。已数字化的藏文古籍文献资源数据也以图像信息为主,文献内容挖掘和知识库构建、检索技术研发都缺乏数据支撑。在藏文古籍文献中以木刻本形式文献占据数量最多,从而藏文古籍木刻本文字识别的研究尤为重要,国内外一些高校和企业开发了光学字符识别系统（Optical Character Recognition,OCR）,以识别印刷体藏文,据可查文献,针对藏文古籍木刻本文字识别的研究甚少。从目前已有的文献看,国内外藏文文字识别技术还停留在传统的方法上,没有融入藏文语言结构及文字构成规律,识别精度低,泛化能力弱,无法达到藏文文献数字保护和使用需求,亟待研发高识别率、高精度、高性能的数字化技术。深度学习技术近几年发展很快,在文字识别领域,该技术比传统的识别方法要优越很多,识别效果也明显。随着深度学习研究的深入,如何利用深度学习来进行端到端的学习,并摒弃基于人工规则的中间步骤,以提升序列学习的效果已经成为当前研究的热点。本文的研究基于深度学习的藏文古籍木刻本文字识别,提出基于深度神经网络的藏文古籍木刻本图像文字识别新方法,其主要贡献概括如下:（1）针对藏文古籍木刻本复杂版面特征,研究一种基于CTPN的文本检测算法,实现藏文古籍木刻本复杂版式文字的纵横向检测。（2）针对藏文古籍木刻本超长行特征,研究一种基于滑动窗的超长文本行动态拆分与识别技术,进行基于字符识别位置信息的相邻子块重叠字符处理,解决超长文本行古籍文字识别难题。（3）构建基于残差网络和双向长短时记忆循环神经网络、结合样本增强技术的具有高泛化性和鲁棒性的藏文古籍串识别模型,解决图像质量差、相邻文字粘连严重、上下行重叠度大的古籍文字识别难题。（4）采用拼写检查的方法进行错误音节的检测,并且用隐马尔科夫模型与语言模型相结合的方法,解决形态相似字符的识别校正难题。

李泊琦^[4]（2021）在《复杂场景下文本检测与识别方法研究》文中认为近年来随着互联网社区的快速发展,用户产生了大量含有文本的多媒体文件。文本识别技术成为多媒体检索与内容分析审核的核心方法,利用文本检测定位图像中文本区域并进行识别,实现智能化多媒体文件检索归类以及图像内容分析审核。文本识别技术作为多媒体文件中文字信息转变为结构化文本的一种重要手段,在智能信息录入、多媒体检索、内容分析审核、智能穿戴设备等方面得到广泛应用。然而在文本识别真实应用场景中并不能保证获取高质量稳定图像,来源于网络与多样化数据采集设备的文本图像多含有复杂背景与图像传感器运动噪声。具体体现为场景背景含有运动的云雾、光源、阴影和动画造成的前景后景剧烈变化,这样背景复杂化的特性给传统文本识别方法带来极大的挑战。传统方法对复杂场景文本检测存在检测结果不精准、边缘缺失、文本框不贴合的现象,也使得次级文本识别网络难以得到准确识别结果。本文针对复杂场景下文本检测识别算法,建立复杂场景中文序列文本识别数据集,并基于复杂场景对现有文本检测识别方法进行研究与改进。具体内容如下:1.本文构建了一个中文文本识别数据集。本文针对复杂场景下文本背景复杂多变的特点,确定多种复杂场景文本可能含有噪声、扭曲类型以进行数据扩展。本文分析人工文本与自然文本特点,使用多种方式完成语料库收集,并针对中文文本长尾分布特点构建重采样。采用基于大规模真实文本的语料库,并根据语料文本频率重采样构建了含有语义信息且分布均匀的中文文本识别数据集。从文本背景复杂度、样本分布均衡程度、文本形式多样性等角度对比,证明本文构建的中文文本识别数据集在复杂场景下优越性。2.本文研究了使用实例分割方式的文本检测算法,并在此基础上构建应用于复杂场景下的轻量型文本检测算法。本文在轻量型网络主干中使用空洞卷积,从感受野角度获取文本多尺度特征增强轻量型网络特征表达能力。本文使用输出归一化的可微分二值化函数,以可微分函数实现近似的文本区域二值化并融合到端到端网络进行训练。在后处理中以自适应阈值谱最大稳定极值区域作为文本边界区域,结合二值化函数稳定精确定位文本区域。3.本文研究了一种基于通道分组的注意力文本检测算法。基于注意力机制对轻量型网络特征表达与语义信息的增益效果,本文设计基于通道分组的注意力模块。结构上为通道优先的通道注意力与空间注意力级联,构造上以压缩激发形式压缩空间信息获取通道依赖性以压缩通道数增强空间相关性,进而将通道分组激发获取多组注意力谱进而获得唯一鲁棒的注意力权重。最后将该注意力模块与可微分二值化文本检测算法相结合,应用于置信度分支降低文本背景干扰增强文本特征显着性,用以构建本章基于通道分组的注意力文本检测算法。4.本文研究了一种文本序列识别模型的剪枝压缩方法。基于CRNN中以特征空间顺序作为时间序列的建模方式,使用全卷积替换RNN序列编码结构。设计应用于卷积层的结构化dropout丢弃指定像素及其对角相邻元素,减少标准dropout丢弃区域像素高相关性,稀疏化未剪枝网络参数。以卷积前批归一化放缩因子与偏移值共同作为通道参数重要程度度量,进行通道剪枝并固化通道筛选层。再次于本文构建的复杂场景下的中文文本识别数据集上训练微调,最终得到基于结构化剪枝的轻量化文本识别模型。

苏怡宸^[5]（2021）在《印刷体文本公式混合识别中的关键技术研究及应用》文中研究表明本文以中英文文本及数学表达式混合的扫描或拍照图像作为研究对象,提出了一个高效的印刷体文本公式混合识别算法,并设计和实现了一个相应的系统。主要研究内容如下:1.融合目标检测及传统方法的题块结构分析算法。对题块图像做预处理,并融合目标检测技术及传统图像处理方法,将题块图像中的文本行及题目配图准确地定位和切分出来。2.融合表达式向量的文本及数学公式混合图像内容检测算法。针对数学表达式与中英文文本混合识别困难的问题,本文结合分水岭算法、深度学习中的目标检测及场景文字检测方法等,将文本行中含有二维结构的数学表达式准确分离出来,并提出表达式向量概念,使用自然语言模型提取数学表达式的特征并对表达式做评价,进一步准确地分割文本行中的数学表达式与线性文本,从而分别处理不同的类型的图像,提高了识别的准确性。3.文本公式识别模型及对应的数据生成器。本文论述方法分别采用两个识别模型对线性中英文文本图像和含二维结构的数学表达式图像做文本识别。为了训练两个模型,设计并编写了对应的数据生成器,自动生成了大量数据,有效地训练了两个模型,使得模型在真实数据上也能取得较好地识别效果。基于上述的主要研究内容,本文设计和实现了一个印刷体文本公式混合识别系统,可以较好地识别数学题目类型的混合文本图像,同时也支持普通文档的识别,从而大幅提高数学试题录入的效率。本文最后在手工标注的100张图像的测试集上进行了测试,并与现有的商用混合识别引擎进行对比,结果证明我们的系统能达到接近甚至超过商用系统的效果,为下一步自动判卷及问题自动求解提供了高效便捷的数据支撑。

孙午凡^[6]（2020）在《基于OCR的过敏检查单识别》文中认为过敏疾病作为全世界最常见的疾病之一,影响着人们的生命健康,治疗过敏必须先确定过敏原。当前绝大多数医疗机构通过点刺皮试的方式对过敏原进行检测,点刺皮试的检测方法需要通过体外注射多项过敏原,并由医护人员观察病患对每个过敏原的反应结果,填写电子过敏检测单,再通过人工录入医疗系统,最终形成过敏电子报告单。由于过敏原检测的项目众多,目前采用的手动录入医疗过敏检查单的方法存在工作效率低和录入过程中易出错的问题,随着需要处理的医疗过敏检查单的工作日益增多,对过敏检查单的识别需求越来越迫切。针对上述情况,本文设计了一种针对过敏检查单文档图像自动识别的系统模块,论文主要工作如下:第一,针对患者手机端上传文档图片可能存在的阴影干扰和光照不平衡等图像质量问题提出了解决方案。首先针对文档图像出现的阴影干扰,本文在滑动窗口多阈值二值化的基础上,引入二维OTSU算法计算最佳阈值分割点,并通过邻近像素点的阈值对当前像素分割阈值进行自适应修改,成功降低了二值化过程中的阴影干扰;针对由于打印设备、拍摄设备、外界光线等造成的文档对比度较低的问题,本文在自适应伽马变换的基础上,利用方差加权引导滤波Retinex算法代替传统的高斯滤波提取光照图像,再利用自适应的伽马函数对图像进行校正,实现了文档图像增强。第二,针对过敏检查单中手写数字的识别问题,本文在卷积网络的基础上,针对梯度消失的问题,引入残差模块,并通过增加残差块的卷积层宽度,提高模型的表达能力,实现了可用于过敏检查单手写数字识别的改进的残差网络,使其分类结果准确率到达98.1%;针对过敏检查单中手写过敏原英文单词识别问题,在CRNN神经网络的卷积网络上,引入残差模块,并采用SELU激活函数和批归一化来加速网络收敛和提高了模型的泛化能力,在循环网络中采用BiGRU代替BiLSTM,进一步增加了网络的收敛速度,在后处理部分加入字典查找和N-gram后处理策略,进一步提升模型识别的准确率,最终实现对手动填写的过敏原的识别。实验表明本方法对手写英文词汇的识别准确率达到64.9%。第三,在上述算法的基础上,本文设计了针对过敏检查单文档图像的识别系统模块,该模块可以自动对受阴影和光照影响的文档图像进行预处理来改善文档质量;并针对过敏检查单的排版情况,模块实现过敏检查单的自动版面分析方,从而可以对文档中的关键信息进行提取;基于本文所实现的手写数字识别和英文单词识别算法,该模块可以有效实现过敏检查单中固定和非固定项的识别,提升了过敏检查单生成效率。

李红^[7]（2020）在《图像文字提取及基于Android的文字识别实现》文中研究说明在我们的实际生活场景中充满了各种带有高层语义信息的文字图像,如何从这些图像中提取人们感兴趣的文字信息成为了研究者们的关注的重点。图像文字识别技术包括文字定位、文字提取、文字识别等步骤,但在具体使用Android OCR软件进行文字识别时,可以设定手动截取文本区域的方式来实现文本区域定位,而且现在有很多成熟的文字识别引擎可以应用在Android平台文字识别软件的开发上,所以文字识别率主要是与文字提取有关,因此如何对文本图像进行高效的文字提取是非常重要的。文字提取主要包括文本图像的预处理以及文字切分这两部分。本文主要面向已经定位后的文本图像（文本图像来源于书籍、室内/外提示语、餐厅菜单以及商品外包装等）,针对文本与复杂背景的分割、文字切分及基于Android的文字识别应用进行了深入研究,具体工作内容如下:（1）图像预处理:对定位之后的文本图像进行图像的预处理是文字提取必不可少的一步,其主要目的是实现文本与图像背景的分割。本文对文本图像采用了灰度化、降噪处理、消除不均光照、边缘检测等处理过程,针对目标文本与图像背景分割采用了改进的基于大津法（Otsu）的双阈值二值化图像分割算法。本文设计的算法在一定程度上对有着复杂背景、不均光照等特征的文本图像消除复杂背景以及噪声的干扰,很好的完成了目标文本与复杂背景的分割;（2）文字切分:为了提高文字识别率,针对获得的文本二值化图像,本文对文字切分算法进行了深入研究。在具体的文字切分过程中,首先使用水平投影法进行行切分,然后垂直投影法计算文本图像中单个字符近似宽度值（以汉字为主）,最后根据字符近似宽度值,设计可变化模板并构造模板响应函数来切分字符。相比较单独使用投影法或模板法切分文字,在一定程度上克服了左右结构汉字和粘连字符容易被误分割的问题。（3）基于Android的文字识别实现:本文以图像文字提取算法作为技术手段,设计并实现了基于Android系统的汉字识别软件;除了文字识别功能外,在该软件的设计中还增加了实时显示汉字可视化图像以及语音播放功能。

曹钊铭^[8]（2020）在《基于深度学习的字符识别系统的研究与实现》文中提出随着计算机技术的飞速发展,图像作为信息技术中的重要传播载体,在信息的传播中占据着非常重要的地位,在大数据时代,如何高效地处理海量图像信息成为研究的热点问题[1]。随着人工智能的热潮的涌起,利用高度智能化的机器来替代各行各业的人工工作已经成为一种趋势。光学字符识别（OCR,optical character recognition）技术是计算机视觉中重要的组成部分,它模拟人类的视觉智能地对图像中的信息进行识别和判断。OCR技术旨在从图片中检测和识别文字信息,即对文本资料进行扫描,再对图像文件进行分析处理,获取文字及版面信息的过程。它主要应用于文档识别及证件识别,通过自动化处理,减少人工成本,提高工作效率,降低错误率。本文借助深度卷积神经网络实现一个适用于票据证件的字符识别系统。票据证件包括身份证,营业执照,零售许可证,增值税发票,交易确认单等。输入图像由手机或者相机等摄像设备拍摄而得。本文所设计的系统结合了数字图像处理,深度学习以及自然语言处理三大方面的技术,针对具体的应用场景,完成了中文OCR识别过程。本文的主要工作如下,1.针对手机拍摄的证件票据的图像质量参差不齐,图像中容易包含冗余的背景信息的问题,本文提出了一种基于目标底色的图像感兴趣区域（ROI）提取的算法对图像进行预处理,定位图像中证件票据所在的具体位置,去除图像中背景信息的干扰,提升整个字符识别系统的识别效果。该算法依据图像中所包含的证件票据的底色的不同,分为绿色,蓝色,红色三种底色,利用图像的边缘检测和形态学处理,获取目标（证件票据）在整幅图像中的位置坐标。实验证明,基于目标底色的图像感兴趣区域（ROI）提取算法的预处理过程能够很好地去除干扰信息,提升OCR识别效果。2.对现阶段的字符识别算法进行调研分析,现阶段的主流字符识别算法框架是“特征提取网络（CNN）+循环卷积网络（RNN）+CTC（Connectionist temporal classification）算法”。本文对以Google Net,Res Net以及Dense Net为特征提取网络的主流字符识别算法进行了实验,并对算法效果进行了对比分析。针对主流字符识别算法对硬件条件要求过高,占用内存过大,计算速度无法满足实时性要求的问题,提出了两种轻量级字符识别模型。一种是改进的Dense Net轻量级字符识别模型,一种是基于深度可分离卷积的轻量级字符识别模型,并将这两种轻量级网络与现有的主流框架下的字符识别网络进行了对比分析。实验可得,本文所提出的这两种轻量级字符识别算法与传统的字符识别算法相比,模型更小,运算速度更快。特别地,基于深度可分离卷积的字符识别网络得益于它卷积方式的不同,算法性能更为优异。3.由于字符识别过程利用卷积网络进行识别,无法达到百分之百的准确率,针对字符识别模型的识别结果存在的错误识别问题,本文提出了基于自然语言处理的中文形近字纠错算法用于字符识别网络后端,进一步提升字符识别系统的检测精度。字符识别网络是依据文字的形态特征进行判断输出,识别错误的字符与正确的字符大多是形态特征相似,因此本文所提出的纠错算法主要是针对中文形近字之间的错误。本文提出了两种对中文形近字的纠错算法,一种是基于隐马尔科夫模型（HMM）的纠错算法,它是检测到语句错误之后,使用字库对所检测到的错误进行替换,完成纠错,纠错字库由前端的字符识别模型经过一系列处理获得,使得算法更具针对性。另一种是基于encoder-decoder机制的纠错模型,依据前后文所提供的语义信息进行纠错,同时还考虑到了实际应用场景中专有名词在纠错时的不良影响。通过实验比较,基于HMM的纠错算法纠错速度更快,基于encoder-decoder机制的纠错算法在长语句纠错场景下表现优异,二者都可以很好地服务于证件票据的识别纠错。4.将上述本文所提出的算法融合,设计出一套针对证件票据的字符识别系统,并利用pyqt5工具完成系统与用户交互化界面的设计工作。本系统实现了对手机、相机等摄像设备所拍照得到的证件票据图像进行字符识别,转化为文字信息的过程,主要分为三个部分,包括图像目标区域的提取,字符识别,识别结果纠错。用户可以在交互界面中根据自己的需求建立自定义词典,选择所要识别证件票据的底色。识别完成后,用户可以得到字符识别网络的识别结果以及纠错之后的最终输出结果。经测试,在本文所设定的应用场景下,识别的准确率可达到98.37%。本文所设计的字符识别系统能够很好地达到对证件票据进行字符识别的准确度要求,同时,由于轻量级网络的引入,该系统在保证识别准确率的情况下还能够满足识别实时性的要求。

陈依琳^[9]（2020）在《护照信息智能识别系统的设计与实现》文中研究说明护照是在国与国之间旅行或办公时用于证明个人身份和国籍的有效法律证件,当进入或离开某个国家时需要对护照上的信息进行采集与核验,传统的信息采集主要依靠人工录入的方式来完成,由于护照上的信息过于庞大且分散,并且在录入时需要逐条核对护照上每一栏的内容,难免会存在效率低下、耗费大量时间以及难以保障正确率等缺陷。研究发现护照机读码包含了护照持有者所有的个人信息,且位置固定、格式统一。如果能准确识别机读码,护照上的信息也就能轻松获取。基于这一发现,本文设计了护照信息智能识别系统。本文通过对系统的需求分析,设计了系统总体实现方案,并根据设计方案完成了系统硬件部分搭建和系统软件部分开发设计,实现了护照信息智能识别系统的功能和需求。系统硬件部分包括高拍仪以及上位机,使用高拍仪对护照信息页进行图像采集并传入上位机。系统软件部分基于Python+Open CV完成对护照图像预提取、字符识别和界面展示的功能。首先,对护照图像进行清晰度的判别、倾斜图像的矫正以及机读码区域图像的提取和预处理;其次,对提取到的机读码区域字符采用了开源的光学字符识别（Optical Character Recognition,OCR）引擎Tesseract进行识别,针对识别率不高的问题采用字符识别优化工具训练大量样本提高了字符识别率;最后,利用Py Qt开发出护照信息智能识别系统软件界面以展示详细的护照信息,并增加了护照人脸图像显示功能使界面信息更加全面。完成系统设计后进行联机调试。实验结果表明护照信息智能识别系统性能达到了设计要求,有效地提高了护照信息登记的效率和准确率。

黎贤钊^[10]（2020）在《增值税发票内容自动识别系统研究》文中提出增值税发票在社会经济活动中具有极其重要的意义和作用,特别是发票上有很多重要的信息需要存储在计算机上。为了降低人工录入的成本,本文设计了一款基于卷积神经网络的增值税发票自动识别系统。该系统是基于卷积神经网络的自动化系统,它包含了两个作用不同的卷积神经网络,一个用以检测目标区域,另外一个用以获得目标区域的具体字符信息。系统采用扫描仪对多张发票进行图像采集,系统主要由输入、预处理、切割、识别、定位、记录6个模块组成。增值税发票识别系统的关键模块是定位和识别,这两个模块的精度与速度决定了整个系统的好坏。传统的定位方法不能很好地平衡检测精度和时延性的问题,为了解决这一问题,在系统的定位模块中引入YOLOv3检测算法对目标发票目标区域进行定位,使目标检测能更好地提升检测精度的同时又不会产生过高的系统延迟。在字符识别方面,模板匹配具有自身的局限性,若原图像中的匹配目标发生旋转或大小变换,模板匹配的自身局限性决定了该算法在多尺度或图形略微畸变的情况下不能实现精确的匹配。在发票系统的识别模块中,为了解决模板匹配的局限性,采用了Inception卷积神经网络对字符进行识别,使图像能在一般情况下都能完成精确的识别。本文主要内容和成果如下:1.图像预处理模块改进本文在增值税发票内容自动识别系统的图像预处理模块中,针对发票倒置判断容易发生误判的问题,对发票倒转的判断条件进行了改进;在增值税发票内容自动识别系统中的切割模块中,针对人工设置阈值二值化分离前景背景不准确的问题,采用了大津算法对图片进行自适应阈值计算,为了解决局部有污点或者亮度不均的发票对象,把图像分成若干块采用大津算法。2.基于卷积神经网络的目标区域的定位由于新兴的深度学习卷积神经网络技术在很多计算机视觉任务中的性能已经超过了传统方法,所以尝试在发票系统中使用神经网络模型替换传统的算法完成目标区域定位任务,为了更好满足比传统算法更好在检测速度与检测精度之间作更好的平衡,且相对于传统图像匹配算法具有更好的鲁棒性,改进了YOLOv3原算法的一些基本设置,适配于发票背景下进行目标定位,并对比了YOLOv3算法与传统SVM+HOG算法在目标检测上的速度。3.基于卷积神经网络的字符识别由于汉字的特殊性,早前发票识别系统大多很好的解决了数字识别的难题,并实现了很高的精确度,但是并没有有效解决汉字识别的问题。过去,汉字识别多使用一些人工规则来完成识别匹配,如特征点匹配、像素点匹配、计算图像欧氏距离和余弦距离的匹配。使用这些匹配方式会随着模板和种类的数量增多而导致识别性能下降。为了克服模板匹配中由于噪点干扰、半遮挡、模糊、尺度不一致或者角度不一致产生的匹配失败的困难,现对系统中识别模块使用深度学习技术中的卷积神经网络进行字符识别,使图像能在一般情况下都能完成精确的识别。

二、OCR汉字录入的最佳解决之道（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、OCR汉字录入的最佳解决之道（论文提纲范文）

（1）不定长中文文本图像的识别算法研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 绪论

1.1 研究背景与意义

1.2 本文的主要工作及创新点

1.3 本文的结构组织

2 相关研究工作与理论基础

2.1 文本识别的发展历程

2.2 文本识别方法研究现状与理论

2.2.1 基于CTC的识别方法

2.2.2 基于Attention的识别方法

2.2.3 基于CTC-Attention的识别方法

2.2.4 基于子词的方法

2.2.5 基于语言模型的后处理方法

3 基于bigram混合标签的联合CTC-Attention方法

3.1 引言

3.2 基于bigram的混合标注方式

3.3 联合CTC-Attention解码模型

3.3.1 共享编码器模块

3.3.2 CTC模块

3.3.3 Attention模块

3.3.4 损失函数

3.4 实验

3.4.1 实验设置

3.4.2 实验结果与分析

3.5 小结

4 基于降低词汇依赖的CTC-Attention互监督训练方法

4.1 引言

4.2 乱序文本语料的生成

4.3 CTC-Attention互监督训练策略

4.3.1 互监督训练框架

4.3.2 损失函数

4.4 实验

4.4.1 实验设置

4.4.2 实验结果与分析

4.5 小结

5 不定长中文文本图像识别系统

5.1 引言

5.2 系统设计

5.2.1 服务器端设计

5.2.2 前端Web设计

5.3 系统开发与运行环境

5.4 效果展示

5.5 小结

6 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

（2）基于RPA的自动化办公系统的设计与实现（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景

1.2 问题提出

1.3 国内外研究现状

1.4 研究意义及本人工作

1.5 本文组织结构

第2章相关技术介绍

2.1 RPA

2.2 UiPath

2.3 VBA

2.4 C#

2.5 OCR技术

2.5.1 OCR发展历程

2.5.2 OCR技术基本原理

2.5.3 验证码识别

2.6 本章小结

第3章 S公司工作现状与需求分析

3.1 总体需求分析

3.2 生产线库存管理

3.2.1 业务背景

3.2.2 需求分析

3.3 更新供应链计划书

3.3.1 业务背景

3.3.2 需求分析

3.4 银行卡交易信息录入

3.4.1 业务背景

3.4.2 需求分析

3.5 美团外卖交易信息录入

3.5.1 业务背景

3.5.2 需求分析

3.6 电子商务应收账款结算

3.6.1 业务背景

3.6.2 需求分析

3.7 现金交易应收账款结算

3.7.1 业务背景

3.7.2 需求分析

3.8 美团账单月报生成

3.8.1 业务背景

3.8.2 需求分析

3.9 可行性分析

3.10 本章小结

第4章详细设计与实现

4.1 系统总体设计

4.2 生产线库存管理模块开发

4.2.1 当前库存量计算

4.2.2 原料可用日期计算

4.2.3 标记低库存原料和发送邮件

4.3 更新供应链计划书模块开发

4.3.1 文件层面开发

4.3.2 内部数据层面开发

4.3.3 配置文件

4.3.4 决策自动化设计

4.4 银行卡交易信息录入模块开发

4.4.1 用户图形界面自动化

4.4.2 后台自动化开发

4.4.3 OCR数字识别

4.4.4 决策自动化设计

4.4.5 配置文件设计

4.5 美团外卖交易信息录入模块开发

4.6 电子商务应收账款结算模块开发

4.6.1 用户图形界面自动化

4.6.2 验证码识别

4.6.3 相关金额计算设计

4.6.4 决策自动化设计

4.6.5 配置文件设计

4.7 现金交易应收账款结算开发

4.7.1 查询可清账店铺的算法设计

4.7.2 报告清账结果设计

4.7.3 配置文件设计

4.8 美团账单月报生成

4.8.1 计算月报数据

4.8.2 SMTP发送

4.8.3 配置文件设置

4.9 本章小结

第5章系统测试

5.1 测试目的和方法

5.2 测试环境

5.3 测试结果分析

5.4 运行效益分析

5.4.1 减少人力工作时间

5.4.2 节约企业运营成本

5.4.3 保证工作完成质量

5.5 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间主要成果

致谢

附录

（3）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 传统藏文OCR技术

1.3.1 藏文字符字符归一化

1.3.2 藏文字符预分类

1.3.3 藏文文本切分

1.4 基于深度学习OCR技术

1.4.1 文字检测

1.4.2 文字识别

1.5 主要研究内容

1.6 创新点

1.7 本文组织结构

第2章藏文古籍木刻本数据集构建与生成

2.1 藏文文字与版式特点

2.1.1 藏文古籍文字特点

2.1.2 梵音藏文转写体特点

2.1.3 藏文古籍文献版式特点

2.2 字符集创建

2.3 藏文古籍木刻本图像标注方法

2.3.1 标注规范

2.3.2 文本位置编号

2.3.3 文本内容标注

2.4 稀缺训练集扩充方法

2.5 小结

第3章藏文古籍木刻本图像预处理

3.1 低质量古籍图像二值化方法

3.2 藏文古籍木刻本复杂背景去噪方法

3.2.1 空间滤波去噪

3.2.2 非局部去噪

3.3 藏文古籍木刻本倾斜校正方法

3.3.1 倾斜角检测

3.3.2 Radon变换

3.4 小结

第4章藏文古籍木刻本复杂版式文本检测

4.1 文本检测方法

4.2 基于CTPN的藏文古籍文本检测

4.2.1 文本区域构建

4.2.2 竖向文本行检测

4.3 实验

4.3.1 实验数据

4.3.2 实验系统配置

4.3.3 实验结果

4.4 小结

第5章基于深度学习的藏文古籍木刻本文字识别

5.1 藏文古籍木刻本超长行识别

5.1.1 水平投影

5.1.2 垂直投影

5.1.3 超长行切分

5.2 藏文古籍木刻本串识别模型

5.2.1 古籍图像特征提取方法

5.2.2 古籍序列图像前后关系学习方法

5.2.3 序列合并

5.2.4 模型训练

5.3 实验

5.3.1 实验数据

5.3.2 评测指标

5.3.3 实验结果与分析

第6章藏文古籍木刻本文字识别后处理

6.1 藏文相似字符分类

6.2 字符相似度计算方法

6.3 识别错误检测方法

6.4 错误纠正方法

6.4.1 基于隐马尔科夫模型的识别错误纠正

6.4.2 语言模型的藏文识别错误纠正

6.5 原型系统架构

6.6 小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

攻读博士学位期间发表的论文及科研成果

1、发表/投稿论文

2、发明专利

3、软件着作权

4、主持和参与科研项目

5、获奖

致谢

（4）复杂场景下文本检测与识别方法研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究工作的背景与意义

1.2 国内外研究现状

1.2.1 文本检测算法的研究现状

1.2.2 文本识别算法的研究现状

1.3 本文的主要研究内容

1.4 本文的结构安排

第二章复杂场景下中文文本识别数据集的建立

2.1 引言

2.2 复杂场景文本的特性

2.3 中文文本分布特性

2.4 本章数据集的构建

2.5 本章数据集的对比与分析

2.6 本章小结

第三章基于可微分二值化的复杂文本检测算法

3.1 引言

3.2 本章算法框架

3.3 基于可微分二值化的标签与网络结构

3.3.1 标签生成

3.3.2 网络结构设计

3.4 可微分二值化函数

3.5 复杂场景下后处理MSER

3.6 实验结果及分析

3.6.1 实验环境

3.6.2 网络参数与模型训练

3.6.3 客观实验结果分析

3.6.4 主观实验结果分析

3.7 本章小结

第四章基于通道分组与注意力机制的文本检测算法

4.1 引言

4.2 本章算法框架

4.3 基于通道分组的注意力模块方法

4.3.1 现有通道注意力的局限性

4.3.2 通道分组的注意力模块结构设计

4.4 通道分组的注意力信息融合设计

4.5 基于通道分组注意力的文本检测算法

4.6 实验结果及分析

4.6.1 网络参数与模型训练

4.6.2 客观实验结果分析

4.6.3 主观实验结果分析

4.7 本章小结

第五章基于结构化剪枝的文本识别算法

5.1 引言

5.2 本章算法框架

5.3 结合结构化剪枝的文本识别网络结构设计

5.3.1 现有文本识别网络模型剪枝局限性

5.3.2 基于结构化剪枝的文本识别网络设计

5.4 基于结构化dropout的参数正则方法

5.4.1 dropout在卷积神经网络中的局限性

5.4.2 结构化dropout的设计

5.5 基于结构化剪枝的文本识别算法

5.6 实验结果及分析

5.6.1 网络参数与模型训练

5.6.2 客观实验结果分析

5.6.3 主观实验结果分析

5.7 本章小结

第六章总结与展望

6.1 总结

6.2 展望

致谢

参考文献

攻读硕士学位期间取得的成果

（5）印刷体文本公式混合识别中的关键技术研究及应用（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究工作的背景与意义

1.2 国内外研究现状

1.2.1 OCR技术整体发展状况

1.2.2 图像中文本检测与识别技术的研究情况

1.2.3 数学表达式识别的技术的发展状况

1.3 本文的研究内容与创新点

1.4 本论文的结构安排

第二章相关理论与技术基础

2.1 印刷体文本公式混合识别任务的分析

2.2 卷积神经网络及序列文本识别技术

2.2.1 卷积神经网络

2.2.2 残差神经网络

2.2.3 卷积循环神经网络

2.3 目标检测技术与场景文字检测技术

2.3.1 基于区域的卷积神经网络模型及其发展

2.3.2 场景文字检测技术

2.4 数学表达式识别技术

2.5 自然语言处理中的词向量提取技术

2.6 相关工具

2.6.1 OpenCV

2.6.2 PyTorch

2.7 本章小结

第三章题块图像的结构分析技术

3.1 图像的预处理技术

3.2 基于传统方法的题块图像结构分析技术

3.3 基于神经网络模型的题块图像结构分析技术

3.3.1 数据集的制作

3.3.2 神经网络模型设计

3.4 题块图像结构分析后处理算法

3.5 本章小结

第四章文本行图像的结构分析技术及识别技术

4.1 文本行图像处理的任务分析

4.2 基于分水岭算法的行内结构分析预处理

4.3 基于神经网络模型的文本行结构分析及后处理方法

4.3.1 文本行图像中数学表达式检测的数据集制作

4.3.2 基于神经网络模型的文本行结构分析与后处理

4.4 基于自然语言模型的表达式定位框精细调整

4.4.1 表达式向量数据集的准备

4.4.2 基于表达式向量的表达式评价

4.4.3 表达式评价在表达式定位框精细调整中的应用

4.5 线性混合文本图像与数学表达式图像的识别

4.5.1 线性混合文本识别的数据集制作

4.5.2 基于CRNN的线性混合文本识别

4.5.3 数学表达式数据集的制作

4.5.4 基于TreeDecoder的数学表达式识别

4.6 本章小结

第五章整体系统实现与测试

5.1 系统实现

5.1.1 总体设计

5.1.2 实验环境

5.2 模型训练与效果

5.2.1 基于特征金字塔的Faster R-CNN模型的训练与效果

5.2.2 PSENet模型的训练与效果

5.2.3 BERT模型的训练与效果

5.2.4 CRNN模型的训练与效果

5.2.5 TreeDecoder模型的训练与效果

5.3 系统测试

5.3.1 测试结果

5.3.2 结果分析与总结

5.4 本章小结

第六章全文总结与展望

6.1 全文总结

6.2 工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

（6）基于OCR的过敏检查单识别（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 研究背景

1.2 OCR研究现状

1.2.1 OCR

1.2.2 OCR预处理研究进展

1.2.3 OCR检测与识别研究进展

1.2.4 OCR工业产品

1.3 OCR发展存在的问题及本文内容

1.3.1 OCR存在的问题

1.3.2 主要研究的内容

1.3.3 论文结构安排

第二章预处理相关理论及技术

2.1 OCR预处理流程

2.2 图片几何矫正方法

2.2.1 图像几何矫正

2.2.2 图像扭曲矫正算法

2.2.3 图像倾斜矫正算法

2.2.4 图像透视矫正算法

2.3 文档字符分割

2.3.1 文档分割

2.3.2 投影分割算法

2.4 版面分析

2.4.1 版面分析

2.4.2 轮廓跟踪算法

2.5 本章小结

第三章低质文档预处理算法优化

3.1 自适应阴影处理理论基础

3.1.1 图像自适应二值化

3.1.2 OTSU算法

3.1.3 二维OTSU算法

3.2 改进自适应二值化

3.2.1 滑动窗口二维OTSU

3.2.2 阈值修正

3.3 自适应伽马变换理论

3.3.1 伽马变换

3.3.2 自适应伽马变换

3.3.3 引导滤波

3.3.4 方差加权引导滤波

3.4 改进的自适应伽马变换

3.5 实验

3.5.1 实验环境

3.5.2 实验及结果

3.6 本章小结

第四章 OCR手写体识别

4.1 OCR手写体数字识别模型

4.1.1 Alexnet

4.1.2 随机森林

4.1.3 GoogLeNet网络

4.2 改进的残差网络OCR手写数字识别模型

4.2.1 残差网络

4.2.2 改进的残差数字识别模型

4.3 CRNN网络模型

4.3.1 CRNN模型

4.3.2 卷积网络和循环网络

4.3.3 转录层网络

4.4 改进的CRNN网络模型

4.4.1 卷积网络设计

4.4.2 循环网络设计

4.5 字典检测后处理

4.6 实验结果

4.6.1 实验环境

4.6.2 实验及结果

4.7 本章小结

第五章过敏检查单识别模块设计

5.1 医疗过敏检查单识别问题分析

5.2 过敏检查单识别的整体框架

5.3 过敏检查单固定项设计

5.3.1 固定项数字识别模型框架

5.3.2 风团大小和过敏结果识别设计

5.4 过敏检查单非固定项设计

5.4.1 手动添加项识别模型框架

5.4.2 手写过敏原设计

5.5 模块测试

5.6 本章小结

第六章总结与展望

6.1 本文总结

6.2 展望

参考文献

致谢

作者简介

（7）图像文字提取及基于Android的文字识别实现（论文提纲范文）

摘要

Abstract

变量注释表

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 汉字可视化图像概述

1.4 本文的研究内容和结构安排

2 相关基础理论

2.1 数字图像处理基础知识

2.2 图像文字识别流程

2.3 Android系统构架及开发特色

2.4 本章小结

3 图像预处理算法研究

3.1 灰度化

3.2 降噪处理

3.3 削弱不均匀光照

3.4 边缘检测

3.5 二值化

3.6 本章小结

4 文字切分算法研究

4.1 水平投影法确定文本行

4.2 垂直投影切分法

4.3 确定单字符近似宽度值

4.4 模板切分法切分字符

4.5 实验与分析

4.6 本章小结

5 基于Android的文字识别实现

5.1 系统识别汉字流程

5.2 系统功能模块

5.3 系统性能测试

5.4 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

作者简历

致谢

学位论文数据集

（8）基于深度学习的字符识别系统的研究与实现（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的主要研究内容及论文主要结构

第二章图像ROI提取算法

2.1 引言

2.2 现阶段图像ROI提取技术

2.3 边缘检测

2.3.1 Sobel算子

2.3.2 Laplacian算子

2.3.3 Canny边缘检测算子

2.3.4 Scharr滤波器

2.3.5 边缘检测算子对比分析

2.4 图像的形态学处理

2.4.1 图像的腐蚀

2.4.2 图像的膨胀

2.5 图像ROI提取算法的实现

2.6 本章小结

第三章基于轻量级卷积神经网络的字符识别算法

3.1 引言

3.2 特征提取网络

3.2.1 LeNet及 AlexNet

3.2.2 VGGNet

3.2.3 GoogleNet

3.2.4 ResNet

3.2.5 DenseNet

3.2.6 特征提取网络小结

3.3 基于主流框架的字符识别算法的实现

3.3.1 数据集的准备

3.3.2 网络模型

3.3.3 算法性能对比分析

3.4 深度卷积网络的轻量化处理算法

3.4.1 网络的计算复杂度

3.4.2 深度可分离卷积思想

3.5 基于轻量级网络的字符识别算法的实现

3.5.1 数据集的准备

3.5.2 基于DenseNet的轻量级字符识别模型

3.5.3 基于深度可分离卷积的轻量级字符识别模型

3.5.4 算法性能分析

3.6 本章小结

第四章基于NLP的中文形近字纠错算法

4.1 引言

4.2 HMM基本算法模型

4.2.1 隐马尔科夫模型

4.2.2 N-gram语言模型

4.2.3 中文分词算法

4.3 基于HMM的形近字纠错算法的实现

4.3.1 词典的构成

4.3.2 基于HMM的形近字纠错算法模型

4.4 序列处理算法模型

4.4.1 词嵌入

4.4.2 循环卷积网络(RNN)

4.4.3 基于RNN的序列处理模型

4.4.4 基于CNN的序列处理模型

4.4.5 基于Attention的序列处理模型

4.4.6 三种序列处理模型小结

4.5 基于encoder-decoder机制的形近字纠错算法的实现

4.5.1 数据集的准备

4.5.2 基于encoder-decoder机制的形近字纠错算法模型

4.6 两种形近字纠错算法的对比分析

4.7 本章小结

第五章基于深度学习的字符识别系统的实现

5.1 引言

5.2 字符识别系统实现方案

5.3 字符识别系统识别效果

5.4 本章小结

第六章全文总结与展望

6.1 总结

6.2 展望

参考文献

作者简介

致谢

（9）护照信息智能识别系统的设计与实现（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文研究内容

1.4 章节安排

第二章护照信息识别系统需求分析及总体设计

2.1 系统需求分析

2.1.1 功能需求

2.1.2 性能指标

2.2 系统总体设计方案

2.2.1 系统硬件设计方案

2.2.2 系统软件设计方案

2.3 本章小结

第三章护照图像质量评估以及预处理的实现

3.1 图像清晰度判别

3.1.1 图像清晰度判别方法

3.1.2 实验及结果分析

3.2 倾斜图像的矫正

3.2.1 倾斜图像校正方法

3.2.2 实验及结果分析

3.3 ROI区域图像提取

3.3.1 ROI图像提取方法

3.3.2 实验及结果分析

3.4 ROI图像预处理

3.4.1 ROI图像预处理方法

3.4.2 实验及结果分析

3.5 本章小结

第四章护照信息识别的实现

4.1 OCR字符识别

4.1.1 字符识别方法

4.1.2 实验及结果分析

4.2 字符识别率的优化

4.2.1 字符识别优化方法

4.2.2 实验及结果分析

4.3 护照信息界面展示

4.3.1 字符信息分类

4.3.2 界面设计

4.3.3 人脸图像检测

4.3.4 实验及结果分析

4.4 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士学位期间取得的科研成果

（10）增值税发票内容自动识别系统研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景以及意义

1.2 国内外研究现状及分析

1.2.1 深度学习的研究现状

1.2.2 基于卷积神经网络的图像分类研究现状

1.2.3 场景文本检测与识别的研究现状

1.2.4 增值税发票自动识别系统研究现状

1.3 本文主要研究工作及章节内容安排

1.3.1 本文主要研究工作内容

1.3.2 章节内容安排

第二章版面分析与系统架构

2.1 引言

2.2 版面分析

2.3 系统架构

2.3.1 输入模块

2.3.2 预处理模块

2.3.4 定位模块

2.3.5 切割模块

2.3.6 识别模块

2.3.7 记录模块

2.4 本章小结

第三章基于卷积神经网络的目标区域的定位

3.1 引言

3.2 建立检测模型数据集

3.2.1 数据增强

3.2.2 数据集标注

3.3 基于YOLOv3模型的定位模块

3.3.1 Anchor机制及其设置

3.3.2 K-means算法

3.3.3 检测器结构

3.4 实验结果与分析

3.4.1 实验环境

3.4.2 定位实验

3.5 本章小结

第四章基于卷积神经网络的字符识别

4.1 引言

4.2 建立分类模型数据集

4.3 基于Inception模型的识别模块

4.3.1 分类器结构

4.3.2 分类模型输出层

4.4 实验结果与分析

4.5 本章小结

总结与展望

参考文献

攻读硕士学位期间发表成果

致谢

四、OCR汉字录入的最佳解决之道（论文参考文献）

[1]不定长中文文本图像的识别算法研究[D]. 蔡斯琪. 北京交通大学, 2021(02)
[2]基于RPA的自动化办公系统的设计与实现[D]. 沈港. 东华大学, 2021(09)
[3]基于深度学习的藏文古籍木刻本文字识别研究[D]. 仁青东主. 西藏大学, 2021(11)
[4]复杂场景下文本检测与识别方法研究[D]. 李泊琦. 电子科技大学, 2021(01)
[5]印刷体文本公式混合识别中的关键技术研究及应用[D]. 苏怡宸. 电子科技大学, 2021(01)
[6]基于OCR的过敏检查单识别[D]. 孙午凡. 西安电子科技大学, 2020(02)
[7]图像文字提取及基于Android的文字识别实现[D]. 李红. 山东科技大学, 2020(06)
[8]基于深度学习的字符识别系统的研究与实现[D]. 曹钊铭. 东南大学, 2020(01)
[9]护照信息智能识别系统的设计与实现[D]. 陈依琳. 西北大学, 2020(02)
[10]增值税发票内容自动识别系统研究[D]. 黎贤钊. 广东工业大学, 2020(02)

标签：自然语言处理论文; ocr文字识别软件论文; 网络模型论文; 文字识别论文; 图像融合论文;

OCR汉字输入的最佳解决方案

一、OCR汉字录入的最佳解决之道（论文文献综述）

二、OCR汉字录入的最佳解决之道（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、OCR汉字录入的最佳解决之道（论文提纲范文）

（1）不定长中文文本图像的识别算法研究（论文提纲范文）

（2）基于RPA的自动化办公系统的设计与实现（论文提纲范文）

（3）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

（4）复杂场景下文本检测与识别方法研究（论文提纲范文）

（5）印刷体文本公式混合识别中的关键技术研究及应用（论文提纲范文）

（6）基于OCR的过敏检查单识别（论文提纲范文）

（7）图像文字提取及基于Android的文字识别实现（论文提纲范文）

（8）基于深度学习的字符识别系统的研究与实现（论文提纲范文）

（9）护照信息智能识别系统的设计与实现（论文提纲范文）

（10）增值税发票内容自动识别系统研究（论文提纲范文）

四、OCR汉字录入的最佳解决之道（论文参考文献）

猜你喜欢