|  客服中心  |  合作联系
搜刊网
论文下载
您当前位置
首页 > 论文下载 > 信息科技 > 自由手写体数字识别系统的设计与实现
自由手写体数字识别系统的设计与实现
来源:互联网 qikanw | 魏丽芹
【分  类】 信息科技
【关 键 词】 手写体数字;预处理;模式识别;特征提取
【来  源】 互联网
【收  录】 中文学术期刊网
正文:

  摘 要

  本文论述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字的预处理进行了介绍,包括二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了如何提取数字字符的结构特征和笔划特征,并详细地描述了知识库的构造方法;最后采用了以知识库为基础的模板匹配识别方法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性能。

  关键词: 手写体数字;预处理;模式识别;特征提取

  自由手写体数字识别系统的设计与实现 1.研究概况 1.1 引言

  手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。

  在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案。

  1.1.1 研究的实际背景

  字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。

  1.1.2 研究的理论意义

  手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:

  1.阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。

  2.由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络(ANN)------相当一部分的ANN模型和算法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点。

  3.尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题(Open problem)。

  4.手写数字的识别方法很容易推广到其它一些相关问题棗一个直接的应用是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究的。

  1.1.3 研究的难度

  数字的类别只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要原因是:十种数字字形相差不大,使得准确区分某些数字相当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别,全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。此外,大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方法是行不通的。因此,研究高性能的手写数字识别算法是一个有相当的挑战性的任务。 2.手写数字的识别系统的实现2.1手写数字的识别方法

  手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们想出了很多办法获取手写字符的关键特征。这些手段分两大类:全局分析和结构分析。对前者,我们可以使用模板匹配、象素密度、矩、特征点、数学变换等技术。这类的特征常常和统计分类方法一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括:圈、端点、节点、弧、突起、凹陷、笔画等等。与这些结构特征配合使用的往往是句法的分类方法。

  多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有一种简单的方案能达到很高的识别率和识别精度。因此,最近这方面的努力向着更为成熟、复杂、综合的方向发展。一方面,研究工作者努力把新的知识运用到预处理,特征提取,分类当中,如:神经网络、数学形态学等。作者认为,在手写数字识别的研究中,神经网络技术和多种方法的综合是值得重视的方向。

  2.2 学习和测试样本库的选择

  正如前一部分提到的,手写数字的写法带有明显的地区性和民族性,因而选择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一,对识别系统的性能也有重要的影响。研究者对所需的样本库有两种选择:一是自己根据需要建立专门的样本库,二是选用其它机构做好的现成的样本库。前者的优点是贴近自己的应用,缺点也是明显的:要费相当的精力且代表性很难保证,与其它人的结果不好比较。因此,现在的趋势是使用有权威性的通用样本库。目前,比较有代表性的、样本数量较大的手写数字样本库有:(1).NIST数据库,由美国国家标准与技术局收集;(2).CEDAR数据库,是由纽约州立大学Buffalo分校计算机科学系文本分析与识别中完成的邮政编码的样本库;(3).ETL数据库,由日本电工技术研究所收集;(4). ITPT数据库, 由日本邮电通信政策研究所收集。

  2.3 识别系统性能的评价

  作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写数字识别也不例外。评价的指标除了借用一般文字识别里的通常做法外,还要根据数字识别的特点进行修改和补充。

  对一个手写数字识别系统,可以用三方面的指标表征系统的性能:

  正确识别率 A=正确识别样本数/全部样本数*100%

  替代率(误识率) S=误识样本数/全部样本数*100%

  拒识率 R=拒识样本数/全部样本数*100%

  三者的关系是: A+S+R=100%

相关推荐
热门期刊
生物医学工程学进展《生物医学工程学进展》
《生物医学工程学进展》杂志,于1980年经国家新闻出版总署批准正式创刊,CN:31-1996/R,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:...
医学临床研究《医学临床研究》
《医学临床研究》杂志,于1984年经国家新闻出版总署批准正式创刊,CN:43-1382/R,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:药物与...
现代肿瘤医学《现代肿瘤医学》
《现代肿瘤医学》杂志,于1993年经国家新闻出版总署批准正式创刊,CN:61-1415/R,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:调查报...
东南法学《东南法学》
《东南法学》是由东南大学法学院于2008年创办的连续性学术出版物,每年两辑,分为春季卷和秋季卷。 《东南法学》旨在搭建东南大学法学院对外学术交流平台,凸现法学院...
空运商务《空运商务》
《空运商务》杂志,于2001年经国家新闻出版总署批准正式创刊,CN:11-4684/F,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:产业链 、营...
沈阳农业大学学报(社会科学版)《沈阳农业大学学报(社会科学版)》
《沈阳农业大学学报》杂志,于1999年经国家新闻出版总署批准正式创刊,CN:21-1384/C,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:教...
友情链接
中教杯 国家新闻出版总署 中国知网 万方数据 维普网 中国科学院 中国国家图书馆 央视英文版 中国留学网 中青网 中国国家人才网 中国经济网 中国日报网 中国新闻网 中国学术期刊网
关于我们
平台简介
诚聘英才
企业文化
竞争优势
版权信息
服务条款
客服承诺
常见问题
版权声明
合作加盟
期刊加盟
广告服务
联系我们
网站导航
期刊大全
论文下载
课题申报
学术会议
编辑QQ
编辑联络
2007-2023
中文学术期刊检索机构
bianjibu777@qq.com
联系我们

版权所有©2007- 2023 中国学术期刊网(qikanw.com) All Rights Reserved 京ICP备2021008252号
本站是学术论文网络平台,若期刊网有侵犯您的版权,请及时与期刊网客服取得联系,联系信箱: bianjibu777@qq.com    
中国学术期刊网