230 likes | 432 Views
基于简易网格的汉字结构识别. By: 谌杨帆 指导老师:皮佑国教授. 基于简易网格的汉字结构识别. 汉字识别简述 本课题研究内容 本课题的研究思路 本课题的研究意义. 汉字识别简述. 汉字识别流程简介 一个完整的汉字识别系统的识别过程如下图所示. 输入文本图像. 图像预处理. 图像版面分析. 行切分和字切分. 单字特征选择和提取. 模式分类. 模式识别结果. 识别结果的后处理. 汉字识别简述. 由图可见看字识别技术主要包括 : 1 扫描输入文本图像。 2 图像的预处理,包括倾斜校正和滤除干扰噪声等。
E N D
基于简易网格的汉字结构识别 By: 谌杨帆 指导老师:皮佑国教授
基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义
汉字识别简述 • 汉字识别流程简介 一个完整的汉字识别系统的识别过程如下图所示
输入文本图像 图像预处理 图像版面分析 行切分和字切分 单字特征选择和提取 模式分类 模式识别结果 识别结果的后处理
汉字识别简述 • 由图可见看字识别技术主要包括: 1 扫描输入文本图像。 2 图像的预处理,包括倾斜校正和滤除干扰噪声等。 3 图像的版面分析和理解。 4 图像的行切分和字切分。 5 基于单字图像特征选择和提取。 6 基于单字图像特征的模式分类。 7 将被分类的模式赋予识别结果。 8 识别结果的编辑修改后处理。
汉字识别简述 • 汉字识别的特点及难点 1 类别较大 目前我国常用汉字约3,000~4,000。国标GB2312-80常用汉字字符集共有6,763个常用汉字,(一级3,755个,二级3,008个),总使用频度为99.99%。目前的研究目标一般都着眼于解决国标一级汉字3,755个,即使这样,汉字识别也属于大类别数的模式识别问题。所以,字量大是造成汉字识别困难的主要原因之一。
汉字识别简述 • 汉字识别的特点和难点 2 结构复杂 汉字是一种结构性很强的文字。在形体上汉字是一个个独立的方块字,每个汉字都由若干部件或比划构成。 3 相似字多 部分汉字字符之间只存在很细小的差别,如:“侯”和“候”之间只相差一小竖的比划。
基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义
本课题研究内容 • 要解决的问题 1 汉字字符集较大 2 汉字结构复杂 3 相似字多 返回
本课题研究内容 • 网格的提出 汉字是拼合文字,是由部件(含比画、偏旁和部首)按一定规则拼合而成的。汉字的结构复杂,一级结构就有:左右结构、左中右结构、上下结构、上中下结构、全包围结构、半包围结构、整体结构、品字结构等八类。在半包围结构中又有左半包围、右半包围、上半包围、下半包围4种,而左半包围中又可以分为左上半包围、左正半包围和左下半包围。在上述各种结构中又嵌套有其它结构,例如左右结构的左结构中会包含上下结构,如“殿”,其右结构又是半包围结构,……。
本课题研究内容 • 网格的提出 汉字的结构如此复杂,人们在学习汉字时又是如何去认知汉字的结构的呢?我们回忆一下在初学汉字时对结构的认知过程。在初学写字时,书写的传统教学方法是利用带有网格的书写专用纸张。常用的有“米”字格、“田”字格和“九宫”格三种。“田”字格和“九宫”格写上字后如图所示。
本课题研究内容 • 网格的提出 由图可见,它反映了汉字的结构特征。用习字格作为书法入门练习工具,参考相应的字帖,有利于学生对汉字结构的认知和模仿,从而使字迹符合汉字对称、方正、稳定和协调的美学标准,保证书写汉字的结构符合造字规则。基于传统的汉字结构的认知机理,本课题提出计算机中用2x2网格和3x3网格简易网格来描述汉字的结构。
本课题研究内容 • 网格的概念 在汉字结构描述中,采用以2×2及3×3均匀网格为基本,其它网格为扩展,如下图所示。其中,图中的各种网格子空间可以利用网格算子对目标图像运算后得到。
本课题研究内容 • 网格的概念 下面给出2x2网格和3x3网格的数学描述: 2x2网格: 3x3网格:
本课题研究的内容 • 部分结构网格表示示意 整体结构 上下结构 左右结构 左下包围 上三包围 全包围 上中下结构 品字结构 左中右结构
基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义
本课题研究思路 • 结构加基元的汉字描述
本课题的研究思路 • 汉字结构的识别 把汉字图像放到简易网格中进行分析(计算机辅助),总结各种汉字结构在简易网格中的描述规律,形成基于简易网格的汉字结构描述规则;其中,结构与描述规则一一对应。
本课题的研究思路 • 汉字结构的识别 依据汉字结构的网格描述规则设计算法及编写程序,建立汉字结构描述系统。汉字结构识别系统如下图所示,汉字结构识别系统以汉字图像作为输入,在汉字结构的网格描述规则指导下进行结构分析并析出分析结果,最后在决策环节检验汉字结构的计算机是被,若满足判定条件,则认为识别正确。
本课题研究思路 • 汉字的结构识别
基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义
本课题的研究意义 • 研究意义 • 针对汉字识别的特点和难点提出一个解决方案。 • 以网格的形式对汉字进行描述。提出了利用网格提取汉字特征的新方法。 • 汉字是中国五千年文化的集中体现,本课题的研究主要针对汉字的结构,沿用了以中国书法九宫格为原型的而提出的网格的思想,因此在文化传承和文化教育上有重大的意义。
谢谢! 2007.12.20