370 likes | 552 Views
无字库智能造字系统在计算 机上的实现. 学号: 200720111363 姓名: 黄 坚 专业:模式识别与智能系统 指导老师: 皮佑国 教授. 主要内容. 一 . 绪论 二 . 智能造字系统(结构,模块,工作原理) 三 . 输入模块(功能与实现) 四 . 造字模块(功能与实现) 五 . 显示模块(功能与实现) 六 . 系统测试与实验(性能与操作) 七 . 下一步的改进. 一 . 绪论. 1.1 汉字字库的不足
E N D
无字库智能造字系统在计算 机上的实现 学号: 200720111363 姓名: 黄 坚 专业:模式识别与智能系统 指导老师: 皮佑国 教授
主要内容 一. 绪论 二. 智能造字系统(结构,模块,工作原理) 三. 输入模块(功能与实现) 四. 造字模块(功能与实现) 五. 显示模块(功能与实现) 六. 系统测试与实验(性能与操作) 七. 下一步的改进
一. 绪论 1.1 汉字字库的不足 • 稳定性差,汉字信息化标准变化频繁。 • 不符合汉字认知规律而与汉字教学脱节。 • 不符合汉字的造字规律影响对文化的传承作用。 • 信息熵高,是效率最低的文字信息系统。
1.2 基于认知机理的造字理论 • 把汉字部件作为基元的主要来源,用基元来组字。 • 只有汉字基元库而没有汉字字库。 • 由网格获取汉字的结构知识,由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。
1.3 本文的研究意义 • 有利于建立长期稳定的基元和结构标准以及编码标准 • 通过仿射变换进行组字的智能造字方案是可行的 • 解决复杂汉字的录入问题 • 利于智能造字的广泛应用
二. 智能造字系统 2.1 系统结构图
三. 输入法模块设计 3.1 皮氏输入法设计目标 • 简单易学。 • 输入速度快。 • 支持大字符集。 • 界面友好。 • 运行速度快,系统资源占用少。
3.2 数据结构与查找算法 汉字语义树
3.3 内存处理技巧 • 共享内存 • 广义树排序与存储算法
四. 造字模块设计 4.1 造字模块设计目标 • 实现编码校验 • 实现快速的编码转换 • 实现带插值的仿射变换
4.3 编码转换算法 • 根据Unicode找智能造字编码。能实现使用O(1)的时间复杂度来查找哈希表中的数据。 • 根据智能造字编码查找Unicode。能实现O(lg(n))的时间复杂度来查找数组中的数据。
编码转换中哈希函数的设计: 由于汉字分区存放,在每个区中汉字编码是连续的,这就给哈希函数的设计带来了便利。假设第i区的第一个汉字的区位码为Ci,第i区的汉字总数为Ti。假设有一个汉字区位码为A,通过与每个区的首个汉字区位码进行比较,如果得到Cj<=A<Cj+1,可知A处在第j区,哈希函数设计为:
4.4 仿射变换与插值算法 不带插值与带插值的仿射变换
五. 显示模块设计 5.1 显示模块设计目标 • 文档的显示(排版算法) • 文本编辑(光标定位) • 菜单操作
5.2 排版算法 算法的目的就是将序列分成具有一定长度的单文本行,每个汉字之间有一定量的空格空间相隔。通过汉字间空间空格的伸缩,把连续文本的两端排列起来,当空格空间的伸缩量最小时,文本最美观。
5.3 光标定位 光标定位示意图
5.4 菜单操作 • 新建文件 • 打开文件 • 保存文件(选择要保存的编码) • 文件另存为(选择要保存的编码) • 显示编码
六. 系统测试与实验 6.1内存测试
6.2 智能造字系统界面 智能造字系统主界面
6.4 测试结论 70244个汉字的基元码的总数为247000个,结构码的总数为144284个,因此平均每个汉字的基元码个数为3.52,结构码个数为2.05。左右一级结构汉字的个数为40654,占57.88%,上下一级结构汉字的个数为11191,占15.93%。
由于输入过程中要进行翻页对候选基元进行选择,左右和上下一级结构的汉字大量聚集在一起,使得基元候选列表的页数很多,这就增加了输入过程中的翻页次数,平均数量达到3次。可以得出结论:在智能造字系统中输入一个汉字的平均按键次数约为8次。由于输入过程中要进行翻页对候选基元进行选择,左右和上下一级结构的汉字大量聚集在一起,使得基元候选列表的页数很多,这就增加了输入过程中的翻页次数,平均数量达到3次。可以得出结论:在智能造字系统中输入一个汉字的平均按键次数约为8次。
通过上边的统计数据可知,皮氏输入法的输入速度相对拼音输入法要慢,但是皮氏输入法的输入更简单直观,容易学习,符合汉字的认知规律,在输入复杂汉字方面有很大的优势。智能造字系统成功实现了70244个汉字的输入,组字和显示,实验验证了智能造字理论。通过上边的统计数据可知,皮氏输入法的输入速度相对拼音输入法要慢,但是皮氏输入法的输入更简单直观,容易学习,符合汉字的认知规律,在输入复杂汉字方面有很大的优势。智能造字系统成功实现了70244个汉字的输入,组字和显示,实验验证了智能造字理论。
七. 下一步的改进 • 编码在计算机中的表示 • 用轮廓基元库取代现在的图片基元库 • 使用更智能的知识表示方式。 • 输入实现联想功能。 • 在线系统更新。
PPT到此结束谢谢皮老师谢谢各位老师谢谢各位同学PPT到此结束谢谢皮老师谢谢各位老师谢谢各位同学