1 / 6

第四章 数字文本与文本处理

第四章 数字文本与文本处理. Shan dong Economics University. 第一节 字符编码. 文字的编码. 英文. 在计算机中,英文采用 ASCII 码. 文字的编码. 中文. 1. 汉字的输入编码. 数字编码:用数字代表汉字字符,电报码、区位码都属于数字编码. 字音编码:指按照汉字的标准化读音,使用拼音作为汉字的编码的方法. 字形编码:是指用汉字的形状表示的编码方式。这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入. 形音编码:将汉字字音与字型相互结合的一种编码方法如全息码就是一种音形编码。.

Download Presentation

第四章 数字文本与文本处理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第四章 数字文本与文本处理 Shan dong Economics University

  2. 第一节 字符编码 • 文字的编码 英文 • 在计算机中,英文采用ASCII码 • 文字的编码 中文 1. 汉字的输入编码 • 数字编码:用数字代表汉字字符,电报码、区位码都属于数字编码 • 字音编码:指按照汉字的标准化读音,使用拼音作为汉字的编码的方法 • 字形编码:是指用汉字的形状表示的编码方式。这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入 • 形音编码:将汉字字音与字型相互结合的一种编码方法如全息码就是一种音形编码。

  3. 汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一类。汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一类。 2. 汉字的机内编码 汉字的机内编码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。 • 汉字交换码:指在不同汉字信息处理系统之间进行汉字交换时使用的编码。汉字交换码也称汉字国标码-GB2312 • 汉字区位码:国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。 3. 汉字的输出编码 用点阵表示的汉字字形代码,汉字的输出形式 。

  4. 键盘输入 文本输入 手写识别 语音识别 非键盘输入 光学字符识别(OCR技术) 第二节 文本输入技术 OCR(Optical Character Recognition 光学符号识别),是指将一份文字稿件以图像形式输入给计算机,计算机取出每个文字的图像,再将其转换成汉字的编码存入计算机,以达到汉字输入的目的。OCR技术解决的是已存在于纸介质上的文字如何被计算机识别并接收的问题。由于是对扫描后的图像文件进行识别处理,所以称为脱机汉字识别系统。

  5. 第三节 文本编辑与处理 • 文本编辑 • 文本编辑的主要功能 • 对字、词、句、段落进行添加、删除、修改等操作 • 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 • 段落的处理:设置行距、段间距、段缩进、对称方式等 • 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 • “所见即所得”(What You See Is What You Get, 简称 WYSIWYG):一方面所有的编辑操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果与打印机的输出 结果相同。

  6. 文本处理 • 文本处理的内容 • 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换 • 词语排序,词语错误检测,文句语法检查 • 自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换 • 文本压缩,文本加密,文本著作权保护 • 关键词提取,文摘自动生成,文本分类 • 文本检索(关键词检索、全文检索),文本过滤 • 文语转换(语音合成),文种转换(机器翻译) • 篇章理解,自动问答,自动写作等 • 文本处理软件

More Related