310 likes | 423 Views
信息的编码和存储. 数制 二进制系统 信息编码 信息的存储 信息压缩 STS 议题. 数制. 按进位的原则进行计数,被称为数制。 ( 0 , 1……9 ) 数值特点: 逢 N 进一。 N 指数制中所需数字字符的总个数,也被称为基数。( 10 ) 位权表示。位权是指一个数字在某个固定位置上所代表的值,处在不同位置上的数字所代表的值不同。( 19 : 10 1 和 109 : 10 2 ). 位权表示法. 位权和基数的关系:位权的值是基数的若干次幂。( 627 : 10 0 10 1 10 2 )
E N D
数制 • 二进制系统 • 信息编码 • 信息的存储 • 信息压缩 • STS议题
数制 • 按进位的原则进行计数,被称为数制。 (0,1……9) • 数值特点: 逢N进一。N指数制中所需数字字符的总个数,也被称为基数。(10) 位权表示。位权是指一个数字在某个固定位置上所代表的值,处在不同位置上的数字所代表的值不同。(19:101和109:102)
位权表示法 • 位权和基数的关系:位权的值是基数的若干次幂。(627:100 101 102) • 位权表示法:数值可用位权展开的形式表示。其具体的步骤为每个数字乘以基数的幂次,然后将这些展开的乘积多项式用累加方式表示出来。(627.08)10=6×102+2×101+7×100+0×10-1+8×10-2 • 常见的数制有十进制、二进制、八进制、十六进制
二进制系统 • 十进制的电路设置比较复杂 • 计算机采用数字电路,电子器件通常有“开通”和“断开”两个状态,所以可以把这两个状态分别表示1和0。 • 采用二进制,适应了电路性质。还可用作逻辑运算 • 电路实现简单,运算简单、工作可靠和逻辑性更强
十进制转为二进制 十进制转为非十进制的方法: • 对整数:将十进制整数逐次用非十进制的基数去除,直到商为0,再把余数由下而上排列。(75)10=(1001011)2 • 对小数:将十进制小数不断用非十进制基数去乘,直到小数的当前值等于0或满足所要求的精度为止,最后将所得到的乘积的整数部分由上而下排列。(0.625)10=(0.101)2(0.32)10=(0.0101)2
把非十进制转成十进制 • 将各非十进制按权展开,然后求和。 • 各位权的幂次表示:小数点前从右向左记幂次为0、1、…;小数点后从左向右记幂次为-1、-2、…。 (1001111.01)2=(79.25)10 (1075)8=()10
非十进制之间的转换 • 二进制转为八进制 每三位为一组,整数从右向左,不足左补0;小数从左到右,不足右补0,然后计算各组按位权展开的和。 (100110110111.00101)2=()8 • 八进制转为二进制 把各数字用对应的3位二进制表示即可。 • 二进制转为十六进制 每四位为一组,整数从右向左,不足左补0;小数从左到右,不足右补0,然后计算各组按位权展开的和。 (100110110111.00101)2=()16 • 十六进制转为二进制 把各数字用对应的4位二进制表示即可(F05D.7A1)16=()2
练习 • 八进制和十六进制如何相互转换 • (69)10=()2=()8=()16 • (11011101)2=()10=()8=()16 • 计算机中通常使用十六进制计数法,因为计算机里二进制的位数大都是4的整数倍。这样避免了过长二进制位数的误写。
二进制的算术运算 • 加、减、乘、除 • 借位和进位 1001101+10011=? 1001101-10011=? 计算机中一般只有加法、乘法电路,减法、除法的运算都可相应地转换成加法、乘法运算。
二进制的逻辑运算 • 逻辑运算就是指对“因果关系”进行分析的一种运算。运算结果不表示数值的大小,而是条件成立还是不成立的逻辑量。 • 运算没有进位和借位的概念 • 逻辑代数就是实现逻辑运算的数学工具。它包含三种基本的逻辑运算:与、或、非。 • “与”-串联电路;“或”-并联电路。 • 10011010V11101011=?
信息编码 • 信息编码就是对输入到计算机中的各种信息用二进制数进行编码。 • 信息包括各种数值和非数值数据 • 数值数据又包括整数(正整数、负整数)、小数。 • 非数值数据则包括英文字母、中文汉字、图像、声音。 • 不同的计算机系统采用不同的编码,需要统一,产生了国际标准。
文本表示 • 文本的每一个不同的符号(字母和标点)代之以相应的唯一的位模式。 • 美国国家标准化学会ANSI采用了美国国家信息交换用标准码(ASCII) • ASCII用7位二进制位表示大小写英文字母和标点符号、数字0~9以及一些像换行、回车之类的控制符。0-127共128个字符 • 现在,ASCII扩展到8位。最高位为0。各家厂商可以把最高位置1而发展出自己的编码数据。 • Hello(01001000 01100101 01101100 01101100 01101111 00101110) • 转换成十进制,大写字母比小写字母之间小32。H:01001000 h:0111000 • 见附录
文本表示 • Unicode编码,采用16位二进制表示,可表示0-65535共65536个文字,包含中文,日文,希伯来文等。 • 国际化标准组织ISO使用32位二进制表示。 • 字处理文件包含字符和特征码。它们不遵循ASCII和Unicode标准。
汉字如何表示 • 1980年颁布的GB2312-80标准:国标码 每个汉字和特殊字符使用两个字节(即16位二进制)表示,共收录7445个字符。 • 2000年,扩充了标准。采用单、双、四字节混合编码。可收入150万个字符以上。 • 以ASCII码中的94个字符代码为基础,其中任何两个代码组成一个汉字交换码。第一个字节称为“区”,第二个字节称为“位”。可组成94*94=8836个字。(对应区位输入法/内码)
有关汉字编码的几种码 • 机外码:通过西文键盘输入的汉字信息编码。它由键盘上的字母、数字和特殊符号组成。比如“大”的机外码是“da”等。 • 机内码:内码。机外码通过键盘输入,中文Windows操作系统的“输入码转换模块”将之转换为机内码。 • 字形码:文字信息的输出编码。就是屏幕上我们看到的汉字。采用点阵形式,每个点即二进制的一个位,由“0”或“1”表示不同状态,如明、暗或不同颜色等特征,字型和体。字形码的集合构成字库。 • 汉字字型有16×16、24×24、32×32、48×48、128×128等点阵。字库存在文字发生器和字模存储器中。16×16点阵的汉字存储空间是16×16/8=32个字节。
数值的表示 • 不能采用ASCII编码(25) • 采用二进制(或它的变种)表示数值 • 二-十进制编码(BCD码):其中有一种8421码。 • 8421码是使用4位二进制数表示一位十进制数。 • (1235)10=(0101 1001 0000 0001 1001)BCD
带符号整数表示(补码) • 符号位用1位二进制数放在最左边表示。1表示负数,0表示正数。(机器数) • 比如三位二进制数表示带符号的整数,可有以下几种情况: 011 010 001 000 111 110 101 100 表示的范围是-23/2~23/2-1。 • 正、负数补码表示关系:从右开始复制到第一个1为止,以后各位取补。 (001)=1的负数-1的补码表示是111
补码运算 • 7-5=? • 计算机减法的运算由一个加法电路和一个取负电路组成。 • 溢出(5+4=?) • 两正数相加得负数,两负数相加得正数。
余码 • 以四位二进制表示为例。 • 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 • 以1000为0,往右为正,往左为负。 • 余码和补码的符号位相反。-5的补码是1011,余码是0011。 • 余8码。-5的余码是0011,相当于十进制的3,3比-5大8。
小数表示 • 根据小数点的位置是否固定,分为定点整数、定点小数和浮点数 • 定点整数0110 +110.0 • 定点小数0110 +0.110 • 浮点小数(以8位为例) 最高位为符号位,余下的7位为指数字段和尾数字段,符号位后面的3位为指数字段,剩下的为尾数字段。 01101011 指数部分:110~+2(余码) 尾数部分: 0.1011 实际表示数值:(10.11)2=(2.75)10 要编码11/8 变为1.001,在自左第一个1开始复制,不足补零(3/8),多余舍去( )。
截断误差 • 截断误差是数值分析的研究人员考虑的问题。 • 从左到右加,得到的结果是 • 先加1/8和1/8,得1/4,再加 得 • Excel中的精确度106
图像的表示 • 位图:像素的集合。每个像素的黑白用1/0表示。彩色图像的每个像素用颜色的二进制组合表示。RGB用3个字节表示,那么就是24位位图。大小计算是:3×1024×768=2.4M。 • 压缩(Jpeg、Gif) • 矢量图像(Truetype)
声音的表示 • 按照固定的时间间隔对声波采样,并记录所得到的值序列。 • CD 每秒44100次采样 每次采样的数据用16个二进制表示(立体声用32位) • MIDI 音乐的指令而不是音乐编码本身。比如什么音乐演奏多长时间。因此,音效依赖不同的合成器。
视频的表示 • 由很多单一的画面所构成的,每一副为一帧。 • 采样频率是指在一定时间以一定的速度对单帧视频信号的捕获量。25~30 • 采样深度是指采样后每帧所包含的颜色位(色彩值)。如8位,则可达256中单色灰度。 • 压缩标准:MPEG
信息压缩 • 通用压缩技术: 行程编码:用一个指示该值的代码和一个指示重复次数的代码替代相同值组成的串。 相对编码:记录相邻数据块之间的差异,而不是整个数据块。 频率相关编码:用于表示一个数据项的二进制位数与这个数据项出现的频率密切相关。
Lempel-Ziv编码 • Zip文件采用的编码方法 • 自适应字典编码
图像的压缩 • GIF:把可用付给像素的颜色数目减少到256个。通过一个调色板表,把这256种潜在的颜色与一种红绿蓝的组合建立对应关系。 • JPEG:无损-依靠存放连续像素之间的差别得到。
信息单位 • 位:bit • 字节、换算 • 字长:CPU一次处理的二进制位数。
计算机内部结构 • P102-103