Lesson 4 文件级别的数据管理

Lesson 4 文件级别的数据管理

简单过程：包括记录排序与拆分、选择与加权记录简单过程：包括记录排序与拆分、选择与加权记录变量与数据文件属性向导：用于定义数据字典或将预定义的数据字典直接引入当前文件文件级别的数据管理 { 数据重构向导：用于进行数据转置文件合并过程：将几个数据文件合并为一个大的SPSS数据文件查找重复记录向导：正交设计过程：用于生产实施联合分析所需的设计，是市场研究中的专用工具，参见《SPSS与市场研究》

一. 记录排序 指将数据编辑窗口中的数据，按照用户指定的某一个或多个变量值的升序或降序重新排序，用户所指定的变量称为排序变量。单个变量排序：在数据表格的变量名处单击右键

升序降序

多个变量排序：用Data→Sort Cases 升序或降序可修改

注意： 1. 在多重排序中，先指定的变量名在排序时优先于后指定的变量名，即记录首先按第一个变量进行排序，对于与第一变量取值相同的记录考虑按第二变量排序，依次类推。 2. 排序后，原来记录数据的次序将被打乱，应注意保存原始数据。

二. 记录的拆分 用于将数据文件进行分组，在希望分组进行相应的统计分析或只希望分析其中部分数据时使用通过Split File来完成

不拆分文件 按所选变量拆分文件，各组分析结果放一起便于比较按所选变量拆分文件，各组分析结果单独放置拆分时将数据按所用的拆分变量排序对数据拆分后，SPSS右下角会出现Split on字样，表示所做的拆分生效，且可以被保存到数据集中，直到再次进行设定为止。

三. 记录筛选 不需要分析全部数据，而是按要求分析部分数据时使用，比如只分析中文是教授的人的年薪等。通过Select Cases来完成

只分析满足条件的记录 被隔离，这些记录号上会被加斜杠以示区别，同时自动生成一个名为filter-$的筛选指示变量，被选中的记录该变量取值1，否则0 按某种条件抽样基于时间或记录序号来选择记录使用筛选指示变量来选择记录对没选中的记录的处理方式对数据筛选后，SPSS右下角会出现Filter on字样，表示所做的筛选正在生效，且可以被保存到数据集中，直到再次进行设定为止。

四. 记录加权 一般情况下，一行就是一条记录，但有时出现如下数据，如果每一行就是一条记录，则需要输入121行，此时，一般用频数格式录入数据，即相同取值的观测只录入一次。通过Weight Cases来完成

进行权重记录后，SPSS右下角会出现Weight on字样，表示记录已加权，且可以被保存到数据集中，直到取消加权，否则一直按加权对数据进行处理。

五. 数据汇总 分类汇总指按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的统计描述，结果可以存入新数据文件，也可以替换当前文件。例1.根据transform.sav中学生的性别变量对英语的平均成绩进行汇总。

指定分类变量和汇总变量 SPSS自动根据分类变量的取值将记录分成若干类，并对每类记录分别计算汇总变量的条件描述 { 分类汇总保存计算结果选择Data →Aggregate

分类变量 汇总变量在结果数据文件中保存分类组的记录数，则结果数据文件中自动生产一个默认名为N-BREAK的变量

前述为最基本和常用的数据管理功能，对于较复杂的数据分析则会涉及到下面这些复杂功能。前述为最基本和常用的数据管理功能，对于较复杂的数据分析则会涉及到下面这些复杂功能。

五. 数据字典的定义与应用 在大型的数据分析项目中，为了保证工作质量，数据管理人员一般会事先定义号一个非常详细的数据格式，包括变量格式、变量标签、值标签、缺失值定义等，这就被称为数据字典。 1.变量属性定义向导即Define Variable Properties过程，用于对数据集中已存在的变量进一步定义其属性。虽然大部分功能可以在变量视图中完成，但对于复杂的数据管理项目而言，它的可视化能力可大大提高工作效率。

例2.对数据集transform.sav的变量gender进行属性设定。例2.对数据集transform.sav的变量gender进行属性设定。

选入变量后，就可以对所扫描的变量进行属性设定选入变量后，就可以对所扫描的变量进行属性设定

2.复制数据文件属性向导 Copy Data Properties过程，用于将定义好的数据字典文件直接应用到当前文件中。在操作时可以将一个外部的数据文件相关属性拷贝到当前数据文件中，也可以自行定义，只选择某些变量或某些属性进行拷贝。例3.将数据集transform.sav中相关的变量属性作为数据字典应用到transform2.sav中。先打开transform2.sav文件

仅复制文件属性，若权重设定等 选择同名同类型同长度变量的属性进行复制选择一个变量进行复制

3.查找重复记录 Identify Duplicate Cases过程，用于在大型数据管理或数据变换工作中，查找重复记录。例4.数据company＿rongyu.sav是一份对几个公司的统计表，但由于有些公司提交了数次，因而出现了不止一次，在统计工作中需要删除这些重复记录。

希望查找重复值的变量组 重复记录按哪个变量排序

最后一个还是第一个重复记录设为主记录 重复记录是否要编流水号

六. 数据文件的重新排列与转置 有时用户要根据分析的要求改变数据的排列格式。选择Data→Restructure

1.数据的长型与宽型格式 重复测量数据的两种不同排列方式，由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型与款型格式之间的互换是必要的。

长型格式的数据Anxiety.sav，共48条记录

宽型格式的数据Anxiety2.sav，共48条记录

2.长型格式转换成款型格式 例5.将Anxiety.sav转换为Anxiety2.sav的格式。

款型转成长型 长型转成款型行列转置

被重复观测的个体的变量 反应测量级别的变量

进一步询问是否根据所选变量排序，系统默认yes进一步询问是否根据所选变量排序，系统默认yes

此时可单击完成实现转换，也可按下一步继续操作。此时可单击完成实现转换，也可按下一步继续操作。

结果窗口还会输出汇总表，用于检查操作是否有误。结果窗口还会输出汇总表，用于检查操作是否有误。

3. 款型格式转换成长型格式 例6.将Anxiety2.sav转换为Anxiety.sav的格式。转换一组变量转换多组变量

重复观测个体的标识变量 被转换的变量组携带变量

用于设定重复测量指标变量

此时可单击完成实现转换，也可按下一步继续操作。此时可单击完成实现转换，也可按下一步继续操作。

结果窗口还会输出汇总表，用于检查操作是否有误。结果窗口还会输出汇总表，用于检查操作是否有误。

4. 数据转置 即将数据编辑窗口中的数据的行列互换，将记录转化为变量，将变量转化为记录后，重新显示在窗口中。一般情况下不需要进行数据转置，数据转置主要用于编程，进行矩阵运算时的矩阵转置操作。

五. 多个数据文件的合并 纵向连接：指几个数据集中的数据纵向相加，组成一个新的数据集，新数据集中的记录数是原来几个数据集中的记录数的总和。横向合并：指按照记录次序或某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数时所有原数据集中的不重变量名的总和。

1.纵向连接 纵向连接是将一个SPSS数据文件的内容追加到数据编辑窗口中当前数据的后面。其实质就是将两个数据文件的变量列，按照各个变量名的含义，意义对应进行首尾连接。实现纵向连接的条件：两个待合并的数据文件，其内容合并是有意义的；在不同数据文件中，数据含义相同的列尽量起相同的名字，变量类型与长度也尽量相同。

例7.将transform2.sav中的记录添加到transform.sav中， 注意transform2.sav中的sex对应了transform.sav中的gender。

Lesson 4 文件级别的数据管理