slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
SAS — 统计分析系统 S tatistical A nalysis S ystem PowerPoint Presentation
Download Presentation
SAS — 统计分析系统 S tatistical A nalysis S ystem

Loading in 2 Seconds...

play fullscreen
1 / 135

SAS — 统计分析系统 S tatistical A nalysis S ystem - PowerPoint PPT Presentation


  • 296 Views
  • Uploaded on

SAS — 统计分析系统 S tatistical A nalysis S ystem. 公共卫生学院信息数据处理教学实验室. SAS 软件简介. 1966 年美国 North Carolina 大学的两位生物统计学研究生开始研制 SAS 系统,直至 1976 年成立了 SAS 软件研究所,正式推出了 SAS 软件, 1985 年推出微机版 SAS 。 SAS 是用于决策支持的大型集成信息系统,软件系统最早的功能限于统计分析,现在统计分析功能也仍是它的重要组成部分和核心功能。 SAS 现在的最新版本为 9.1 版,大小约为 1GB 。.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'SAS — 统计分析系统 S tatistical A nalysis S ystem' - drucilla-terris


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

SAS — 统计分析系统

Statistical Analysis System

公共卫生学院信息数据处理教学实验室

slide2
SAS软件简介

1966年美国North Carolina大学的两位生物统计学研究生开始研制SAS系统,直至1976年成立了SAS软件研究所,正式推出了SAS软件,1985年推出微机版SAS。

SAS是用于决策支持的大型集成信息系统,软件系统最早的功能限于统计分析,现在统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的最新版本为9.1版,大小约为1GB。

slide3
在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96~97年度被评选为建立数据库的首选产品,堪称统计软件界的巨无霸。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96~97年度被评选为建立数据库的首选产品,堪称统计软件界的巨无霸。

经过多年的发展,SAS已经被全世界120多个国家和地区的近三万家机构所采用,直接用户超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。  

slide4
由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此操作以SAS语言编程为主,另外也有非编程方式的菜单系统,但人机对话的界面不太友好。由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此操作以SAS语言编程为主,另外也有非编程方式的菜单系统,但人机对话的界面不太友好。

学习SAS软件时,需要用户有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。

slide5
第一节 SAS软件的使用基础

一、SAS的启动和退出

  • 启动SAS
    • 双击桌面SAS图标
    • 开始菜单  程序  The Sas System The Sas System for Windows V*.*
    • 直接双击SAS应用程序
  • 退出SAS
    • 标题栏关闭按钮
    • 菜单栏 File Exit
    • 在命令框键入“Bye”或“Endsas”
slide6
二、SAS的工作窗口

标题栏、菜单栏、命令框、工具栏

  • 编辑器 程序编辑窗口
  • 日志 运行过程日志窗口
  • 输出 结果输出窗口
  • 资源管理器/结果

SAS常用功能键

slide7
三、SAS程序构成

例:一组体检资料,包括姓名、性别、年龄、身高、体重,要求分性别计算身高、体重的均数、标准差、最大值、最小值。

姓名 性别 年龄 身高 体重

ZHANGLIN F 47 156.3 47.1

ZHAOHUA M 38 172.4 61.5

WANGQANG M 41 169.2 64.5

LIULI F 52 158.2 53.6

SHIDONG F 39 160.1 48.0

KONGYING M 29 174.1 64.6

LILING F 37 152.3 42.2

GUANFEN M 32 166.2 60.2

MIAOQING M 26 180.3 74.3

NIUHUA M 31 178.2 80.2

TANGJIE F 35 169.2 60.8

GAOJUN M 24 176.0 73.3

SUNHONG F 27 158.3 49.9

slide8

DATA AA1;

INPUT NAME$ SEX AGE HEIGHT WEIGHT;

CARDS;

ZHANGLIN 2 47 156.3 47.1

ZHAOHUA 1 38 172.4 61.5

WANGQANG 1 41 169.2 64.5

LIULI 2 52 158.2 53.6

SHIDONG 2 39 160.1 48.0

KONGYING 1 29 174.1 64.6

LILING 2 37 152.3 42.2

GUANFEN 1 32 166.2 60.2

MIAOQING 1 26 180.3 74.3

NIUHUA 1 31 178.2 80.2

TANGJIE 2 35 169.2 60.8

GAOJUN 2 24 176.0 73.3

SUNHONG 2 27 158.3 49.9

;

PROC MEANS;

CLASS SEX;

VAR HEIGHT WEIGHT;

RUN;

数据步

过程步

slide9

DATA STEP(数据步)

以DATA语句开始

将数据读入SAS系统,建立SAS数据集

  • PROCEDURE STEP(过程步)

以PROC语句开始

调用各种已编好的过程处理和分析数据

  • RUN(结束)整个程序的最后必须要有RUN语句结束,表示要执行以上全部任务。
slide10
四、SAS软件的常用操作

1. SAS程序编写规则

SAS程序编写只能在编辑窗口

  • 语句书写格式自由,每个语句以“;”结束;
  • 可以在一行中写几个语句,或把一个语句写在几行中;
  • SAS语言不区分字母大小写,变量 A1=a1、PROC = proc、DATA AA=data aa

程序任何部位可以加注释语句(不执行语句):

/* this is a small sample */

slide11

2. 运行SAS程序

  • 工具栏提交按钮
  • 功能键“F8”( 提交)
  • 菜单栏 运行 提交
  • 命令框键入“Submit”命令

自动激活“输出”窗口,出现程序运行结果

slide12

3. 调试SAS程序

没出现结果窗口,或结果不理想时。

  • 激活日志窗口(F6)

查看运行过程及出错信息

    • 黑色文字:源程序
    • 蓝色文字:程序运行情况说明信息
    • 红色文字:出错信息
    • 绿色文字:警告信息
  • 激活编辑窗口(F5)
  • 修改错误后重新发送
slide13

4. 保存SAS各窗口的内容

激活相应窗口

  • 常用工具栏 存盘按钮
  • 菜单栏 文件 保存(另存为)
  • 命令框输入File命令

可以分别保存程序、运行结果、日志

slide14

5. 打开已保存的程序、结果等

只能在编辑窗口

  • 常用工具栏 打开按钮
  • 菜单栏 文件 打开
  • 命令框输入Include命令

可打开以前保存的程序、运行结果、日志等文件及其他文本格式的文件。

slide15

五、SAS编程基础

1. SAS的操作符

  • 算术操作符:

加 +、减 -、乘 *、除/、乘方 **

  • 比较操作符:

等于 EQ或 =、大于 GT或 >、

小于 LT或 <、不等于 NE或 ^=、

大于等于 GE或 >=、小于等于 LE或 <=

  • 逻辑操作符:

AND 或&、 OR 或│、 NOT 或^

slide16
2. 常用SAS函数:

LOG(x) 以e为底的自然对数

LOG10(x) 以10为底的常用对数

EXP(x) 以e为底的反对数

SQRT(x) 平方根

ABS(x) 绝对值

INT(x) 取整数(不四舍五入)

ROUND(x) 取整数(四舍五入)

MOD(x,y) 取x/y的余数

SIN(x) 正弦

COS(x) 余弦 三角函数(x是弧度)

TAN(x) 正切

slide17

3. SAS表达式

用来赋值新的变量、转换变量、计算结果、建立条件表达式等,如:

赋值变量 Y=100

转换变量 X2=LOG(X1)

计算结果 Y=35.12+X1*2.58/100

条件表达式 G=(AGE<65)、Y=(X1=X2)、

AGE<15 OR AGE>64

SEX=1 AND AGE<60

slide18

4.使用 OPTIONS语句定义输出页面格式

options linesize (LS)=80 每行80个字符

pagesize (PS) =54 每页54行

nodate 不要打印日期

nocenter 不要居中

Options ls=132 ps=1000 nodate nocenter;

Option语句可以放程序的任何位置,常放在程序开始

slide19
第二节 SAS数据集

SAS数据集(SAS Dataset)

数据值被安排在一个矩阵式的表格结构中

每一行数据表示一个观测(Observation)

每一列数据表示一个变量(Variable)

  • 变量命名:1~8个字符,第1个字符必须是 字母,后面可以是字母、数字和下划线
  • 变量类型:数值型、字符型

字符型变量名后加“$”表示,

变量缺失值:用“.”表示

slide20
一、SAS数据集的种类
  • 临时SAS数据集

不保存,一旦退出SAS就消失。

数据集名称为1个单词,如DATA AA;

  • 永久SAS数据集

保存在用户指定的文件夹里。

数据集名称为2个单词,中间用“.”分开,也称二级名,如DATA NEW.AA;

slide21

SAS永久数据集

LIBNAMENEW ‘D:\MY DATA’; 建库标记

DATA NEW.AA; 命名永久数据集

在数据集的二级名称 NEW.AA中;

  • 第1个词NEW是库标记,代表用户指定的保存SAS数据文件的位置,前面要用LIBNAME语句指定它代表的文件夹或位置。
  • 第2个词AA是保存的SAS数据集的文件名。

执行这个过程的结果将会在D:\MY DATA文件夹中产生1个SAS永久数据文件 AA.sas7bdat

sas7bdat是自动产生的SAS数据文件默认扩展名

slide22
二、创建SAS数据集

1.在编辑窗口创建数据集

DATA AA;命名将要创建的数据集名

INPUT X1-X4; 描述数据集中的变量名

CARDS;以下开始是数据

2 47 156.3 47.1

1 38 172.4 61.5

……

; 数据结束

INPUT X Y@@;   连续读数据不换行

INPUT NAME$ AGE; 字符型变量名加$

slide23
2.在表编辑器窗口创建数据集

菜单栏 工具 表编辑器

打开表编辑器窗口直接输入数据

保存数据:文件 保存(另存为)

在左边逻辑库框中选择1个逻辑库

在下边成员名框中键入数据集名称

  • 建立临时数据集时,选择逻辑库 work,
  • 选择用户创建的库标记,即建立永久数据集
  • 工具栏 创建新逻辑库 可创建新的库标记
slide24
3.用分析家模块创建数据集

菜单栏 解决方案 分析 分析家

打开分析家窗口直接输入数据

保存数据:文件 保存(另存为)

在左边逻辑库框中选择1个逻辑库

在下边成员名框中键入数据集名称

  • 建立临时数据集时,选择逻辑库 work,
  • 选择用户创建的库标记,即建立永久数据集
  • 工具栏 创建新逻辑库 可创建新的库标记
4 sas
4.由其它类型数据文件转换成SAS数据集

菜单栏 文件 导入数据SAS可以直接与下列格式文件互相转换

  • Microsoft Excel 97/2000/2002 File (*.xls)
  • Microsoft Access 97/2000/2002 Database
  • dBASE/FoxBASE File (*.dbf)
  • Lotus 1/3/4 File (*.wk1/3/4)
  • Delimited File (*.*) 空格分隔
  • Tab Delimited File (*.txt) 制表符分隔
  • Comma Separated Velues(*.csv)逗号分隔
slide26
另外:

在写字板、记事簿、Word 或 Excel 中的数据也可以直接采用复制、粘贴的方式,通过编辑窗口创建SAS数据集。

通过 菜单栏 文件 导出数据

也可以把SAS数据集转换成相应的其它类型数据文件

5 sas
5 .从原有的SAS数据集中创建数据子集

DATA A1(子集);SET AA(原数据集);

(1)从SAS永久数据集中读取数据

LIBNAME NEW ‘D:\MY DATA’;建库标记

DATA A1; 命名将要创建的数据子集名

SET NEW.PP7;从D:\MY DATA\ 文件夹中原有的SAS永久数据文件PP7.SD2中读数据

slide28
(2)选择部分变量(列)
  • 保留部分变量:KEEP

DATA A1;SET AA;KEEP X1 X2;

  • 去掉部分变量:DROP

DATA A1;SET AA;DROP X3 X4;

  • 赋值新的变量

Y=X3+X4; LY=LOG(Y);

slide29
(3) 选择部分观测(行)

建子集语句:IF

DATA A1;SET AA;IF SEX=1;

DATA A1;SET AA;IF AGE>40;

IF X1^=3 (不等于)

IF SEX=1 AND AGE>60

IF AGE>20 AND AGE<=40

IF AGE<21 OR AGE>40

slide30
(4) 数据集连接
  • 纵向连接A1

DATA AA;SET A1 A2; A2

要求 A1和 A2中的变量相同

A1中有10行,A2中有15行,则AA有25行。

  • 横向合并A1 A2

DATA AA;MERGE A1 A2; BY Num;

匹配合并时,要求 A1和 A2中必须有1个相同的变量,且排列顺序也相同,作为标识变量用 BY 语句指定。

slide31
(5)数据集转置(行列互换)

PROC TRANSPOSE;BY G;VAR X1-X3;

OBS X1 X2 X3

  • 1 2 3
  • 4 5 6
  • 7 8 9
  • 10 11 12

OBS _Name_ Col1 Col2 Col3 Col4

  • X11 47 10
  • X2 2 58 11
  • X3369 12

选择项有:

OUT=新数据集名(缺省按DATA n自动命名)

PREFIX=新变量名前缀(缺省按Col n自动命名)

NAME=为原变量名列命名(缺省自动命名为_Name_)

slide32
第三节 统计描述

一、定量资料的统计描述

  • 简单描述:MEANS过程

输出样本量、均值、标准偏差、最小值、最大值

( N、Mean、Std Dev、Minimum、Maximum)

  • 详细描述:UNIVARIATE过程

输出更多指标:样本量、均数、标准差、最小值、最大值、方差、标准误 、中位数、四分位数间距、常用百分位数、众数、平方和、离均差平方和等,可以作正态性检验

另外还显示原数据中的部分极端值

means
简单描述MEANS过程

PROC MEANS; CLASS SEX;

VAR HEIGHT WEIGHT; RUN;

CLASS指定分组变量(不需分组时可省略)

VAR 指定需要分析的变量(不写即分析全部变量)

MEANS过程后不加任何选项时,自动输出5项结果:

N、均值、标准偏差、最小值、最大值

可加的选项有:标准误(StdErr)、方差(Var)、总和(Sum)、平方和(USS)、离均差平方和(CSS)、全距(Range)、变异系数(CV)、偏度系数(Skewness)、峰度系数(Kurtosis)、可信区间(CLM)、中位数(Median)、常用百分位数(P1, P5,P10,P25,…,P95)、四分位数(Q1,Q3)、t 检验(t、Prt)等

MAXDEC=n指定计算结果保留小数位数(默认7位)

slide34
频数表资料:

DATA AA2; INPUT X F@@; CARDS;

2.5 5 2.7 10 2.9 12 3.1 23 3.3 24 3.5 22 3.7 17 3.9 7 4.1 3

PROC MEANS N MEAN STD STDERR CLM ;

VAR X;FREQ F;RUN;

数据步中:X 是组中值,F是频数

过程步中:VAR X;指定分析变量是 X

FREQ F;指定 F 是频数

slide35

DATA AA3; INPUT X F@@;

Y=LOG10(X); CARDS;

4 1 8 5 16 6 32 2 64 7 128 10

256 4 512 5

;

PROC MEANS; VAR Y; FREQ F;

OUTPUT OUT=C MEAN=M; ①

DATA B2; SETC ; G=10**M; ②

PROC PRINT; VAR G;RUN; ③

①输出临时数据集C,变量M=均数,

②新建数据集B2,取自数据集C,

对变量 M 求反对数 G=10M

③输出过程步,输出几何均数 G

计算几何均数
univariate
详细描述UNIVARIATE过程

PROC SORT; BY SEX;

PROC UNIVARIATE; BY SEX;

VAR HEIGHT WEIGHT; RUN;

BY指定分组变量(不需分组时可省略)

SORT用BY之前必须先按分组变量排序

加选项 NORMAL可以作正态性检验

加选项 PLOT作茎叶图、箱式图、P-P图

加 QQPLOT语句 作Q-Q图

加 HISTOGRAM语句作直方图

在已知资料不服从正态分布时或对资料的分布类型不确定时可以用UNIVARIATE过程作探索性分析。

slide37

详细描述结果(1)

N 24 权重总和 24

均值 1.2846 观测总和ΣX 30.83

标准偏差 0.4687 方差 0.2196

偏度 0.1060 峰度 -0.9930

未校平方和ΣX2 44.6555 校正平方和 5.0518

变异系数 36.4835 标准误差均值 0.0957

基本统计测度

位置 变异性

均值 1.284583 标准偏差 0.46866

中位数 1.270000 方差 0.21964

众数 1.200000 极差 1.57000

四分位极差 0.79000

slide38

详细描述结果(2) 位置检验: Mu0=0

检验 --统计量--- -------P 值-------

t 检验 学生 t t 13.4279 Pr > |t| <.0001

符号检验 符号 M 12 Pr >= |M| <.0001

符号秩和检验 符号秩 S 150 Pr >= |S| <.0001

分位数(定义 5)

分位数 估计值

100% 最大值 2.110

99% 2.110

95% 2.070

90% 1.870

75% Q3 1.615

50% 中位数 1.270

分位数 估计值

25% Q1 0.825

10% 0.640

5% 0.640

1% 0.540

0% 最小值 0.540

slide39

极值观测

----最小值---- ----最大值----

值 观测 值 观测

0.54 12 1.80 8

0.64 14 1.87 9

0.64 13 1.87 24

0.75 15 2.07 10

0.76 16 2.11 11

slide40

Normal选项结果

正态性检验

检验 ----统计量---- ------P值------

Shapiro-Wilk W 0.962132 Pr < W <0.0001

Kolmogorov-Smirnov D 0.115212 Pr > D <0.0100

Cramer-von Mises W-Sq 0.284376 Pr > W-Sq <0.0050

Anderson-Darling A-Sq 1.704837 Pr > A-Sq <0.0050

小样本(n≤50)时用W法,样本量50<n<1000时用D法

slide41

PLOT选项结果

茎叶图

盒式图

茎 叶 # 盒式图

90 0 1 0

88 000 3 0

86 00 2 |

84 00 2 |

82 000 3 |

80 0000 4 |

78 0000000000000000 16 |

76 0000000000000000 16 |

74 00000000 8 +-----+

72 000000000000000 15 | |

70 00000000000000000000000000000 29 *--+--*

68 00000000000000000000000000 26 | |

66 000000000000000000000 21 +-----+

64 000000000000000 15 |

62 00000000000000 14 |

60 0000000000000000 16 |

slide42

正态概率分布图(Normal Probability Plot)

91+ *

| **

| ** ++

85+ * +++

| **+++

| **++

79+ *****

| ****+

| **+

73+ ***

| ****

| ****

67+ ****

| ****

| *****

61+** ***** ***+

+----+----+----+ ---+----+----+----+----+----+----+

-2 -1 0 +1 +2

slide43
二、定性资料统计描述

FREQ 过程 可以产生频数表和 n 维列联表

PROC FREQ;TABLES A ;RUN;

TABLES 指定要分析的定性变量

TABLES A 产生一维频数表

TABLES A*B 产生二维列联表(A是行B是列)

TABLES A*B*C 产生三维列联表

(A是分层,B是行,C是列)

TABLES A*(B C) 产生A*B、A*C两个二维表

TABLES X1-X3 产生X1、X2、X3三个一维表

TABLES (X1-X4)*Y 产生X1*Y X2*Y X3*Y X4*Y

四个二维表

slide44
如描述以下三个定性变量(258人)

A文化程度(1=文盲2=初中以下3=高中4=大学)

B工作强度(1=轻 2=中 3=重)

C月收入 (1=<300 2=300- 3=500- 4=1000-)

DATA AA4; INPUT A B C@@; CARDS;

3 2 3 4 1 4 4 1 3……

;

PROC FREQ; TABLES A B C;

PROC FREQ; TABLES A*B;

PROC FREQ; TABLES A*B*C;

PROC FREQ; TABLES A*(B C);

RUN;

slide45
一维频数表结果

变量名

A 频数 百分比 累计频数 累计百分比

2 78 30.2 78 30.2

3 85 32.9 163 63.2

4 95 36.8 258 100.0

slide46
二维频数表结果

B (行变量名) C(列变量名)

频数|

百分比 |

行百分比|

列百分比| 1 | 2 | 3 | 4 | 合计

---------+--------+---------+---------+--------+

1 | 0 | 6 | 37 | 26 | 69

| 0.00 | 6.32 | 38.95 | 27.37 | 72.63

| 0.00 | 8.70 | 53.62 | 37.68 |

| . | 75.00 | 67.27 | 81.25 |

---------+--------+---------+---------+--------+

2 | 0 | 2 | 18 | 6 | 26

| 0.00 | 2.11 | 18.95 | 6.32 | 27.37

| 0.00 | 7.69 | 69.23 | 23.08 |

| . | 25.00 | 32.73 | 18.75 |

---------+--------+---------+---------+--------+

合计  0 8 55 32 95

0.00 8.42 57.89 33.68 100.00

slide47
三、定量资料作频数表
  • 先用MEANS过程找出最大值和最小值

MIN=2.5 MAX=5.71 计算全距=3.21

  • 确定组距 I,如 I=全距/10≈0.3
  • 然后在数据步中赋值新的变量:

Y=INT( X/ I )*I

  • 用FREQ过程作频数表:

DATA AA; SET AA5;

Y=INT(X/0.3)*0.3;

PROC FREQ; TABLES Y; RUN;

slide48
定量资料作直方图

PROC GCHART;

VBAR X/LEVELS=11 SPACE=0 ; RUN;

GCHART过程作图

VBAR作纵向条图 ; HBAR作横向条图

常用选项有:

LEVELS分组的数目

WIDTH指定竖条的宽度,以字符宽度为单位

SPACE指定竖条之间的距离,直方图=0

MIDPOINTS=2.55 TO 5.85 BY 0.3指定组中值

slide49
第四节 定量资料假设检验(1)t 检验

一、样本均数与总体均数比较

以往新生儿出生体重平均为3000g,某医院对产妇开展孕期保健指导后,测得15名新生儿出生体重如下,问开展孕期保健指导后对新生儿体重是否有影响?

2800 3400 2900 2750 3000 3100

4600 3900 2350 3500 2600 3700

3800 2950 3200

means1
样本均数与总体均数比较用MEANS过程

DATA AA6; INPUT X@@; Y=X-3000; CARDS;

2800 3400 2900 2750 3000 3100 4600 3900

2350 3500 2600 3700 3800 2950 3200

;

PROC MEANS MEAN STD STDERR T PRT; VAR Y; RUN;

结果

均值 标准偏差 标准误差 t值 Prob>|t|

236.67 586.60 151.46 1.56 0.1405

P>0.05,不拒绝H0,尚不能认为开展孕期保健指导对新生儿体重有影响 。

univariate1
用UNIVARIATE过程

DATA AA6; INPUT X@@; CARDS;

2800 3400 2900 2750 3000 3100 4600 3900

2350 3500 2600 3700 3800 2950 3200

;

PROC UNIVARIATE MU0=3000; VAR X; RUN;

结果

位置检验: Mu0=3000

Test -Statistic- -----p Value------

学生 t t 1.562584 Pr > |t| 0.1405

P>0.05,不拒绝H0,尚不能认为开展孕期保健指导对新生儿体重有影响 。

slide52
二、配对设计 t 检验

为了比较新旧两个测声计的测定效果,随机选定10个场地,在每地同时用新旧两个测声计测量数据如下,问新旧两个测声计的测量结果是否不同?

场地 1 2 3 4 5 6 7 8 9 10

旧: 87 65 74 95 65 55 63 88 61 54

新: 86 66 77 95 60 53 62 85 59 55

t means
配对设计 t 检验用MEANS过程

DATA AA7; INPUT X1 X2 @@; Y=X1-X2;CARDS;

87 86 65 66 74 77 95 95 65 60

55 53 63 62 88 85 61 59 54 55

;

PROC MEANS MEAN STD STDERR T PRT; VAR Y; RUN;

结果

均值 标准偏差 标准误差 t值 Prob>|t|

0.90 2.28 0.72 1.25 0.2440

P>0.05,不拒绝H0,尚不能认为新旧两个测声计的测定结果有差别。

slide54
三、两样本均数比较

试比较克山病人与健康人的血磷值(mmol/L)是否不同?

克山病人 0.84 1.05 1.20 1.20 1.39 1.53

1.67 1.80 1.87 2.07 2.11

健康人 0.54 0.64 0.64 0.75 0.76 0.81

1.16 1.20 1.34 1.35 1.48 1.56

1.87

ttest
两样本均数比较用TTEST过程

DATA AA8; INPUT X@@;

IF _N_>11 THEN G=1; ELSE G=0;

CARDS;

0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

;

PROC TTEST; CLASS G; VAR X; RUN;

在TTEST过程中,分组变量G只能是两分类。

if then else
条件语句 IF – THEN / ELSE

IF后面是条件的表达式,如果满足条件就执行 THEN 后面操作,否则(不满足条件),就执行 ELSE 后面的操作(ELSE可选)。

IF X4=0 THEN X4=. ;

IF CJ<60 THEN S+1;

IF X4>2 AND X5=1 THEN Y=1; ELSE Y=2;

_N_是SAS数据步中自定义的变量,它的值表示观测的序号。

IF _N_>11 THEN G=1; ELSE G=0;也可用G=(_N_>11);赋值分组变量G:前11个观测G=0,超过11时G=1。

slide57

结果 Statistics 统计量描述

Lower CL Upper CL

Variable G N Mean Mean Mean

变量 分组 人数 均数下限 均数 均数上限

X 0 11 1.2375 1.5209 1.8043

X 1 13 0.8295 1.0846 1.3397

X Diff (1-2) 0.0778 0.4363 0.7948

两组之差

Lower CL Upper CL

Std Dev Std Dev Std Dev Std Err

标准差下限 标准差 标准差上限 标准误

0.2947 0.4218 0.7402 0.1272

0.3027 0.4221 0.6969 0.1171

0.3264 0.4220 0.5973 0.1729

slide58

结果(续)T-Tests t 检验

Variable Method Variances DF t Value Pr > |t|

变量  方法    方差  自由度  t值  P值

X Pooled Equal 22 2.52 0.0193

X Satterthwaite Unequal 21.4 2.52 0.0196

结论:P<0.05,拒绝H0,接受H1,可以认为两组人群血磷值不同,克山病人血磷值较高。

Equality of Variances 方差齐性检验

Variable Method Num DF Den DF F Value Pr > F

变量  方法 分子自由度 分母自由度 F值 P值

X Folded F 12 10 1.00 1.0000

结论:P>0.10,不拒绝H0,可以认为两样本方差齐。

slide59
两大样本均数比较时,如只有均数标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式编写程序完成。两大样本均数比较时,如只有均数标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式编写程序完成。

调查健康人群红细胞数 (1012/L)资料如下:

男性360人,均数466.02,标准差57.46;

女性255人,均数417.80,标准差29.10。

试比较男女红细胞数有无差别?

slide60

DATA BB;

INPUT N1 X1 S1 N2 X2 S2;

SE=SQRT(S1*S1/N1+S2*S2/N2);

U=ABS(X1-X2)/SE;

P1=1-PROBNORM(U);

P=2*P1;

U=ROUND(U,0.001);

P=ROUND(P,0.00001);

IF P<0.0001 THEN P=0.0001;

FILE PRINT;

PUT #2 @10 U= @25 P= ;

CARDS;

360 466.02 57.46 255 417.80 29.10

;

RUN;

slide61
第五节 定量资料假设检验(2)方差分析

一、单因素方差分析

用于完全随机设计

(成组设计)资料

例:比较三组人群载脂蛋白测定值有无差别?

anova
方差分析用ANOVA过程

DATA AA9; INPUT X@@;

IF _N_<12 THEN G=1;

ELSE IF _N_>20 THEN G=3;

ELSE G=2;

CARDS;

85.7 105.2 109.5 96.0 115.2 95.3……

PROC MEANS; CLASS G; VAR X;

PROC ANOVA; CLASS G; MODEL X=G;

MEANS G/SNK ; RUN;

在SNK后面加HOVTEST可以作方差齐性检验

slide63

结果 Analysis of Variance Procedure 方差分析过程

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

变异来源 自由度 SS MS F P

Model模型2 2384.02550505 1192.01275253 5.85 0.0077

Error误差27 5497.83616162 203.62356154

Total总29 7881.86166667

R-Square R2 Coeff Var C.V. Root MSE Sy.x X Mean

0.302470 12.93519 14.26967279 110.31666667

Source DF Anova SS Mean Square F Value Pr > F

变异来源 自由度 SS MS F P

G组间2 2384.02550505 1192.01275253 5.85 0.0077

P<0.01,拒绝H0,接受H1,可以认为三组人群载脂蛋白不同。

slide64

结果(续)Student-Newman-Keuls test for variable: X

均数间两两比较q检验(SNK法)

Means with the same letter are not significantly different.

相同字母表示的均数无显著性差别

SNK Grouping Mean N G

A 122.800 10 3

B 105.455 11 1

B

B 102.389 9 2

第三组高于前两组,即健康人的载脂蛋白高于两组病人。

slide65

单因素方差分析时,如只有各组的均数、标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式编写程序完成。单因素方差分析时,如只有各组的均数、标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式编写程序完成。

例:研究不同季节人体肾上腺皮质3β-HSD活性变化

slide66

DATA AA; INPUT K XX@;

DO I=1 TO K; INPUT N X S@@; OUTPUT;

SS1+(XX-X)*(XX-X)*N; SS2+S*S*(N-1);NN+N;

END;

SS1=SS1/(K-1); SS2=SS2/(NN-K); F=SS1/SS2;

P=1-PROBF(F,K-1,NN-K);

F=ROUND(F,0.001);

P=ROUND(p,0.00001);

IF P<0.0001 THEN P=0.0001;

FILE PRINT;

PUT #2 @10 F= @25 P= ;

CARDS;

4 0.6867(总均数)

42 0.78 0.13 40 0.69 0.22 32 0.68 0.14 36 0.58 0.20

;

RUN;

slide67
二、两因素方差分析

用于随机区组设计(配伍组设计)资料

例:取同品系同体重24只小鼠分为8组,每组3只小鼠来自同一窝,分别用A、B、C三种营养素喂养,问三周后所增体重有无差别。

anova1
两因素方差分析用ANOVA过程

DATA AA10;

DO I=1 TO 3;

DO J=1 TO 8;

INPUT X@@; OUTPUT;

END;

END; CARDS;

50.1 47.8 53.1 63.5 71.2 41.4 61.9 42.2

58.2 48.5 53.8 64.2 68.4 45.7 53.0 39.8

64.5 62.4 58.6 72.5 79.3 38.4 51.2 46.2

PROC MEANS; CLASS I ; VAR X;

PROC ANOVA; CLASS I J ; MODEL X=I J ;

RUN;

slide69

结果Analysis of Variance Procedure

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

Model模型9 2521.29375 280.14375 11.52 0.0001

Error误差 14 340.54250 24.32446

Total总23 2861.83625

R-Square Coeff Var Root MSE X Mean

0.881006 8.860514 4.93198381 55.6625

Source DF Anova SS Mean Square F Value Pr > F

I 处理间2 144.9175 72.45875 2.98 0.0836

J 区组间 7 2376.37625 339.48232 13.96 0.0001

处理间P>0.05,不拒绝H0,尚不能认为三种营养素喂养小鼠增重有差别;区组间P<0.01,拒绝H0,接受H1,可以认为8组小鼠体重增加有差别。

slide70
循环语句

在数据步的执行中反复地执行某一部分语句。

DO循环变量=初值 TO终值 BY增值 ;END;

增量=1时可省略。

DATA B1; DATA B2;

DO I=1 TO 10;DOI=1 TO 10 BY 2;

S+I; S+I;

OUTPUT; OUTPUT;

END;END;

PROC PRINT; PROC PRINT;

RUN; RUN;

slide71

循环语句可以嵌套(多重循环)

如打印乘法表:

1*1=1 DATA _NULL_;

2*1=2 2*2=4 DO I=1 TO 9;

3*1=3 3*2=6 3*3=9 DO J=1 TO I;

4*1=4 4*2=8 4*3=12 4*4=16 X=I*J;

5*1=5 5*2=10 5*3=15 …… PUT J 1. '*' I 1.

6*1=6 6*2=12 6*3=18 …… '=' X 2. +2 @ ;

7*1=7 7*2=14 7*3=21 …… END; PUT;

8*1=8 8*2=16 8*3=24 …… END;

9*1=9 9*2=18 9*3=27 …… RUN;

slide72

单因素方差分析的数据也可以用双重循环语句编写,在各组样本含量不等时,加缺失值 “.”补满。

DATA BB;

DO I=1 TO 11; DO J=1 TO 3;

INPUT X@@; OUTPUT;

END; END; CARDS;

85.7 96 144 105.2 124.5 117

109.5 105.1 110 96 76.4 109

115.2 95.3 103 95.3 110 123

110 95.2 127 106.5 99 121

125.6 120 115 100 . 159

111 . .

;

PROC ANOVA; CLASS J;

MODEL X=J; RUN;

slide73
三、三因素方差分析

用于拉丁方设计资料

例:比较动物对不同药物和用药次序的反应

拉丁方设计要求三因素水平数相同,因有四种药物A、B、C、D,故取4只动物,反复用药4次。

slide74

DATA AA11;

DO CX=1 TO 4; DO DW=1 TO 4;

INPUT YW$ X @@; OUTPUT;

END; END; CARDS;

A 75 B 29 C 27 D 42

B 45 D 71 A 81 C 53

C 25 A 71 D 80 B 23

D 47 C 31 B 48 A 87

;

PROC ANOVA; CLASS CX DW YW;

MODEL X=CX DW YW; MEANS YW/ SNK;

RUN;

slide75

结果Analysis of Variance Procedure

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

Model 9 6396.5625 710.7292 4.02 0.0521

Error 6 1059.8750 176.6458

Total 15 7456.4375

R-Square C.V. Root MSE X Mean

0.857858 25.46743 13.29081763 52.1875

Source DF Anova SS Mean Square F Value Pr > F

CX 3 773.1875 257.7292 1.46 0.3167

DW 3 270.68750 90.2292 0.51 0.6894

YW 3 5352.68750 1784.2292 10.10 0.0092

四种药物之间P<0.01,拒绝H0,接受H1,可以认为动物对四种药物的反应不同,A>B、C。而动物之间和用药次序均无影响。

slide76
四、析因实验设计的方差分析

可以分析各因素之间的交互作用。

例:用新、旧两法分别提取某食品中甲、乙两种化合物,观察回收率有无差别(包括方法间、化合物间及方法与化合物间交互作用)。

slide77

DATA AA12;

DO A=1 TO 2; DO B=1 TO 2;

DO I=1 TO 4;

INPUT X @@; OUTPUT;

END; END; END;

CARDS;

52 48 44 44 84 88 90 88

52 44 40 26 47 64 52 45

;

PROC ANOVA; CLASS A B;

MODEL X=A B A*B;

RUN;

slide78

结果Analysis of Variance Procedure

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 5309.00 1769.67 33.39 0.0001

Error 12 636.00 53.00

Total 15 5945.00

R-Square C.V. Root MSE X Mean

0.893019 12.82839 7.28 56.75

Source DF Anova SS Mean Square F Value Pr > F

A 1 1764.00 1764.00 33.28 0.0001

B 1 2704.00 2704.00 51.02 0.0001

A*B 1 841.00 841.00 15.87 0.0018

不同方法、不同化合物间均有差别,且交互作用也有统计学意义。

新法高于旧法,乙物高于甲物,以新法+乙物为最佳组合。

slide79
五、交叉实验设计的方差分析

研究新药催醒宁对麻醉剂的作用,将6只大鼠配成3对,随机决定每对中1只接受处理的顺序(催醒宁或生理盐水),等动物完全清醒3天后将实验组和对照组动物互换,同法重复试验一次。结果如下:

(Y 药物组 D 对照组)

slide80

DATA AA13;

DO CX=1 TO 2; DO DW=1 TO 6;

INPUT YW$ X @@; OUTPUT;

END; END;

CARDS;

Y 15 D 31 Y 17 D 30 D 25 Y 5

D 27 Y 25 D 28 Y 14 Y 18 D 26

;

PROC ANOVA;

CLASS CX DW YW;

MODEL X=CX DW YW;

RUN;

slide81

结果Analysis of Variance Procedure

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

Model 7 621.5833 88.7976 5.85 0.0535

Error 4 60.6667 15.1667

Total 11 682.2500

R-Square C.V. Root MSE X Mean

0.911079 17.90547 3.8944 21.75

Source DF Anova SS Mean Square F Value Pr > F

CX 1 18.75 18.75 1.24 0.3285

DW 5 158.75 31.75 2.09 0.2470

YW 1 444.08 444.08 29.28 0.0057

药物间P<0.01,拒绝H0,接受H1,可以认为实验组与对照组不同,催醒宁有效。

slide82

六、正交实验设计的方差分析

研究影响钉螺产卵数的土壤4个因素各有2水平:A.温度 B.含氧量 C.含水量 D.PH值,并考虑A*B交互影响,寻找最优条件。应用L8(27)表的正交试验结果如下:

slide83

DATA AA91;

INPUT A B C D X@@;

CARDS;

1 1 1 1 86 1 1 2 2 95

1 2 1 2 91 1 2 2 1 94

2 1 1 2 91 2 1 2 1 96

2 2 1 1 83 2 2 2 2 88

;

PROCANOVA; CLASS A B C D;

MODEL X=A B C D A*B;

RUN;

slide84

结果: The ANOVA Procedure

Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F

Model 5 141.0000000 28.2000000 11.28 0.0834

Error 2 5.0000000 2.5000000

Corrected Total 7 146.0000000

R-Square Coeff Var Root MSE X Mean

0.965753 1.747115 1.581139 90.50000

Source DF Anova SS Mean Square F Value Pr > F

A 1 8.00000000 8.00000000 3.20 0.2155

B 1 18.00000000 18.00000000 7.20 0.1153

C 1 60.50000000 60.50000000 24.20 0.0389

D 1 4.50000000 4.50000000 1.80 0.3118

A*B 1 50.00000000 50.00000000 20.00 0.0465

C因素(土壤含水量)、A*B交互项(温度×含氧量)对产卵数有影响,

从实验结果可见,当A*B =2且C=2时,产卵数最高。

slide85
七、重复测量资料的方差分析

比较某药物不同剂型的体内代谢速度,将10名受试者随机分为两组,分别在服药后1、2、4、6、8小时测定血中药物浓度(ug/ml),数据如下表:

slide86

DATA AA10;

INPUT G T1 T2 T4 T6 T8;

CARDS;

1 9.73 54.61 55.91 46.81 47.56 1 5.50 50.87 79.90 62.37 55.03

1 7.96 23.43 64.10 56.00 45.15 1 2.37 18.65 73.10 76.05 60.80

1 6.50 32.08 73.45 76.27 60.23 2 0.84 25.00 53.80 44.25 32.38

2 2.14 14.10 69.77 66.65 54.43 2 2.30 53.40 73.83 62.00 57.31

2 6.17 25.85 45.80 53.25 47.95 2 2.45 53.30 58.80 57.80 71.10

;

PROC ANOVA ; CLASS G;

MODEL T1 T2 T4 T6 T8=G;

REPEATED T 5/PRINTE;

RUN;

slide87

结果 协方差阵的球形性检验

Sphericity Tests

Mauchly's

Variables DF Criterion Chi-Square Pr > ChiSq

Transformed Variates 9 0.0557167 18.527972 0.0295

Orthogonal Components 9 0.0515572 19.025819 0.0250

P<0.05,不服从球型分布,需用G-G法或 H-F法进行自由度的调整,在下面结果中看校正后的P值(Adj Pr> F)

slide88

结果(续)处理间比较 Repeated Measures Analysis of Variance

Tests of Hypotheses for Between Subjects Effects

Source DF Anova SS Mean Square F Value Pr > F

G 1 240.945152 240.945152 1.11 0.3229

Error 8 1736.677488 217.084686

两种剂型间血药浓度差异无统计学意义(P=0.3229)。

组内时间比较 Repeated Measures Analysis of Variance

Univariate Tests of Hypotheses for Within Subject Effects

Adj Pr> F

Source DF Anova SS Mean Square F Value Pr > F G-G H-F

T 4 24102.42614 6025.60654 55.46 <.0001 <.0001 <.0001

T*G 4 111.78283 27.94571 0.26 0.9031 0.7711 0.8489

Error(T) 32 3476.94159 108.65442

不同测量时间的血药浓度不同(P<0.0001), 剂型与时间无交互作用。

slide89
第六节 定性资料假设检验

一、样本率与总体率比较

可以按照二项分布、Poisson分布的概率函数,或 u 检验计算公式在数据步中编程计算。

二项分布函数PROBBNML(π,n, x)

Poisson分布函数POISSON (μ,x)

slide90
(1)二项分布直接概率法

己知某药治愈率为60%。某医生随机抽取10名病人试用此药加VC同服,结果有8人治愈,问加服VC是否有增效作用?

该题己知π=0.6, n=10, x=8, 求n≥8的概率。

可以用二项分布函数PROBBNML(π,n, x)DATA BB; Q=PROBBNML(0.6,10,7); P=1-Q;

PROC PRINT; RUN;

结果:OBS Q P

1 0.83271 0.16729

P>0.05,不拒绝H0,尚不能认为VC有增效作用

2 poisson
(2)Poisson分布直接概率法

国家规定饮用水中大肠菌数平均不得超过3个/L。现从某水源地抽取水样1L测得大肠菌4个,问该水源是否符合饮用水条件?

该资料服从Poisson分布,己知μ=3,求X≥4的概率。可以用Poisson分布函数POISSON (μ,x)求得。

DATA BB; Q=POISSON(3,3); P=1-Q;

PROC PRINT; RUN;

结果:OBS Q P

1 0.64723 0.35277

P>0.05,不拒绝H0,尚不能认为细菌数超标。

slide92
(3) 大样本正态近似法—u检验

一般胃溃疡患者中有20%会发生胃出血症状。 某医院观察65岁以上溃疡病人304例,有96人发生胃出血。问老年胃溃疡患者是否容易出血?

己知π=0.2,n=304,x=96,可以用u检验。

DATA BB; INPUT P N X ; S=SQRT(P*(1-P)/N);

U=ABS(X/N-P)/S; P1=1-PROBNORM(U);

P=2*P1; U=ROUND(U,0.001); P=ROUND(P,0.00001);

IF P<0.0001 THEN P=0.0001;

FILE PRINT; PUT #2 @10 u= @25 P= ;CARDS;

0.2 304 96

;

RUN; 结果:u=5.047 P=0.0001

slide93
二、样本率之间比较—χ2检验

用两种药物治疗十二肠溃疡疗效比较

2 freq chisq
χ2检验用FREQ过程加CHISQ选项

DATA BB; DO I=1 TO 2; DO J=1 TO 2;

INPUT F@;OUTPUT; END; END;

CARDS;

54 8 44 20

;

PROC FREQ; TABLES I*J/CHISQ; WEIGHT F; RUN;

WEIGHT语句指明变量 F 是频数

加选项 EXACT可以对R行×C列表计算Fisher确切概率

EXPECTED可以显示每个格子的理论值

CMH可以计算队列研究和病例对照研究的RR值

NOROW、NOCOL、NOPERCENT不显示相应百分数

NOPRINT不显示表格,只显示计算的统计量

slide95

结果I * J 表的统计量

统计量 自由度 值 概率

χ2 1 6.133 0.013

似然比χ2 1 6.304 0.012

连续校正χ2 1 5.118 0.024

Mantel-Haenszelχ2 1 6.084 0.014

Phi系数 0.221

列联系数 0.215

Cramer的V 0.221

Fisher 精确检验

单元格 (1,1) 频数 (F) 54

左侧 Pr<= F 0.9968

右侧 Pr<= F0.0112

表概率 (P) 0.0080

双侧 Pr<= P 0.0179

样本大小 = 126

slide96

由原始数据计算:

如258人资料,三个定性变量

A文化程度(1=文盲2=初中以下3=高中4=大学)

B工作强度(1=轻 2=中 3=重)

C月收入 (1=<300 2=300- 3=500- 4=1000-)

试分析文化程度与月收入之间的关系

DATA AA4; INPUT A B C@@; CARDS;

3 2 3 4 1 4 4 1 3……

;

PROC FREQ; TABLES A*C/CHISQ;RUN;

slide97
三、配对定性资料的χ2检验

用甲乙两种血清学方法检查鼻咽癌患者血清410份。问两法的检出率有无差别?

slide98

DATA BB; DO I=1 TO 2; DO J=1 TO 2;

INPUT F@;OUTPUT; END; END;

CARDS;

261 87 31 31

;

PROC FREQ; TABLES I*J/AGREE; WEIGHT F; RUN;

AGREE选项作定性资料的一致性检验,计算χ2和Kappa统计量,Kappa<0.4不满意,>0.75很满意。

配对四格表资料计算 McNemar‘s χ2统计量

配对R×C表(方表)计算Bowker对称性检验QB统计量, QB近似服从DF=R(R-1)/2的χ2分布。

当P<0.05,拒绝H0时,结论为不服从对称分布。

slide99

结果 McNemar检验

统计量(S) 26.5763 自由度 1 Pr>S <0.0001

P<0.01,拒绝H0,接受H1,可以认为甲、乙两法的检出率不同,甲法检出率高于乙法。

简单 Kappa 系数

Kappa 0.1823 95%置信下限0.2815

渐近标准误差 0.0506 95%置信下限 0.0832

Sample Size = 410

Kappa值的假设检验:H0:Kappa=0 H1:Kappa≠0

u=Kappa/SE=0.1823/0.0506=3.57 P<0.01

拒绝H0,接受H1,可以认为甲、乙两法有一致性,但一致性的程度很差。

slide100

例:两种方法检查冠心病人心室壁收缩运动的符合情况例:两种方法检查冠心病人心室壁收缩运动的符合情况

结果:对称性检验

统计量 2.8561 自由度 3 Pr>S 0.4144

Kappa 统计量

统计量 值 标准误差 95% 置信限

简单 Kappa 0.681 0.050 0.5830 0.7788

加权 Kappa 0.661 0.056 0.5516 0.7711

样本大小 = 147

对称性检验:P>0.05,不拒绝H0,认为该资料服从对称分布。

一致性检验:u=Kappa/Ase=13.6,P<0.01,可以认为两种方法检查结果具有一致性,且一致性程度比较高。

slide101
第七节 秩和检验

(1) 配对设计资料

UNIVARIATE过程

可以作符号检验和符号秩和检验

例:8名男性服某药前后精液中精子浓度(万/ml)变化

slide102

DATA AA14;

INPUT X1 X2@@;

D=X1-X2;

CARDS;

6000 660 22000 5600 5900 3700 4400 5000

6000 6300 6500 1200 26000 1800 5800 2200

;

PROC UNIVARIATE;

VAR D;

RUN;

slide103

详细描述结果

基本统计测度

位置变异度

均值 7017.5 标准差 8746

中位数 4450.0 方差 76499021

众数 . 极差 248000

四分位极差 9920

位置检验: Mu0=0

检验 统计量 P值

t 检验 学生 t t 2.27 Pr > |t| 0.0575

符号检验 符号 M 2 Pr >= |M| 0.2891

符号秩和检验符号秩 S 15 Pr >= |S| 0.0391

S=T+ - (T++T-)/2

slide104
(2)成组设计资料

成组设计资料秩和检验用NPAR1WAY过程

两组比较时,可作Wilcoxon法计算u值

加 EXACT 语句计算确切概率

多组比较时,可作Kruskal-Wallis法计算χ2值

例:试比较两组工人的血铅值有无差别。

铅作业组:0.82 0.87 0.97 1.21 1.64 2.08 2.13

非铅作业组:0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01

slide105

DATA AA15; INPUT X@@; G=(_N_<8); CARDS;

0.82 0.87 0.97 1.21 1.64 2.08 2.13

0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01

;

PROC NPAR1WAY WILCOXON;

(EXACT;)

CLASS G; VAR X; RUN;

加选项 ANOVA可以同时作方差分析

MEDIAN可以作中位数检验

slide106

结果Wilcoxon Scores (Rank Sums) for Variable X

Classified by Variable G

Sum of Expected Std Dev Mean

G N Scores Under H0 Under H0 Score

秩和 理论秩和 标准差 平均秩和

1 7 93.5 63.0 10.23 13.36

0 10 59.5 90.0 10.23 5.95

Average Scores Were Used for Ties

Wilcoxon Two-Sample Test

Statistic 93.5000

Normal Approximation 正态近似

Z (u) 2.9313 One-Sided Pr>Z 0.0043 Two-Sided Pr>|Z| 0.0034 t-Test Approximation t 近似

One-Sided Pr>Z 0.0049 Two-Sided Pr>|Z| 0.0098

Kruskal-Wallis Test

CHISQ = 8.8813 DF = 1 Prob> CHI-Square = 0.0029

slide107
(3) 随机区组(配伍组)设计

用 FREQ 过程作Friedmanχ2检验

例: 8份血样放置不同时间后血糖浓度比较

slide108
DATA A16;

DO I=1 TO 8; DO J=1 TO 4; INPUT X @@;

OUTPUT; END; END; CARDS;

95 95 89 83 95 94 88 84

106 105 97 90 98 97 95 90

102 98 97 88 112 112 101 94

105 103 97 88 95 92 90 80

;

PROC FREQ;

TABLES I*J*X/SCORES=RANK CMH2;

RUN;

slide109
结果

J * X 的汇总统计量

I 的控制

Cochran-Mantel-Haenszel统计量 (基于秩得分)

统计量 对立假设 自由度 值 概率

1 非零相关 1 23.4000 <0.0001

2 行均值得分差值 3 23.5385 <0.0001

样本大小 = 32

(Friedman’ χ2)

slide110
第八节 相关回归分析

12名女大学生的体重(Kg)与肺活量(L)数据如下, 试作相关回归分析。

slide111
(1)相关分析

相关分析用CORR过程

DATA AA14; INPUT X Y@@; CARDS;

42 2.55 42 2.20 46 2.75 46 2.40

46 2.80 50 2.81 50 3.41 50 3.10

52 3.46 52 2.85 58 3.50 58 3.00

;

PROC CORR; VAR X Y;RUN;

(VAR X;WITH Y;)

加选项SPEARMAN计算等级相关系数

NOSIMPLE不输出一般性统计描述的结果

FREQ语句可以指定变量为频数

slide112

结果简单统计量

变量 N 均值 标准偏差 总和 最小值 最大值

Y 12 2.90 0.4144 34.83 2.20 3.50

X 12 49.33 5.2800 592.00 42.00 58.00

Pearson 相关系数, N = 12

当 H0: Rho=0时, Prob > |r|

X

Y 0.74948 r

0.0050 P

相关系数 r=0.74948 P=0.005

有高度正相关关系,可以作直线回归分析。

slide113
(2)回归分析

回归分析用REG过程(数据步同前)

PROC REG;MODEL Y=X; RUN;

MODEL语句加选项 /:

STB计算标准回归系数

P计算 、残差(y- ) R进行残差分析

CLI计算个体Y值的95%容许区间

CLM计算 总体均数的95%可信区间

NOINT指定方程中无常数项 (a=0)

COLLINOINT作多元回归时进行自变量的共线性分析

slide114

结果 Analysis of Variance

Source DF Sum of Squares Mean Square F Value Prob>F

Model 1 1.06122 1.06122 12.817 0.0050

Error 10 0.82800 0.08280

C Total 11 1.88922

Root MSE (Sy.x) 0.28775 R-square (R2) 0.5617

Dep Mean ( ) 2.90250 Adj R-sq (校正R2) 0.5179

C.V. 9.91388

Parameter Estimates(参数估计)

Parameter Standard T for H0: Prob

Variable DF Estimate b Error Sb Parameter=0 > |T|

INTERCEP 1 0.000413 0.8149 0.001 0.9996

X 1 0.058826 0.0164 3.580 0.0050

slide115
(3)相关回归作图

数据步同前

PROC GPLOT; PLOT Y*X ; RUN;

选项:

PLOT 纵坐标*横坐标=分层变量/OVERLAY

可以在同一图中作多组散点图

SYMBOL定义符号、增加趋势线、颜色等

VALUE=定义点的符号 * - ■ ▲ ◆

COLOR=定义点和线的颜色

I=连线方式 RL加回归线

CLI、CLM加可信区间

slide116
(4)多元回归和逐步回归分析

多元回归和逐步回归分析时,仍用REG过程,只在MODEL语句中增加自变量和选项

如:MODEL Y=X1-X5 / SELECTION=**

SELECTION指定逐步回归时筛选变量的方法

常用有:前进法 FORWARD SLE=0.5

后退法 BACKWARD SLS=0.1

逐步法 STEPWISE SLE=SLS=0.15

前进法(逐步法)变量进入模型的α水准 SLE=

后退法(逐步法)剔除变量的α水准 SLS=

slide117

例:某地29名13岁男童身高、体重、肺活量资料例:某地29名13岁男童身高、体重、肺活量资料

slide118

试分析身高、体重对肺活量是否有影响

DATA AA17; INPUT X1 X2 Y@@; CARDS;

135.1 32.0 1.75 139.9 30.4 1.75……

PROC CORR; VAR X1 X2 Y; 相关分析

PROC REG; MODEL Y=X1 X2; 多元回归分析

PROC REG; MODEL Y=X1 X2/ 逐步回归分析

SELECTION=STEPWISE SLE=0.05 SLS=0.05;

RUN;

用逐步法,选入、剔除变量时均为α=0.05

slide119

结果 3 变量 : X1 X2 Y

简单统计量

变量 N 均值 标准偏差 总和 最小值 最大值

X1 29 152.59 8.36 4425.20 135.00 167.80

X2 29 37.13 5.53 1076.70 27.60 49.50

Y 29 2.20 0.46 63.75 1.25 3.00

Pearson相关系数, N = 29 / 当 H0: Rho=0时, Prob > |r|

X1 X2 Y

X1 1.00000 0.74142 0.61045

0.0 0.0001 0.0004

X2 0.74142 1.00000 0.74961

0.0001 0.0 0.0001

Y 0.61045 0.74961 1.00000

0.0004 0.0001 0.0

身高、体重均与肺活量有正相关关系,身高和体重间

也有高度正相关关系。

slide120

结果(续) 多元回归分析

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F Model 2 3.29616 1.64808 17.131 0.0001 Error 26 2.50125 0.09620

C Total 28 5.79741

Root MSE 0.31016 R-square 0.5686

Dep Mean 2.19828 Adj R-sq 0.5354

C.V. 14.10945

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Prob > |t|

Intercept 1 -0.82469 1.22676 -0.67 0.5074

X1 1 0.00661 0.01045 0.63 0.5326

X2 1 0.05425 0.01579 3.44 0.0020

身高对肺活量的影响在方程中没有意义。

slide121

结果(续)逐步回归分析

Stepwise Selection: Step 1

Variable X2 Entered: R-square = 0.5619 and C(p) = 1.4000

第1步 变量X2进入

DF Sum of Squares Mean Square F Prob>F

Regression 1 3.2577 3.2577 34.63 0.0001

Error 27 2.5397 0.0941

Total 28 5.7974

Parameter Standard Type II

Variable Estimate Error Sum of Squares F Prob>F

Intercept -0.0906 0.3931 0.0050 0.05 0.8194

X2 0.0616 0.0105 3.2577 34.63 0.0001

Bounds on condition number: 1, 1

slide122

结果(续)

All variables left in the model are significant at the 0.0500 level.

No other variable met the 0.0500 significance level for entry into the model.

在α=0.05水准上,没有变量可以进入方程。

Summary of Stepwise Procedure for Dependent Variable Y

Variable Number Partial Model

Step Entered Removed In R**2 R**2 C(p) F Prob>F

1 X2 1 0.5619 0.5619 1.4 34.63 0.0001

slide123
(5)多元Logistic回归分析(成组设计)

PROCLOGISTIC;

CLASS ;指定某自变量为分类变量,设哑变量

MODEL Y=X1-X5; 指定模型因变量和自变量

WEIGHT F; 指定变量F为频数,也可用case/n表

RUN; 示因变量Y ,不用weight语句

Logistic过程后可加选项:

DES 指定Y=1为病例组水平(默认病例Y=0)

SIMPLE输出各变量的简单统计描述结果

MODEL 语句后可加的选项:/

STB计算标准回归系数

CL计算总体回归系数95%可信区间

NOINT指定方程中无常数项 (a=0)

逐步回归筛选变量的方法同REG过程

slide124
例:26例肾细胞癌转移有关因素分析

NO 病人编号

X1 确诊时病人年龄(岁)

X2 肾细胞癌血管内皮生长因子(分3级)

X3 肾细胞癌组织内微血管数

X4 肾细胞癌组织学分级(由低到高共4级)

X5 肾细胞癌分期(由低到高共4期)

Y 肾细胞癌转移情况(有=1,无=0)

data aa; input no x1-x5 y; cards;

数据略(PP213)

proc logistic des; model y=x1-x5/

selection=stepwise sle=0.1 sls=0.1; run;

slide125

结果Testing Global Null Hypothesis: BETA=0

(模型检验)

Test Chi-Square DF Pr > ChiSq

Likelihood Ratio 21.7159 2 <.0001

Score 15.8442 2 0.0004

Wald 5.5920 2 0.0611

Analysis of Maximum Likelihood Estimates(参数估计)

Standard Wald

Parameter DF Estimate b ErrorSb Chi-Square Pr > ChiSq

Intercept 1 -12.3283 5.4305 5.1539 0.0232

X2 1 2.4134 1.1960 4.0718 0.0436

X4 1 2.0963 1.0879 3.7131 0.0540

Odds Ratio Estimates(OR值)

Point 95% Wald

Effect Estimate点估计 Confidence Limits 区间估计

X2 11.171 1.072 116.449

X4 8.136 0.965 68.621

slide126
第九节 随访资料生存率分析

(1) 小样本生存率分析

两组横纹肌肉瘤术后复发月数比较

1组(术后+化疗):15人

2 3 9 10 10 12+ 15 15+ 16 18+ 24+ 30 36+ 40+ 45+

2组(术后+化疗、放疗):17人

9 12+ 16 19 19+ 20+ 20+ 24+ 24+ 30+ 31+ 34+ 42+ 44+ 53+ 59+ 62+

带 + 为截尾值

lifetest
生存率分析用LIFETEST过程

DATA AA18; INPUT T@@;

CENSOR=(T<0); G=(_N_>15); T=ABS(T); CARDS;

2 3 9 10 10 -12 15 -15 16 -18 -24 30 -36 -40 -45 9 -12 16 19 -19 -20 -20 -24 -24 -30 -31 -34 -42 -44 -53 -59 -62

;

PROC LIFETEST METHOD=PL PLOTS=(S);

TIME T*CENSOR(1); STRATA G; RUN;

加选项:METHOD=LT 指定用寿命表法估计生存率

METHOD=PL 乘积极限法估计生存率(缺省值)

PLOTS=(S) 作生存率曲线

STRATA 指定分层变量

slide128

结果Product-Limit Survival Estimates 乘积极限法估计生存率

Survival Number Number

T Survival Failure Std Err Failed Left

时间 生存率 死亡率 生存率标准误 死亡人数 存活人数

0.00 1.0000 0 0 0 15

2.00 0.9333 0.0667 0.0644 1 14

3.00 0.8667 0.1333 0.0878 2 13

9.00 0.8000 0.2000 0.1033 3 12

10.00 . . . 4 11

10.00 0.6667 0.3333 0.1217 5 10

12.00* . . . 5 9

15.00 0.5926 0.4074 0.1288 6 8

15.00* . . . 6 7

.

.

36.00* . . . 8 2

40.00* . . . 8 1

45.00* . . . 8 0

* Censored Observation *为截尾值

slide129

结果(续)

Summary Statistics for Time Variable T生存时间描述

Point 95% Confidence Interval

Quantile Estimate [Lower, Upper)

分位数 点值估计 95%可信区间

75% . 16.0000 .

中位生存时间 50% 30.0000 10.0000 .

25% 10.0000 3.0000 30.0000

平均生存时间 Mean 19.9704 Standard Error 3.0406

Test of Equality over Strata 生存率间比较

Test Chi-Square DF Pr >Chi-Square

对数秩检验 Log-Rank 5.6049 1 0.0179

Wilcoxon 5.3379 1 0.0209

-2Log(LR) 6.3132 1 0.0120

slide130
(2) 寿命表法计算大样本生存率

585例乳腺癌术后随访资料

slide131
DATA AA31;

DO T=0 TO 9; DO C=0 TO 1;

INPUT F@@; OUTPUT;

END; END; CARDS;

59 63 69 71 43 55 30 38 13 31

7 26 14 21 4 11 3 15 0 12

;

PROCLIFETEST METHOD=LT PLOTS=(S);

TIME T*C(1); FREQ F;

RUN;

slide132
结果

Life Table Survival Estimates 寿命表法估计生存率

Conditional

Effective Conditional Probability

Interval Number Number Sample Probability Standard

[L, Up) Failed Censored Size of Failure Error Survival Failure

时间 死亡数 删失数 校正数 死亡概率 标准误 生存率 死亡率

0 1 59 63 553.5 0.1066 0.0131 1.0000 0

1 2 69 71 427.5 0.1614 0.0178 0.8934 0.1066

2 3 43 55 295.5 0.1455 0.0205 0.7492 0.2508

3 4 30 38 206.0 0.1456 0.0246 0.6402 0.3598

4 5 13 31 141.5 0.0919 0.0243 0.5470 0.4530

5 6 7 26 100.0 0.0700 0.0255 0.4967 0.5033

6 7 14 21 69.5 0.2014 0.0481 0.4619 0.5381

7 8 4 11 39.5 0.1013 0.0480 0.3689 0.6311

8 9 3 15 22.5 0.1333 0.0717 0.3315 0.6685

9 . 0 12 6.0 0 0 0.2873 0.7127

slide133
(3) 随访资料多元COX回归

PROCPHREG;

MODEL T*C(?)=X1-X7;

RUN;

T为时间变量,C为结局变量 ?为截尾数据的取值

MODEL 语句后可加的选项:/

STB计算标准回归系数

RL计算RR的95%可信区间

逐步回归筛选变量的方法同REG过程

slide134

例: 63名恶性肿瘤患者随访资料

X1 年龄 (岁)

X2 性别 男=1 女=0

X3 肿瘤组织学类型 高分化=1 低分化=0

X4 治疗方式 传统疗法1 新疗法=0

X5 淋巴结转移 有=1 无=0

X6 肿瘤浸润程度 突破浆膜层=1 未突破=0

T 生存时间(月)

D 患者结局 死亡=0 截尾=1

data aa; input no x1-x6 t d; cards; 数据略(pp240)

procphreg;

model t*d(1)=x1-x6/selection=stepwise

sle=0.05 sls=0.05 rl; run;

slide135

结果 Testing Global Null Hypothesis: BETA=0 (模型检验)

Test Chi-Square DF Pr > ChiSq

Likelihood Ratio 19.2168 2 <.0001

Score 17.5941 2 0.0002

Wald 14.5770 2 0.0007

Analysis of Maximum Likelihood Estimates (参数估计)

Parameter Standard

Var DF Estimate b Error Sb Chi-Square Pr > ChiSq

X4 1 1.76128 0.54785 10.3356 0.0013

X5 1 0.93133 0.44455 4.3890 0.0362

Hazard Ratio 95% Confidence Limits

(RR点估计值) (区间估计)

5.820 1.989 17.031

2.538 1.062 6.066