370 likes | 656 Views
確率・統計の基礎. 麻生良文. 項目. 確率変数 分布関数,密度関数 期待値・分散 さまざまな確率分布 二項分布,ポアソン分布 正規分布,対数正規分布,ロジスティック分布 カイ二乗分布, t 分布, F 分布 Excel での確率・統計関数 同時分布. 確率変数 random variable. ある変数 X の値が事前にどの値が実現するかわからない場合, X の実現値 x が確率 P をもって実現するとみなす。 確率論ではもっと抽象的な定義が与えられる X を確率変数。実現した値 x を実現値とよぶ。 離散型 (discrete type)
E N D
確率・統計の基礎 麻生良文
項目 • 確率変数 • 分布関数,密度関数 • 期待値・分散 • さまざまな確率分布 • 二項分布,ポアソン分布 • 正規分布,対数正規分布,ロジスティック分布 • カイ二乗分布,t分布,F分布 • Excelでの確率・統計関数 • 同時分布
確率変数 random variable • ある変数Xの値が事前にどの値が実現するかわからない場合,Xの実現値xが確率Pをもって実現するとみなす。 • 確率論ではもっと抽象的な定義が与えられる • Xを確率変数。実現した値xを実現値とよぶ。 • 離散型(discrete type) • Xのとりうる値が離散変数の場合 • サイコロ X={1,2,3,4,5,6} • 連続型(continuous type) • Xのとりうる値が連続変数の場合
分布関数,密度関数 • 分布関数(distribution function) • Pr(X≤x) 確率変数Xがx以下の値をとる確率 • 累積分布関数(cumulative distribution function) • F(x)は単調増加関数 • 密度関数(density function) • 確率密度関数(probability distribution function)
分布関数,密度関数(2) • 分布関数(続き) • F(x)が微分可能な場合には • 離散型確率変数の場合 • Xのとりうる値がx1,x2,…の場合
分布関数,密度関数(3) 標準正規分布の場合 分布関数(distribution function) 密度関数(density function)
期待値,分散 • 期待値(expected value) • 分散(variance) mを期待値として 重要な公式
離散的な確率変数の例 • 2項分布 binomial distribution • 1回の試行で成功する確率をp,失敗する確率をqとする(q=1-p) • n回の独立な試行で成功した回数を確率変数Xで表す。X=k(0≤k≤n)となる確率は • 期待値,分散は
その他の離散分布の例 ポアソン分布 2項分布でnが大きく,pが非常に小さいときの極限 1回の試行では起こることが稀だが,試行回数が多いので,何回かは起こる (プロシアの軍隊で馬に頭を蹴られて死亡した軍人の数)
連続的な確率変数の例 • 正規分布 • カイ二乗分布 • t分布 • F分布 • 対数正規分布 • 指数分布
正規分布 normal distribution 平均m,分散 s2の正規分布 X~ N(m, s2) 密度関数 m=0, s2=1の正規分布 • 標準正規分布(standard normal distribution)の密度関数
標準正規分布のグラフ 分布関数(distribution function) 密度関数(density function)
密度関数は左右対称 X~N(m,s)のとき,Z=(X-m)/s は標準正規分布に従う Pr(Z≤z)=F(z) : 分布関数 Pr(Z>z)=1−F(z) Pr(a≤Z≤b)=F(b) − F(a) 標準正規分布の性質
標準正規分布の性質(2) • Pr(-1<Z<1)=0.6827 • Pr(-2<Z<2)=0.9545 • Pr(-3<Z<3)=0.9973 • 逆関数 • Pr(Z≤z)=pとなるzExcel2010 ではnorm.s.inv (p) • Excel 2007 からExcel2010で,統計関数に変更有り • Excel2003では normsinv(p) • Helpの「統計関数」を参照のこと • p=0.90 z=1.2812 • p=0.95 z=1.6449 • p=0.975 z=1.9600
カイ二乗分布 • カイ二乗分布(chi squared distribution) • ziが互いに独立で同一の標準正規分布に従う確率変数であるとした場合(i=1,2,..,n),ziの平方和 z12+ z22+ ....+ zn2 は自由度nのカイ二乗分布に従う
F分布,t分布 • x ~c2(n),y~c2(m)で,x と y が独立であるとする。このとき,x/n と y/m の比は自由度(n, m)のF分布に従う • z~N(0,1),x~c2(n)でzとxは独立であるとする。このとき,次の変数は自由度nのt分布に従う
カイ二乗分布 c2 distribution df=2 df=5 df=10
F分布 df=(2,100) df=(5,100) df=(10,100)
t 分布 黒: 標準正規分布 赤: t分布(df=10) 赤: t 分布(df=10) 青: t分布(df=1000) t分布は正規分布より裾の厚い分布 自由度の増加 正規分布に近づく
対数正規分布 lognormal distribution xの対数値が正規分布に従う場合ln x ~ N(m, s2) xは対数正規分布に従うといい,次のように表す x ~ LN(m, s2) なお,期待値は次の通り E(x)=exp(m+s2/2) 所得分布はこの分布でうまく近似できることが知られている x~LN(0, 1.0)のとき,E(x)=exp(0.5)≈1.65 平均値はモードよりもかなり高い
Excel2010での統計関数 • CHISQ.DIST(x, df) : Pr(X<=x) を返す • CHISQ.INV(p, df) • CHISQ.DIST.RT(x, df) : Pr(X>x) を返す • CHISQ.INV.RT(p, df) • F.DIST(x, df1, df2,関数形式) : Pr(X<=x) を返す • F.INV(p, df1, df2) • F.DIST.RT(x, df1, df2) : Pr(X>x) を返す • F.INV.RT(p, df1, df2) • LOGNORM.DIST(x, mean, stdev) • LOGNORM.INV(p, mean, stdev) • NORM.DIST(x, mean, stdev, 関数形式) • NORM.INV(p, mean, stdev) • NORM.S.DIST(x, 関数形式) • NORM.S.INV(p) • T.DIST(x, df, 関数形式) • T.DIST.2T(x, df) 両側 • T.DIST.RT(x, df) 右側 • T.INV(p, df) • T.INV.2T(p, df) • 関数形式: TRUE : 累積分布, FALSE : 密度関数
Excel2003以前の統計関数 • CHIDIST(x, df) • CHIINV(p,df) • FDIST(x, df1, df2) • FINV(p, df1, df2) • LOGNORMDIST(x, mean, stdev) • LOGINV(p, mean, stdev) • NORMDIST(x, mean, stdev,形式) • NORMINV(p, mean, stdev) • NORMSDIST(x) • NORMSINV(p) • TDIST(x,df,parameter) parameter=1:両側,2:片側 • TINV(p,df) • Excel 2007からとExcel2010で統計関数に若干の変更有り
Eviewsでの統計関数(1) • 累積分布(CDF) @c... • 密度関数 @d... • Quantile (CDFの逆関数) @q... • 乱数の生成 @r... ----------------------------------------------------------------- • 標準正規分布 • @cnorm(x), @dnorm(x), @qnorm(p), @rnorm • t分布 • @ctdist(x,df), @dtdist(x,df), @qtdist(p,df), @rtdist(df)
Eviewsでの統計関数(2) • F分布 • @cfdist(x,df1,df2), @dfdist(x,df1,df2), @qfdist(p,df1,df2),@rfdist(df1,df2) • カイ二乗分布 • @cchisq(x,df), @dchisq(x,df), @qchisq(p,df), @rchisq(df) • 対数正規分布 • @clognorm(x,m,s), @dlognorm(x,m,s),@qlognorm(p,m,s),@rlognorm(m,s) • log x ~ N(m, s2)
Eviewsでの統計関数(3) コマンドラインに式を書く この例では, scalar p = @cnorm(2.0) として,計算結果を変数pに代入した。 scalarは変数pがスカラー変数だという宣言 結果は,pという変数に収められている
同時分布(離散分布の場合) • XとYが確率変数 • 同時確率(joint probability) • p(x,y)≡Pr(X=x,Y=y) • 周辺確率(marginal probability) • p(x) ≡ Pr(X=x)=∑yp(x,y) • 条件付確率(conditional probability) • X=xが与えられた場合のYの確率関数 • p(y|x) ≡ Pr(Y=y| X=x)=p(x,y)/p(x) • 分布の独立性 • p(x,y) = p(x) p(y)
同時分布(連続分布の場合) • XとYが確率変数 • 同時分布関数(joint distribution function) • F(x,y)≡Pr(X≤x,Y≤y) • 同時密度関数 • 周辺密度関数
同時分布(連続変数の場合 2) • 条件付密度関数 • X=xが与えられた場合のYの密度関数 • 分布の独立性 • F(x,y) = FX(x)FY(y) • f(x,y)=fX(x) fY(y)
共分散と相関係数 • -1≤ cor(X,Y) ≤1 • cor(X,Y)=0 確率変数XとYは無相関 • 相関は2つの変数間の線型関係をみるもの。XとYが無相関であっても,非線形の関係があるかもしれない。
期待値,分散の性質 • a,bを定数。X,Yを確率変数として • 分散
Y1,Y2,...,Ynは互い独立で同一の分布に従う E(Yi)=m, var(Yi)=s, (i=1,2,..,n) 標本平均の性質 nが大きくなるにつれ,標本平均のバラつきは小さくなる (大数の法則)
Excelで確率分布のグラフを描く • 2項分布 • n:試行回数 • p:ある事象の起きる確率 • Pr(X=k)=nCkpk (1-p)n-kを計算 • nCkcombin (n,k) • 2項分布 binom.dist(k,n,p,関数形式) • 関数形式 • TRUE 累積分布,FALSE確率密度 • ポアソン分布 • poisson.dist(n,l, 関数形式) • Excel2003での統計関数 binom(k,dn,p,関数形式) , poisson(n, l, 関数形式)
Eviewsで確率分布のグラフを描く 新しいwork fileを作成 menuから File NewWorkfile observationsに適当な値を入れる(ここでは101にした xの範囲と刻みによって決める)。 workfileのstructure typeは unstructuredに xの値を作成([-5,5]の区間で0.1刻みの連続データを作成 コマンドウィンドウで次のようにタイプ series x = ─5.0 + @trend/10 続いて,正規分布,t分布(自由度30)の確率密度関数を作成 series y1 = @dnorm(x) series y2 = @dtdist(x, 30) 後は,x,y1,y2を選択してグラフを描く @trend : オブザベーションの順番に0,1,2,3,...を返す関数 変数の作成は,menuからgenrを選択してもよい
Eviewsで書いた標準正規分布と自由度30のt分布の密度関数Eviewsで書いた標準正規分布と自由度30のt分布の密度関数 同様にして,自由度の異なるt分布の密度関数を描くことできる F分布や,カイ二乗分布も同様に描ける(定義域はx>0) @dnorm(x), @dtdist(x,df), @dchisq(x,df), @dfdist(x,df1,df2)
問題 • Eviewを用いて,標準正規分布の密度関数と累積分布関数のグラフを作成せよ。 • -5.0から5.0まで,0.1刻みの変数を作る(x) • y1=@dnorm(x)で密度関数の値を入れた変数を作る • y2=@cnorm(x)で累積分布関数の値を入れた変数を作る • 標準正規分布で,累積分布が0.95,0.975,0.99,0.995となるxの値を求めよ • @qnorm(p) でxの値が返る • 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布のグラフを比較せよ • 異なる自由度のカイ二乗分布のグラフを描け • 異なる自由度のF分布のグラフを描け