Statistics
Download
1 / 63

สถิติ ( Statistics ) - PowerPoint PPT Presentation


  • 170 Views
  • Uploaded on
  • Presentation posted in: General

สถิติ ( Statistics ). ดร.ถาวร ทันใจ Ph.D., MA, MS, พบม. วทบ.,รปศบ. อ้างอิงตาม. ผศ . น . พ . นภดล สุชาติ ภาควิชาสถิติ. หลักสถิติ 1. คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์. 2547. ภิรมย์ กมลรัตนกุล. การอบรมการพัฒนาศักยภาพคณะกรรมการสนับสนุนงานวิชาการในส่วนภูมิภาคที่โลตัสปางสวนแก้ว; 2 ก.ย.45

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha

Download Presentation

สถิติ ( Statistics )

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


สถิติ(Statistics)

ดร.ถาวร ทันใจ

Ph.D., MA, MS,พบม.

วทบ.,รปศบ.


อ้างอิงตาม

  • ผศ.น.พ.นภดลสุชาติ

  • ภาควิชาสถิติ. หลักสถิติ 1.คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์. 2547.

  • ภิรมย์ กมลรัตนกุล. การอบรมการพัฒนาศักยภาพคณะกรรมการสนับสนุนงานวิชาการในส่วนภูมิภาคที่โลตัสปางสวนแก้ว; 2ก.ย.45

  • Campbell, MJ. Statistic at square Two, BMJ Books

  • Swinscow, TDV, Campbell, MJ. Statistic at square One, Tenth edition, BMJ Books


สติติคืออะไร

  • ตัวเลขที่รวบรวมไว้เพื่อความมุ่งหมายที่แน่นอนและเกี่ยวข้องกับเรื่องใดเรื่องหนึ่ง

  • ศาสตร์ที่ว่าด้วยการเก็บรวบรวมข้อมูล การนำเสนอข้อมูล การวิเคราะห์ตีความข้อมูล

  • เป็นเครื่องมือของการวิจัยที่อาศัยการวิเคราะห์ข้อมูลเป็นหลัก


Scale of Measurement

  • Nominal Scale

    เช่น เพศ, ปัจจุบันพักอาศัยกับใคร, ท่านเกิดที่จังหวัดไหน

  • Ordinal Scale

    เช่น ชั้นเรียน, ความเพียงพอของค่าใช้จ่าย, พฤติกรรมความรุนแรง

  • Interval Scalearbitrary zero เช่น องศาเซลเซียส, ฟาเรนไฮต์

  • Ratio Scale

    true zero เช่นอายุ, น้ำหนัก, รายได้


ข้อมูลระดับ Norminal

เพศ

Cumulative

Frequency

Percent

Valid Percent

Percent

Valid

ชาย

140

50.0

50.0

50.0

หญิง

140

50.0

50.0

100.0

Total

280

100.0

100.0


ตารางแสดงข้อมูลระดับ Ordinal


ข้อมูลระดับ Ratio


การคำนวณผิดพลาด


ประเภทของสถิติ

สถิติเชิงอนุมาน

สถิติเชิงพรรณนา

Mean

Mode

Variance

SD

Non Parametric

Parametric

t-test

ANOVA

ANCOVA

Factor Analysis

Pearson’s

Nominal

Ordinal

Spearman

Mann-Whitney

Chi Square

Median Test

Sign Test


สถิติเชิงพรรณนา, สถิติเชิงอนุมาน

  • สถิติเชิงพรรณา (Descriptive Statistics) ใช้กับกลุ่มประชากรได้แก่ Mean, Mode, Median, Variance,Standard Deviation เป็นต้น

  • สถิติเชิงอนุมาน (Inference Statistics) เป็นสถิติเชิงทดสอบสมมุติฐานว่าสมมติฐานที่ตั้งไว้เป็นจริงหรือไม่ได้แก่การประเมินค่าพารามิเตอร์ในประชากร (Estimation) และการทดสอบสมมุติฐาน (Hypothesis Testing) แบ่งออกเป็น Parametric และ Non parametric statistics


ประเภทของสถิติ

Geometric Mean

Coefficient of Variation

RATIO

INTERVAL

ORDINAL

NOMINAL

Parametric

Median, Percentile

Spearman

Kendall, Kendall W

Non-Parametric

Mode, Frequency

Contingency Coefficient


Parametric Statistics

  • กลุ่มประชากรที่มีการแจกแจงแบบโค้งปกติ ข้อมูลทั้งหมดเรียกว่า Population ค่าที่คำนวณได้เรียก Parameter แต่ถ้าเก็บมาเพียงบางส่วนจากประชากรจะเรียก Sample ค่าที่ได้เรียกว่าค่าสถิติ (Statistics) มีระดับการวัดแบบ Ratio หรือ Interval scale เช่น t-test, ANOVA, Correlation, Multiple Regression เป็นต้น


Non Parametric Statistics

  • คือสถิติที่ใช้กับกลุ่มประชากรที่ไม่เข้าเงื่อนไขของ Parametric มีระดับการวัดแบบ Ordinal และ Nominal วิเคราะห์โดยการใช้วิธี Chi Square, Log Rank Test, Mann Whitney, Wilcoxon เป็นต้น


สมมติฐานการวิจัย Research Hypothesisสมมติฐานทางสถิติ Statistical Hypothesis

  • สมมติฐานการวิจัยคือการคาดการณ์ผลวิจัย

  • สมมติฐานทางสถิติคือ H0 และH1

  • Null Hypothesis = H0มักเขียนในรูปปฏิเสธหรือไม่มีความแตกต่างไม่สัมพันธ์กัน

  • Alternative Hypothesis = H1 มักเขียนในรูปมีความแตกต่างมีความสัมพันธ์กันและเขียนให้สอดคล้องกับสมมติฐานการวิจัย


p value

  • ยิ่ง p value ยิ่งมีค่าน้อยก็จะเลื่อนไปทางด้านหางของ H0 จึงปฏิเสธ H0หรือก็คือเลื่อนเข้าไปใน H1 มากขึ้นจึงยอมรับ H1 ซึ่งสอดคล้องกับสมมติฐานการวิจัย


ตัวแปร

  • ข้อมูลได้จากการสังเกตวัดสอบถามหน่วยศึกษาอาจเป็นคนสัตว์สิ่งของ

  • ตัวแปรแตกต่างกันเพราะ

    • คุณลักษณะแตกต่างกัน

    • เวลาแตกต่างกัน

    • สถานที่แตกต่างกัน


ประเภทของข้อมูล

  • แบ่งตามที่มา

    • ข้อมูลปฐมภูมิ (Primary Data)

    • ข้อมูลทุติยภูมิ (Secondary Data)


ข้อมูลเชิงคุณภาพ

อยู่รูปแบบของข้อความเช่นเชื้อชาติเพศสีผิว

Qualitative Variables

Categorical Variables

Nominal Variables

Ordered Variables

Coded Variable

ข้อมูลเชิงปริมาณ

ได้จากการชั่งตวงวัดเช่นน้ำหนักความดันโลหิต

Quantitative Variable

1. Discrete Data เช่นจำนวนสิ่งของจำนวนคน

2. Continuous Data เช่นน้ำหนักความกว้าง

ข้อมูลเชิงคุณภาพและข้อมูลเชิงปริมาณ


ข้อมูลเชิงคุณภาพ

  • ชาย 30 คนหญิง 30 คน

  • เป็นข้อมูลได้จากการนับ

  • สูบบุหรี่ 15 คนไม่สูบบุหรี่ 45 คน

  • เป็นข้อมูลได้จากการนับ


ข้อมูลเชิงคุณภาพ

  • ความเห็นต่อการให้บริการของศูนย์คอมพิวเตอร์


ข้อมูลเชิงคุณภาพ-->ข้อมูลเชิงปริมาณ

  • แต่ถ้ารวมกันเป็น 3 ตาราง

  • ความเห็นต่อการให้บริการของศูนย์คอมพิวเตอร์

  • ความเห็นต่อการให้บริการของศูนย์ข้อมูล

  • ความเห็นต่อการให้บริการของศูนย์พิมพ์

  • ต่ำสุด = 3 สูงสุด = 15อาจจัดเป็นข้อมูลเชิงปริมาณ


ข้อมูลเชิงปริมาณ-->ข้อมูลเชิงคุณภาพ

  • วัดส่วนสูง = 149 155.5 160 167 169 170.5 172

  • เป็นข้อมูลเชิงปริมาณ

  • แต่ถ้าจัดกลุ่มให้ <150 = เตี้ย

  • 150-170=ปานกลาง

  • >170=สูง

  • เตี้ยปานกลางสูงจำนวนอย่างละกี่คน ? เป็นข้อมูลเชิงคุณภาพ

  • รายละเอียดของข้อมูลจะสูญเสียไป

  • จาก Ratio Scale เปลี่ยนเป็น Ordinal Scale


การวิเคราะห์


เปรียบเทียบหรือหาความสัมพันธ์

  • เปรียบเทียบ2 ประชากร / ตัวแปร

  • ความสัมพันธ์2 ประชากร / ตัวแปร

  • ตัวแปรเชิงปริมาณใช้ค่าเฉลี่ย

  • ตัวแปรเชิงคุณภาพใช้ค่าสัดส่วน


Parametric

  • ข้อมูลเชิงปริมาณใช่หรือไม่

  • แจกแจงแบบปกติหรือไม่ใช้ Explore Data

    • Mean, Mode, Median,

    • Box Plot, Histogram

    • Skewness, Kurtosis

  • ถ้าหลายประชากรทดสอบความเท่ากันของความแปรปรวน


Alpha and Beta errors

THE TRUTH

CONCLUSION

drawn from

analysis


Normal DistributionMean= 82 mmHg, SD=10 mmHg


Normal Distribution (Mean, SD)

mean= 0, SD=1

+3

-3

-2

-1

0

+1

+2


Normal Distribution (Z score)

Z

-1.96

+1

-2.576

-1

+1.96

+2.576

0


95% Confidence Interval

95% C.I. = Mean + 2 SD


Z distribution

  • โค้งเริ่มที่ – Infinity ไปถึง + Infinity

  • Mean=0, SD=1


student’s distribution

sample < 30

T distribution= A symmetric distribution with mean zero and a standard deviation larger than that for the normal distribution for small sample sizes.

As n increase t distribution approaches the normal distribution.

t distribution


F distribution

  • A continuous statistical distribution which arises in the testing of whether two observed samples have the same variance.

  • F distribution=The probability distribution used to test the the equality of two estimates of the variance.

  • It is the distribution use with the F-test in ANOVA


Chi Square

  • Tests the hypothesis that the row and column variables are independent, without indicating strength or direction of the relationship.

  • ตรวจสอบว่าต่างกันหรือไม่แต่ไม่บอกว่าต่างกันมากน้อยเท่าไรและไม่บอกว่ามากกว่าหรือน้อยกว่า (เงื่อนไขตัวแปรแนวนอนและแนวตั้งเป็นอิสระต่อกัน)


Chi-Square Tableหาความสัมพันธ์ Crosstab

ป่วย ไม่ป่วย

Exposure +

Exposure -

  • ที่ df=1 a=0.05 Chi Square= 3.84

  • degree of freedom (df) = (Row-1)x(Column-1)

  • เช่น ตาราง Contingency table (2x2 table) มี df=1


Chi-Square Observed1, Observed2วิเคราะห์ว่าต่างกันหรือไม่

  • Ho : Observed1 และ Observed2 ไม่ต่างกัน

  • Ha : Observed1 และ Observed2 ต่างกัน

  • Expected=(O1+O2)/2

  • ที่ df=1 a= 0.05 Chi Square= 3.84

  • ถ้า p value < 0.05 หรือถ้า c2 > 3.84 จะยอมรับ Ha

(O-E)2

E

c2=

S


Chi Square Distributionสำหรับตัวเลขจาการนับ (Counted)

  • โค้งเริ่มที่ 0 ไปที่ + Infinity มีค่าเป็นบวกเสมอ

  • ที่ df=1 a=0.05 Chi Square= 3.84

  • ถ้า P < 0.05 จะยอมรับ Ha

  • ถ้า c2 > 3.84 จะยอมรับ Ha


Chi-Square วิเคราะห์ความสัมพันธ์ ของ 2x2 table (Crosstabs)

ป่วย ไม่ป่วย รวม

  • c2 = n (ad-bc)2 efgh

Exposure +

Exposure -

รวม

Ho : Exposureและการป่วยไม่สัมพันธ์กัน

Ha : Exposureและการป่วยสัมพันธ์กัน

ที่ df=1 a= 0.05 Chi Square = 3.84

ถ้า p value < 0.05 หรือ

ถ้า c2 > 3.84 จะยอมรับ Ha


t-test

  • The statistical test for comparing a mean with a norm or for comparing two means with small sample size (n =<30).

  • สถิติเพื่อเปรียบเทียบค่าเฉลี่ยกับค่าที่กำหนดหรือเปรียบเทียบค่าเฉลี่ยของ 2 กลุ่ม

  • It is also use for testing whether a correlation coefficient or a regression coefficient is zero.

  • เพื่อเปรียบเทียบหาค่าสหสัมพันธ์ของการทดสอบความสัมพันธ์เชิงเส้นว่ามีค่าเป็น 0 หรือไม่


การเปรียบเทียบค่าเฉลี่ย 2 กลุ่มตัวอย่าง

Mean1 = 5.6 Mean2 = 5.1

Variance = 10 Variance = 12

Sample Size = 30 Sample Size = 100

เช่น Mean1จะเท่ากับ Mean2หรือไม่

t-test (ตัวอย่าง)


ประเภทของ t-test

Means

t-test

1 กลุ่ม

Population

2 กลุ่ม

One Sample

มีความสัมพันธ์กัน

เป็นอิสระต่อกัน

Paired t-test

t-test Group


The One-Sample t Test

  • procedure tests whether the mean of a single variable differs from a specified constant.

  • ทดสอบว่าค่าเฉลี่ยของกลุ่มตัวอย่างมีค่าแตกต่างจากค่าคงที่ที่กำหนดหรือไม่


The Paired-Samples t Test

  • procedure compares the means of two variables for a single group. It computes the differences between values of the two variables for each case and tests whether the average differs from 0.

  • ทดสอบเปรียบเทียบค่าเฉลี่ย 2 สิ่งจากกลุ่มตัวอย่างเดียวโดยทดสอบว่าค่าแตกต่างเฉลี่ยแตกต่างจาก 0 หรือไม่


The Independent-Samples t Test

  • procedure compares means for two groups of cases. Ideally, for this test, the subjects should be randomly assigned to two groups, so that any difference in response is due to the treatment (or lack of treatment) and not to other factors.

  • ทดสอบค่าเฉลี่ยตัวแปรของ 2 กลุ่มตัวอย่างโดยการสุ่มซึ่งปัจจัยที่ส่งผลที่เกิดความแตกต่างต้องมาจากปัจจัยที่กำหนดเท่านั้น


การวิเคราะห์หาค่าความแตกต่างโดยการใช้ t-test


Positive

Association

Negative

Association

Associationr = Correlation Coefficient

No Association

Except Non-Linear

r = +1

r = -1

r = 0

. .

. . .

. . .

. . .

. .

. .

. .

. .

. .


Associationr = Correlation Coefficient

x และ y มีความสัมพันธ์ในรูปพาราโบลา

y

. . . . .

. . . .

. .

แม้ว่า slope = 0

x และ y ก็ยังมีความสัมพันธ์

กันได้ Mathematics Relationship

x


ความลาดของเส้นถดถอยslope=a intercept=b

y

a

y = ax+b

b

x

0


r = สัมประสิทธิ์สหสัมพันธ์

  • r เป็นบวกแสดงว่า x เพิ่ม y จะเพิ่มถ้า x ลด y จะลดด้วย

  • r เป็นลบแสดงว่า x เพิ่ม y จะลดถ้า x ลด y จะเพิ่ม

  • r เข้าใกล้ 1 แสดงว่า x และ y มีความสัมพันธ์ทิศทางเดียวกันและมีความสัมพันธ์กันมาก

  • r = 0 แสดงว่า x และ y ไม่มีความสัมพันธ์กันเลย (ยกเว้น Non-Linear)


r จะบอกความสัมพันธ์ดังนี้

  • r = 0.8-1.0 มีความสัมพันธ์กันมาก

  • r = 0.5-0.8 มีความสัมพันธ์กันปานกลาง

  • r = 0.2-0.5 มีความสัมพันธ์กันน้อย

  • r = 0-0.2 ไม่ควรสนใจกับความสัมพันธ์นี้


r Square

  • r2ไม่มีหน่วย

  • ถ้า r2มีค่าเข้าใกล้ 1 แสดงว่าเปอร์เซนต์ที่ x สามารถอธิบายการเปลี่ยนของ y มีค่ามาก

  • ถ้า r2มีค่าเข้าใกล้ 0 แสดงว่าเปอร์เซนต์ที่ x สามารถอธิบายการเปลี่ยนของ y มีค่าน้อย


ความถดถอยชนิดอื่นๆที่ไม่ใช่เส้นตรง

  • Polynomial Regressiony=a+bx+cx2+dx3+...

  • Multiple Regressiony=a+ b1x1 + b2x2 + b3x3 +…+bnxn

  • Non-Linear Regressiony=acbx

  • Sigmoid Curves


ความเบ้ (Skewness)

เบ้ขวา

เบ้ซ้าย

ถ้า Skewness = 0 แล้ว เส้นโค้งจะไม่มีความเบ้


แบบที่ 1

เบ้ซ้าย

เบ้ซ้าย

ข้อมูลส่วนใหญ่มีค่าสูง

มัธยฐานชิดขอบบนของกล่อง

2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)


แบบที่ 2

สมมาตร

สมมาตร

ข้อมูลแจกแจงปกติ

มัธยฐานอยู่ตรงกึ่งกลางของกล่อง

2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)


แบบที่ 3

เบ้ขวา

เบ้ขวา

ข้อมูลส่วนใหญ่มีค่าต่ำ

มัธยฐานชิดขอบล่างของกล่อง

2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)


ความโด่ง(Kurtosis)

โด่งมาก

โด่งน้อย

ถ้า Kurtosis = 0 แล้ว เส้นโค้งจะมีความเป็นปกติหรือโด่งปกติ


ฮิสโทแกรม (Histogram)

ข้อมูลส่วนใหญ่

ในที่นี้อยู่ในชั้นที่ 5

โดยจุดกึ่งกลางคือ 24

ค่าต่ำสุดคือ 16

อยู่ในชั้นแรก

ค่าสูงสุดคือ 32

อยู่ในชั้นสุดท้าย


Histrogram


Box Plot 1

เส้นหนวด แสดงค่าสูงสุดของข้อมูล

ที่ยังไม่สูงผิดปกติ = Q3+1.5(IQR)

Outlier

ด้านบนคือ Q3

เส้น Median

ด้านล่างคือ Q1

ภาพกล่องของตัวแปร satisf


Box Plot


จบการบรรยาย

ขอบคุณ


ad
  • Login