slide1
Download
Skip this Video
Download Presentation
آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج

Loading in 2 Seconds...

play fullscreen
1 / 329

آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج - PowerPoint PPT Presentation


  • 138 Views
  • Uploaded on

آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج. آمار چیست؟

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج' - duane


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide3
آمار چیست؟
  • آمار به عنوان يك موضوع علمي، امروزه شامل مفاهيم و روش‌هائي است كه در تمام پژوهش‌هايي كه مستلزم جمع‌آوري داده‌ها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجه‌گيري به وسيلة تجزيه و تحليل اين داده‌ها هستند، اهميت بسيار دارند.
  • آمار هنر و علم جمع‌آوري، تعبير و تجزيه و تحليل داده‌ها و استخراج تعميم‌هاي منطقي در مورد پديده‌هاي تحت بررسي است.
  • معادل كلمة آمار در زبان انگليسي Statisticsاست كه از لحاظ تاريخي، از كلمة لاتينstatusمشتق شده و يكي از معاني كلمة اخير، دولت است.
  • در طول چندين دهه، آمار فقط با بيان اطلاعات و مقادير عددي دربارة اقتصاد، جمعيت شناسي و اوضاع سياسي حاكم در يك كشور، سر و كار داشت.
  • حتي امروز، ‌بسياري از نشريات و گزارشهاي دولتي كه توده‌اي از آمار و ارقام را در بر‌دارند و تحت عناويني از قبيل « آمار توليد مزارع» و «آمار كارگران» منتشر مي‌شوند، معني اولية كلمة آمار را در ذهن زنده مي‌كنند. اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستون‌هاي عددي سرگيجه‌آور و گاهي يك سري شكل‌هاي مبهوت‌كننده مي‌دانند.
  • بنابراين، يادآوري اين نكته ضروري است كه نظريه و روش‌هاي جديد آماري، از حد ساختن جدول‌هاي اعداد و نمودارها بسيار فراتر رفته‌اند. نمايش‌هاي عددي به صورت جنبه‌اي فرعي از آمار درآمده‌اند.
slide4
ديدگاه‌هاي زير را درمورد آمار بخوانيد.آيا علم آمار اينگونه است؟

دیدگاه‌هایی درمورد آمار:

  • تهيه آمار كاري وقت‌گير و زمان بر و اصولاً كسالت‌آور است.
  • آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونه‌اي از آن پيدا مي‌شود.
  • آمار مجموعه‌اي از روابط و فرمول‌هاي رياضي پيچيده و گيج‌كننده است.

آمار شامل نمودارها و جدولهايي از اعداد است.

slide5
آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطلاعات خانوارها مانند تعداد فرزندان، سن افراد خانوار را از آنها كسب مي‌كنند.
  • آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب مي‌كنند.
  • آمار مفهومي است كه براي ثبت و نمايش اطلاعات عددي به كار مي‌رود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيلة كشتي در 15 سال گذشته، جمعيت نواحي جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار مسافت طي شده در زمان معيني به وسيلة برندة مسابقة‌ دو.
slide6
مثال‌هائي از مطالعات آماري:

مثالهای زیر، نشان‌دهندة‍ مواردي نوعي هستند كه در آنها، فرايند كسب آگاهي در بررسي يك پديده شامل گردآوري و تجزيه و تحليل داده‌هاست و اين خود مستلزم استفاده از روشهاي آماري است.

پرورش گياه :

  • آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند، به‌منظور توليد گياهان پيوندي پر محصول، مورد علاقة شديد متخصصان كشاورزي است. به‌عنوان يك مثال ساده، فرض كنيد كه قرار است ميزان محصول دو نوع گياه پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند. تنها راه كسب اطلاع از ميزان باروري اين دو نوع گياه نسبت به‌يكديگر عبارت است از پروراندن آنها در تعدادي از كرتها، گردآوردن داده‌ها دربارة ميزان محصول آنها و سپس تجزيه و تحليل داده‌‌هاي مزبور.
slide7
تشخيص بيماري‌ها
  • براي انجام موفقيت‌آميز معالجة بسياري از انواع سرطان با عمل جراحي، تشخيص بموقع بيماري از اهميت خاصي برخوردار است و از اين‌رو لازم است كه براي انجام معاينات پزشكي مرتباً به بيمارستان مراجعه شود. چون مراجعة مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است، پزشكان در جستجوي نوعي روش تشخيص مؤثر بيماري هستند كه خود شخص بتواند آن را انجام دهد. براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيص‌هاي اشتباه، روش مورد‌نظر بايد روي افراد زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود.

برنامه‌هاي تربيتي و آموزشي

  • برنامه‌اي تربيتي وآموزشي كه براي انواع متقاضيان(از قبيل دانشجويان دانشگاه، كارگران كارخانه، گروه‌هاي اقليت، افراد ناقص‌العضو، كودكان عقب‌افتاده) در بسياري از زمينه‌ها طرح مي‌شوند، دائماً مورد بررسي، ارزيابي و اصلاح قرار مي‌گيرند تا سودمندي آنها براي جامعه افزايش يابد. براي كسب اطلاع از كارائي برنامه‌هاي مختلف در مقايسه با يكديگر، ضرورت دارد كه داده‌هائي دربارة موفقيت‌ها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا مي‌گردد، گردآوري شود.
slide8
تحقيقات اجتماعي‌- اقتصادي:

در بسياري از قلمروهاي جامعه‌شناسي، اقتصاد، علوم سياسي. مطالعاتي در زمينه‌هاي مربوط به رفاه اقتصادي گروه‌هاي قومي گوناگون. هزينه‌هاي مصرف‌كنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينه‌هايي نظير اينها انجام مي‌گيرد. اين مطالعات نوعاً بر مبناي داده‌هايي انجام مي‌گيرند كه از راه مصاحبه يا تماس با نمونه‌اي از افراد به‌دست مي‌آيند، كه اين نمونه به ‌وسيلة روشهاي آماري از كل جامعه‌اي كه قلمرو مطالعه را تشكيل مي‌دهد، انتخاب مي‌شوند. سپس اين داده‌ها مورد تجزيه و تحليل قرار مي‌گيرند و تغييراتي از موضوع مورد نظر به عمل مي‌آيد.

بازاريابي:

با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روش‌هائي در شناسائي بازار و خواسته‌هاي مشتري به طريق علمي گرديده‌اند. نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت مي‌پذيرد. به‌عنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاه‌هاي يك منطقه سهم فروش پودر ... را درمي‌يابد. پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اين‌كار مجددا صورت گرفته و سهم افزايش فروش بررسي مي‌گردد. و يا در همين مقوله براي كسب اطلاع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرف‌كنندگان، بوي اسانس ليمو با توت‌فرنگي تفاوتي وجود دارد، از 400 نفر مصاحبه مي‌شود كه 145 نفربوي اسانس ليمو و بقيه توت‌فرنگي را ترجيح مي‌دهند.

كنترل كيفيت:

پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است. استفاده از مفهوم آزمون فرض‌هاي آماري در بحث كنترل حين توليد محصولات توليدي، استفاده از روش‌هاي نمونه‌كيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرسي صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري (Statistical Process Control ) مانند هيستوگرام، نمودار پراكنش، نمودار ميله‌اي و استفاده از بحث طراحي آزمايش‌هاي مناسب و جمع‌آوري اطلاعات و بسياري روش‌هاي آماري كه به صور مختلف مورد استفاده واقع مي‌شوند بخشي از تلاش مسئولين كيفي صنايع را به خود اختصاص داده است.

slide9
آمارشناس‌ها چه می‌کنند؟

جهان به سوی کمی شدن اطلاعات پیش می رود. در بسیاری از حرفه‌ها و شغل‌ها، تصمیم‌گیری‌ها به اندازه‌گیریهای عددی و داده بستگی دارند. داده ها تنها شامل اعداد نیستند، بلکه اعداد خود حامل اطلاعاتی در مورد یک سیستم مشخص هستند و احتیاج دارند که در سیستم مربوطه تفسیر شوند. با توجه به این رشد در استفاده از داده‌ها، نیاز و تقاضا برای وجود آمارشناس‌هایی که در زمینه‌های زیر کارشناس باشند، احساس می شود:

  • ارائه و تولید داده‌های قابل اعتماد
  •  تجزیه و تحلیل داده‌ها به منظور روشن و واضح ساختن معنای آنها
  •  ارائه استنتاج‌های عملی از داده‌ها

آمارشناس‌ها از توانایی‌های کمّی، علم آمار و مهارتهای روابط عمومی وبرقراری ارتباط برای حل بسیاری از مشکلات و مسایل موجود در جامعه استفاده می‌کنند. آمارشناس‌ها در تعیین روش‌های نمونه‌گیری و جمع‌آوری داده‌ها، نظارت بر اجرای مطالعه، پردازش داده‌ها و نظر دادن درمورد نتایج مطالعات بدست‌آمده کمک می‌کنند.

slide10
فعالیت آمارشناس‌ها در زمینه مطالعه و بررسی نمونه‌ای
  • فعالیت آمارشناس‌ها در مراکز دولتیبرخی زمینه‌های فعالیت برای آماری‌ها در مراکز دولتی
  • فعالیت آمارشناس‌ها در زمینه پژوهش‌های علمی
  • فعالیت آمارشناس‌ها در زمینه صنعت و تجارت
  • برخی زمینه‌های فعالیت برای آماری‌ها در صنعت و تجارت
  • فعالیت آمارشناس ها در زمینه بهداشت، پزشکی و سلامت
slide11
مشخصه‌های شغلی آمارشناس‌ها
  • استفاده از داده‌ها برای حل مشکلات و مسایل
  • استفاده از دانش ریاضی و آمار خود در حل مشکلات اجتماعی، اقتصادی، پزشکی، زیست محیطی، سیاسی و ...
  • کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروه
  • استفاده از علم ارتباطات در برقراری رابطه با متخصصین علوم دیگر و مشورت با آنها و ادامه دادن مستمر فعالیتهای آموزشی
  • گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق
slide12
سواد آماری چیست؟

سواد آماری یک توانایی/قابلیت است:

  • توانایی فکر کردن منتقدانه درمورد استدلال‌ها با به کار بردن آمار به عنوان سند یا مدرک
  • قابلیت خواندن و تفسیر داده‌ها، قابلیت فهم آنچه که خوانده می‌شود.
  • توانایی فهم و تفسیر آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد.
  • توانایی استفاده صحیح از آمار توسط همه افراد جامعه

سواد آماری، بر تصمیم‌گیری‌ها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است، همانگونه که سوادخواندن و نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است.

سواد آماری بیشتر درمورد سؤالات است تا جوابها. سوادآماری جوابهای زیادی ندارد. اما می‌تواند کمک کند تا سؤالات بهتری پرسش شود و در نتیجه تصمیم‌ها و قضاوت‌های بهتری صورت گیرد.

سواد آماری یک هنر است، هنر تصمیم‌گرفتن و قضاوت کردن تحت شرایط نامطمئن.

slide13
با سواد آماری کیست؟
  • با سواد آماری کسی است که قادر باشد تفاوت بین رابطه معمولی و رابطه علت و معلولی را از یکدیگر تشخیص دهد.
  • او کسی است که وقتی با جملاتی همانند جملات زیر روبرو می‌شود، درست یا غلط بودن جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند:

جمله اول: افرادی‌که وزن بیشتری دارند بلندقد‌تر از افرادی هستند که وزن کمتری دارند.

جمله دوم: وزن یک رابطه مثبت با قد دارد.

جمله سوم: اگر شما وزن بیشتری بدست آورید، انتظار می‌رود که قدتان نیز بلندتر شود.

  • واضح است که برای بزرگسالان جمله سوم غلط است. اما نمی‌توان نتیجه گرفت که اگر جمله سوم غلط باشد آنگاه جمله دوم نیز غلط خواهد بود. درستی جمله دوم مدرکی است برای درستی جمله سوم، اما درستی جمله دوم برای اثبات درستی جمله سوم کافی نیست.
slide14
با سواد آماری کیست؟ (ادامه)
  • با سواد آماری کسی است که قادر باشد تفاوت بین عبارت “نسبت دادنی” را از عبارت “نسبت داده شده” تشخیص دهد

.مثال90درصد خودکشی ها را افراد متاهل مرتکب می شوند. این آمار به افراد متاهل نسبت داده شده است، اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت.

  • با سواد آماری کسی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص دهد.
  • باسواد آماری کسی است که بتواند برداشت درستی از درصدها، میزان ها و نرخ ها داشته باشد

مثال: درصد راننده‌ها در میان زنان همانند درصد راننده هایی که زن هستند، نیست. درصد بیمارانی که نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و بیمار هستند، نیست.

slide18
مشخص کردن روشن واحدهای اندازه‌گیری

وزن شما چقدر است؟ (برحسب کیلوگرم، پوند، گرم)

دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت، دقیقه)

slide19
نوشتن سؤالات بدون اریب

با اریب: آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد می‌شود؟

بدون اریب: نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟

slide20
سؤالات خود را در یک مطالعة پیلوت قبل از انجام مطالعة اصلی امتحان نمایید

(8 تا 10 مورد یا واحد از افراد، دانش‌آموزان، درختان و ...)

slide22
انواع داده‌ها

داده‌های قیاسی

داده‌های معیاری

slide23
داده‌های قیاسی

موضوعات و صفات مورد بررسی به طبقاتی بر اساس بعضی از صفات کیفی گروه‌بندی می‌شوند.

slide24
مثال: داده‌های قیاسی

رنگ مو

بلوند، قهوه‌ای، قرمز، سیاه، غیره

نظر دانشجویان در مورد نحوة تدریس

ناراحت، خنثی، خوشحال

وضعیت سیگارکشیدن

سیگاری، غیرسیگاری

slide25
طبقه‌بندی داده‌های قیاسی به صورت:اسمی، ترتیبی و دوتایی

داده‌های قیاسی

داده‌های اسمی

داده‌های ترتیبی

دودویی

غیردودویی

دودویی

غیردودویی

slide26
داده‌های اسمی

یک نوع از داده‌های قیاسی است که صفات در طبقه‌های غیرمرتب قرار می‌گیرند.

slide27
مثال: داده‌های اسمی

رنگ مو

بلوند، قهوه‌ای، مشکی، قرمز، غیره

نژاد

هندی، ‌افریقایی، آمریکایی، غیره

slide28
داده‌های ترتیبی

نوعی از داده‌های قیاسی می‌باشند که رتبة آنها مهم است

slide29
مثال: داده‌های ترتیبی

طبقه

خیلی کم، کم، متوسط، زیاد، خیلی زیاد

شدت بیماری

نظر دانشجویان دربارة‌ درس

slide30
داده‌های دودویی

شکلی از داده‌های قیاسی که تنها دارای دو طبقه هستند.

داده‌های دودویی می‌توانند یا اسمی یا ترتیبی باشند.

slide31
مثال: داده‌های دودویی

وضعیت سیگاری بودن

سیگاری، غیرسیگاری

حضور

حاضر، غایب

slide32
داده‌های سنجشی

اهداف مورد مطالعه بر اساس بعضی از صفات کمی قابل اندازه‌گیری می‌باشند.

داده‌ها به صورت اعداد می‌باشند.

slide33
مثال: داده‌های سنجشی

سطح کلسترول

قد

سن

میزان عملکرد

تعداد دانشجویانی که درکلاس دیر حاضر می‌شوند.

زمان لازم برای انجام تکالیف درسی در منزل

slide35

داده‌های سنجشی گسسته

تنها مقادیر معینی را خواهند داشت

(شکافی بین مقادیر ممکن وجود دارد)

داده‌های سنجشی پیوسته

از نظر تئوریک، هر مقداری

در درون یک فاصله را می‌توان با ابزارهای اندازه‌گیری دقیق محاسبه نمود.

slide36
داده‌های گسسته - شکاف بین مقادیر ممکن

0 1 2 3 4 5 6 7

داده‌های پیوسته - از نظر تئوریکی هیچ شکافی بین مقادیر ممکن وجود ندارد

0 1000

slide37
مثال‌هاداده‌هایی با معیارهای گسسته

نمرات آمار

تعداد دانشجویانی که دیر به کلاس می‌آیند

تعداد جرائمی که به مراکز پلیس گزارش شده است.

تعداد دفعاتی که از یک کلمه استفاده می‌شود.

عموماً داده‌های گسسته قابل شمارش هستند.

slide38
مثال‌ها:داده‌های معیاری پیوسته

سطح کلسترول

قد

سن

زمان لازم برای انجام تکالیف مدرسه

عموماً داده‌های پیوسته از اندازه‌گیری بدست می‌آیند

slide40
برای مثال ...

داده‌های قیاسی عموماً با استفاده از درصد (یا نسبت‌ها) خلاصه می‌شوند.

11درصد دانشجویان دارای خالکوبی می‌باشند.

2٪، 33٪،39٪ و 26٪ دانشجویان درکلاس به ترتیب جدیدالورود، سال دوم، سال سوم و سال چهارم

slide41
و برای مثال ...

داده‌های معیاری به طور مثال با استفاده از متوسط (یا میانگین) خلاصه می‌شوند.

متوسط وزن مردان در بین 250 دانشجوی درس آمار در پاییز 1387، 173 پوند است

متوسط وزن زنان در بین 250 دانشجوی درس آمار در پاییز 1387، 138 پوند است

slide42

آمار توصیفی

توصیف داده‌ها با اعداد

معیارهای مکانی

slide43
چه چیزی توصیف می‌شود؟
  • مکان یا مرکز داده‌ها چیست؟ (معیارهای مکانی)
  • داده‌ها چگونه تغییر می‌کنند؟ (معیارهای تغییرپذیری)
slide44
معیارهای مکانی
  • میانگین
  • میانه
  • مد
slide45
میانگین
  • نام دیگر متوسط
  • اگر میانگین یک جمعیت را توصیف کنیم با  نمایش داده می‌شود.
  • اگر میانگین نمونه را توصیف کنیم با x-bar نمایش داده می‌شود.
  • مناسب برای توصیف داده‌های سنجشی
  • به میزان زیادی تحت‌تأثیر مقادیر غیرمعمول که «برون‌هشت» یا outliers نام دارند، قرار می‌گیرد.
slide46
محاسبة میانگین نمونه

فرمول:

یعنی جمع تمام داده‌ها و تقسیم به تعداد آنها

slide47
میانه
  • نام دیگر برای صدک 50ام
  • مناسب برای توصیف داده‌های سنجشی
  • مناسب برای داده‌های برون‌هشت، یعنی تحت‌تأثیر مقادیر غیرمعمول قرار نمی‌گیرد.
slide48
محاسبة میانة نمونه

مرتب کردن داده‌ها از کوچک به بزرگ

اگر تعداد داده‌ها فرد باشد، میانه مقدار وسط می‌باشد.

داده‌ها: 2 8 3 4 1

داده‌های مرتب شده: 12 3 4 8

میانه

slide49
محاسبة میانة نمونه

مرتب کردن داده‌ها از کوچک به بزرگ

اگر تعداد داده‌ها زوج باشد، میانه متوسط دو مقدار وسطی است

داده‌ها:2 8 3 4 1 8

داده‌های مرتب شده: 12 3 4 8 8

میانه= (3+4)/2 = 3.5

slide50
مد
  • مقادیری که بیشترین فراوانی را دارند.
  • یک مجموعه داده می‌تواند چندین مد داشته باشد
  • برای تمام انواع داده مناسب است اما بیشتر برای داده‌های قیاسی یا داده‌های گسسته با تعداد اندکی از مقادیر ممکن مفید است.
minitab
Minitab:در برنامة

Variable N Mean Median TrMean StDev SE Mean

Phone 139 121.6 60.0 88.1 217.7 18.5

Variable Minimum Maximum Q1 Q3

Phone 2.0 2000.0 30.0 120.0

N = تعداد داده‌ها

میانة نمونه

میانگین نمونه

slide53
مناسبترین معیارهای مکانی بستگی دارد به:
  • آیا داده‌ها متقارن هستند یا چوله
  • آیا داده‌های دارای یک مد هستند (unimodal) یا دارای چند مد (multimodal)
slide56
متقارن و یک نمایی

Descriptive Statistics

Variable N Mean Median TrMean StDev SE Mean

GPA 92 3.0698 3.1200 3.0766 0.4851 0.0506

Variable Minimum Maximum Q1 Q3

GPA 2.0200 3.9800 2.6725 3.4675

slide58
متقارن و دونمایی

Variable N Mean Median TrMean StDev

Males 84 70.048 70.000 70.092 3.030

Females 89 64.798 65.000 64.753 2.877

All 176 67.313 67.000 67.291 4.017

Variable SE Mean Min Max Q1 Q3

Males 0.331 63.0 76.0 68.0 72.0

Females 0.305 56.0 77.0 63.0 67.0

All 0.303 56.0 77.0 64.0 70.0

slide62
چوله به راست

Descriptive Statistics

Variable N Mean Median TrMean StDev SE Mean

CDs 92 61.04 46.50 52.93 62.90 6.56

Variable Minimum Maximum Q1 Q3

CDs 0.00 400.00 21.50 83.00

slide65
چوله به چپ

Variable N Mean Median TrMean StDev SE Mean

grades 22 89.18 93.50 90.60 12.92 2.76

Variable Minimum Maximum Q1 Q3

grades 50.00 100.00 87.00 98.00

slide66
انتخاب معیار مناسب مکانی
  • اگر داده‌ها متقارن باشند، میانگین، میانه و مد، تقریباً برابر هستند.
  • اگر داده‌های دارای چند مد باشند، میانگین، میانه و یا مد را برای هر زیرگروه گزارش دهید.
  • اگر داده‌ها چوله باشند، میانه را گزارش دهید.
slide67

آمارهای توصیفی

توصیف داده‌ها با اعداد

معیارهای تغییرپذیری

slide68
چه چیزی توصیف می‌شود؟
  • مکان یا مرکز داده‌ها چیست؟
  • داده‌ها چگونه تغییر می‌کنند؟
slide69
معیارهای تغییرپذیری
  • دامنه
  • دامنة بین‌چارکی
  • واریانس و انحراف معیار
  • ضریب تغییر

تمام این معیارها تنها برای داد‌ه‌های سنجشی مناسب هستند.

slide70
دامنه
  • تفاوت بین بزرگترین و کوچکترین داده
  • به میزان زیادی تحت تأثیر برون‌هشت‌ها قرار می‌گیرد.
  • برای داده‌های متقارن بدون هیچ برون‌هشتی مناسب است.
slide72
دامنه

Descriptive Statistics

Variable N Mean Median TrMean StDev SE Mean

GPA 92 3.0698 3.1200 3.0766 0.4851 0.0506

Variable MinimumMaximum Q1 Q3

GPA 2.02003.9800 2.6725 3.4675

دامنه = 3.98 - 2.02 = 1.96

slide73
دامنة بین چارکی
  • تفاوت بین چارک سوم (درصد 75ام) و اولین چارک (درصد 25ام) یعنی نیمة وسطی داده‌ها
  • IQR = Q3-Q1
  • برای مشاهدات برون هشت و کرانی کارا می‌باشد.
  • برای داده‌های چوله مناسب است.
slide75
دامنة بین‌چارکی

Descriptive Statistics

Variable N Mean Median TrMean StDev SE Mean

GPA 92 3.0698 3.1200 3.0766 0.4851 0.0506

Variable Minimum Maximum Q1Q3

GPA 2.0200 3.9800 2.67253.4675

IQR = 3.4675 - 2.6725 = 0.795

slide76
واریانس
  • تفاوت بین هر داده با میانگین را بیابید.
  • این تفاوت‌ها را به توان دو رسانده و با هم جمع کنید.
  • به یکی کمتر از تعداد داده‌ها تقسیم کنید.
slide77
واریانس
  • اگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان می‌دهیم.
  • اگر واریانس نمونه را اندازه بگیریم آن را با s2 نشان می‌دهیم.
  • متوسط مربع انحراف داده‌ها از میانگین خود را اندازه می‌گیرد.
  • به میزان زیادی تحت‌تأثیر برون‌هشت‌ها می‌باشد. برای داده‌های متقارن بهتر است.
  • واحدها درجة دوم هستند.
slide78
انحراف معیار
  • انحراف معیار نمونه ریشة دوم واریانس نمونه می‌باشد و بنابراین با s نشان داده می‌شود.
  • واحدها، واحدهای اصلی هستند
  • انحراف متوسط داده‌ها از میانگین خود را اندازه می‌گیرد.
  • همچنین به میزان زیادی تحت‌تأثیر برون‌هشت‌ها قرار دارد.
slide80
واریانس یا انحراف معیار

Sex N Mean Median TrMean StDev SE Mean

female 126 91.23 90.00 90.83 11.32 1.01

male 100 06.79 110.00 105.62 17.39 1.74

Minimum Maximum Q1 Q3

female 65.00 120.00 85.00 98.25

male 75.00 162.00 95.00 118.75

Females: s = 11.32 mph and s2 = 11.322 = 128.1 mph2

Males: s = 17.39 mph and s2 = 17.392 = 302.5 mph2

slide82
واریانس یا انحراف معیار

Sex N Mean Median TrMean StDev SE Mean

female 126 152.05 150.00 151.39 18.86 1.68

male 100 177.98 183.33 176.04 28.98 2.90

Sex Minimum Maximum Q1 Q3

female 108.33 200.00 141.67 163.75

male 125.00 270.00 158.33 197.92

Females: s = 18.86 kph and s2 = 18.862 = 355.7 kph2

Males: s = 28.98 kph and s2 = 28.982 = 839.8 kph2

slide83
ضریب تغییر
  • نسبت انحراف معیار نمونه به میانگین نمونه ضربدر 100
  • معیار تغییرپذیری نسبی، یعنی تغییرپذیری نسبت به بزرگی داده‌ها
  • بدون واحد است بنابراین برای مقایسة تفاوت بین دو گروه خوب است.
slide84
ضریب تغییر

Sex N Mean Median TrMean StDev SE Mean

female 126 91.23 90.00 90.83 11.32 1.01

male 100 106.79 110.00 105.62 17.39 1.74

Minimum Maximum Q1 Q3

female 65.00 120.00 85.00 98.25

male 75.00 162.00 95.00 118.75

Females: CV = (11.32/91.23) x 100 = 12.4

Males: CV = (17.39/106.79) x 100 = 16.3

slide85
ضریب تغییر

Sex N Mean Median TrMean StDev SE Mean

female 126 152.05 150.00 151.39 18.86 1.68

male 100 177.98 183.33 176.04 28.98 2.90

Sex Minimum Maximum Q1 Q3

female 108.33 200.00 141.67 163.75

male 125.00 270.00 158.33 197.92

Females: CV = (18.86/152.05) x 100 = 12.4

Males: CV = (28.98/177.98) x 100 = 16.3

slide87
انتخاب معیار مناسب تغییرپذیری
  • اگر داده‌ها متقارن باشند، بدون هیچ برون‌هشت جدی، از دامنه و انحراف معیار استفاده می‌شود.
  • اگر داده‌ها چوله باشند، و یا دارای برون‌هشت باشند از دامنة بین‌چارکی استفاده می‌گردد.
  • اگر در حال مقایسه تفاوت در بین دو مجموعه داده باشیم، از ضریب تغییر استفاده می‌گردد.
slide88

احتمال

مجموعه‌ای از قوانین احتمال

slide89
حادثه
  • نتیجة یک مشاهده یا آزمایش یا توصیف بعضی از پیامدهای بالقوه
  • با این حروف نشان داده می‌شوند. A, B, C, …
slide90
احتمال
  • بین صفر و 1 می‌باشد که نشاندهندة احتمال وقوع یک حادثه است.
  • یک حادثه با احتمال صفر، یک حادثة بی‌اثر است.
  • یک حادثه با احتمال یک یک حادثة قطعی است.
  • نزدیکتر به یک، احتمال وقوع حادثه بیشتر است.
  • احتمال حادثة A را با P(A) نشان می‌دهند.
slide91
مثال‌ها از حادثة پوچ:
  • یک مرد باردار شود
  • زن از سرطان پروستات بمیرد.
slide92
مثال‌های از حادثه‌های قطعی
  • خورشید امشب غروب خواهد کرد.
  • نیمسال به پایان خواهد رسید.
  • یک نفر خواهد مرد.
slide93
سه راه برای تعیین احتمالات
  • روش فراوانی
  • روش کلاسیک
  • روش عقیدة شخصی
slide94

توزیع نرمال

و مقدمه‌ای بر توابع پیوسته چگالی احتمال ...

slide99
توابع پیوستة چگالی احتمال ...
  • منحنی توصیف‌کنندة احتمال هر محدوده‌ای از مقادیر را کسب می‌کند. مثل:

P(X > 120), P(X<100), P(110 < X < 120)

  • مساحت زیر منحنی = احتمال
  • کل مساحت زیر منحنی = 1
  • احتمال بدست‌آوردن یک عدد خاص 0 است. مثلاً

P(X=120) = 0

slide101
خصوصیات توزیع نرمال
  • متقارن – منحنی زنگوله‌ای
  • شکل منحنی بستگی به میانگین جمعیت  و انحراف معیار  دارد.
  • مرکز توزیع  است.
  • وسعت منحنی بستگی به  دارد.
  • بیشتر مقادیر اطراف میانگین هستند اما بعضی از مقادیر کوچکتر و بعضی بزرگتر می‌باشند.
slide102
مثال‌هایی از متغیرهای تصادفی نرمال
  • عملکرد تولید کشاورزان در یک منطقه
slide104
سطح زیر منحنی = احتمال
  • محاسبة جبری؟
  • شخصی این کار سخت را برای ما انجام داده است.
  • ما تنها به یک جدول احتمالات برای هر توزیع نرمالی نیاز داریم.
  • اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگین و انحراف معیاری یک توزیع)
  • جواب استانداردکردن standardize می‌باشد.
slide105
استاندارد کردن ...
  • مقدار x را از میانگین  کم نموده و به انحراف معیار تقسیم کنید. نتیجه مقدار z می‌باشد. یعنی:

Z = (X- )/

  • Z را نرمال استاندارد می‌نامند. میانگین آن  0 و انحراف معیاری برابر با 1 دارد.
  • سپس از جدول احتمال برای z استفاده می‌شود.
slide109
یادآوری!
  • احتمالات محاسبه‌شده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست باشند.
  • وقتی محاسبات فوق را انجام می‌دهید، فرض شما این است که داده‌ها به طور نرمال توزیع شده باشند.
  • همیشه این فرض را چک کنید! (بعداً یاد خواهیم گرفت)
slide112
دو راه برای یادگیری در مورد یک جمعیت
  • فواصل اطمینان
  • آزمون فرضیه
slide113
فواصل اطمینان
  • اجازه دهید که با استفاده از داده‌های نمونه، مقادیر جمعیت مانند میانگین یا نسبت‌های واقعی را برآورد نماییم.
  • مثال: متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه می‌کنند، چقدر است؟
slide114
آزمون فرضیه
  • به ما اجازه دهید که با استفاده از داده‌های نمونه، یک ادعا در مورد یک جمعیت را آزمون نماییم. مثلاً اینکه نسبتی از جمعیت یا میانگین جمعیت برابر با یک عدد است.
  • مثال: آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته 20 دقیقه است؟
slide115
ایدة عمومی آزمون فرضیه
  • یک فرض ابتدایی بسازید.
  • شواهد را جمع‌آوری کنید (داده‌ها)
  • بر اساس شواهد موجود، تصمیم بگیرید که آیا فرض اولیه قابل قبول است یا خیر.
slide117
مثال

جمعیت 5 میلیون دانشجوی

کالج

آیا متوسط نمره 7/2 است؟

چقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

نمونة 100 دانشجو

slide118
تصمیم‌گیری
  • آن محتمل یا غیرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید یا رد کند.
  • (توجه: محتمل یا غیرمحتمل با محاسبة احتمال مشخص می‌شود)
  • اگر محتمل باشد، آنگاه ما فرض اولیة خود را رد نمی‌کنیم. یعنی شواهد کافی برای چیز دیگر نداریم.
slide119
تصمیم‌گیری (ادامه)
  • اگر غیرمحتمل باشد، آنگاه:
    • یا فرض اولیة ما درست است و ما یک حادثة غیرمعمول را تجربه می‌کنیم.
    • یا فرض اولیة ما نادرست است.
  • در آمار، اگر غیرمحتمل باشد، ما تصمیم به رد فرض اولیه می‌گیریم.
slide120
ایدة آزمون فرضیه
  • اول دو فرضیه ارائه می‌کنیم، فرضیة صفر
  • the null hypothesis (“H0”)
  • و فرضیة جایگزین
  • and the alternative hypothesis (“HA”)
    • H0: خوانده گناهکار نیست
    • HA: خوانده گناهکار است
slide121
شناسایی فرضیه‌ها
  • فرضیه صفر همیشه نشاندهندة وضعیت موجود می‌باشد یعنی فرضیه‌ای که نیازمند هیچ تغییری در رفتار جاری ندارد.
  • فرضیه جایگزین، نتیجه‌ای است که محقق سعی دارد آن را بدست‌ آورد.
slide122
ادامة مثال
  • سپس، شواهدی مانند اثر انگشت، لکه‌های خون، نمونه‌های مو، الیاف فرش، رد کفش، نمونه‌های دستخط و غیره جمع‌آوری می‌شود.
  • در آمار، داده‌ها همان شواهد هستند.
slide123
ادامة مثال
  • سپس فرض اولیه ساخته می‌شود
    • خوانده، بیگناه است تا وقتی که ثابت شود، گناهکار است.
  • درآمار، ما همیشه فرض می‌کنیم فرضیة صفر درست است.
slide124
ادامة مثال
  • سپس یک تصمیم بر اساس شواهد موجود بگیرید.
    • اگر شواهد کافی وجود داشت (ماورای شک منطقی)، فرضیة صفر رد می‌شود. (خوانده گناهکار است).
    • اگر شواهد کافی وجود نداشته باشد، فرضیة صفر رد نمی‌شود (خوانده گناهکار نیست)
slide125
نکتة مهم
  • هیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمی‌باشد.
  • ما فقط اظهار می‌داریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم.
  • این موضوع همیشه در آمار درست است، موضوع این نیست که ما چه تصمیمی می‌گیریم، همیشه شانس این وجود دارد که ما تصمیم اشتباه بگیریم.
slide126

آزمون فرضیه

ادامة مقدمه ...

slide129
تعاریف: انواع خطا
  • خطای نوع اول: فرضیة صفر رد شود درحالیکه درست است.
  • خطای نوع دوم: فرضیة صفر رد نشود، وقتی اشتباه است.
  • همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن شانس وقوع این خطاها باشد.
slide130
مثال

جمعیت تعداد زیادی بزرگسال

آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟

متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.

نمونه 80 نفر بزرگسال

slide131
مثال (ادامه)
  • تعیین فرضیه
    • H0:  = 98.6 درجه
    • HA:  < 98.6 درجه
  • فرضیة اولیه را  = 98.6 بسازید.
  • جمع‌آوری داده‌ها: متوسط درجة حرارت بدن 80 نفر نمونه، 4/98 است. احتمال این که درجة حرارت بدن یک نمونة 80 نفره از بزرگسالان کمتر از 4/98 باشد، اگر دمای متوسط جمعیت 6/98 باشد، چه مقدار است؟
p value
استفاده از p-valueبرای تصمیم‌‌گیری
  • p-value نشاندهندة احتمالی است که ما چنین نمونة کرانی را مشاهده خواهیم کرد اگر فرضیة صفر درست باشد.
  • p-value احتمال است، بنابراین بین صفر و یک می‌باشد.
  • نزدیک به صفر به معنای غیرمحتمل است.
  • بنابراین اگر p-value کوچک باشد (به طور مثال کمتر از 05/0، آنگاه فرضیة صفر رد می‌شود.
slide133
مثال (ادامه)

p-value را به آسانی می‌توان از نرم‌افزارهای آماری مانند MINITAB بدست آورد.

Test of mu = 98.6000 vs mu < 98.6000

The assumed sigma = 0.600

Variable N Mean StDev SE Mean Z P

Temp 80 98.4 0.67 0.0671 -2.80 0.0026

p-value را عموماً با p نشان می‌دهند.

slide134
مثال (ادامه)
  • p-value برابر 0026/0 نشان می‌دهد که اگر دمای متوسط بدن در جمعیت 6/98 باشد، غیرمحتمل است که یک نمونة 80 نفره بزرگسال دارای دمای متوسط بدن 4/98 باشند.
  • تصمیم: رد فرضیة صفر
  • نتیجه اینکه دمای متوسط بدن کمتر از 6/98 می‌باشد.
slide135
چه نوع خطایی ممکن است برای ما پیش آید؟
  • خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه نیست.
  • خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه است.
  • ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از 6/98 است بنابراین ما ممکن است خطای نوع اول را داشته باشیم.
slide137
مثال

جمعیت 5 میلیون دانشجوی

کالج

آیا متوسط نمره 7/2 است؟

چقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

نمونة 100 دانشجو

slide138
مقادیر p

چقدر محتمل است که 100 دانشجو دارای میانگین نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

slide139
تعیین مقادیرP

H0: μ = متوسط نمرات جمعیت = 2.7

HA: μ = متوسط نمرات جمعیت > 2.7

اگر 100 دانشجو دارای متوسط نمره‌ای برابر 9/2 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

slide140
تصمیم‌گیری
  • مقدار P کوچک است. غیرمحتمل است که ما نمونه‌ای به اندازة 9/2 داشته باشیم اگر متوسط نمرات جمعیت 7/2 باشد.
  • فرضیة صفر رد می‌شود. شواهد کافی وجود دارد که متوسط نمرات بزرگتر از 7/2 باشد.
slide141
اصطلاحات
  • H0: μ = 2.7 در برابر HA: μ > 2.7

یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده می‌شود چون مقدار P مربوط به دنبالة سمت راست است.

  • Z = 3.33

را آمارة آزمون می‌نامند.

  • اگر ما فکر کنیم که مقدار P ما کوچک است یعنی کوچکتر از 05/0 باشد، آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر 05/0 است. این مقدار را سطح معنی‌داری آزمون می‌نامند. ما می‌گوییم α=0.05 جاییکه α سطح معنی‌داری است.
slide142
مثال

جمعیت تعداد زیادی بزرگسال

آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟

متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.

نمونه 80 نفر بزرگسال

slide143
مقادیر p

چقدر محتمل است که 80 بزرگسال دارای یک دمای متوسط بدنی به اندازة 4/98 باشد اگر متوسط جمعیت 6/98 باشد؟

slide144
تعیین مقادیر P

H0: μ = متوسط دمای بدن جمعیت = 98.6

HA: μ = متوسط دمای بدن جمعیت < 98.6

اگر 80 نفر بزرگسال دمای بدن‌شان 4/98 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

slide145
تصمیم‌گیری
  • مقدار P کوچک است، غیرمحتمل است که ما نمونه‌ای به اندازة 4/98 بدست آوریم اگر متوسط دمای بدن در جمعیت 6/98 باشد.
  • رد فرضیة صفر. شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از 6/98 می‌باشد وجود دارد.
slide146
اصطلاحات
  • H0: μ = 98.6 در برابر HA: μ < 98.6

آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده می‌شود، چونکه مقدار P مربوط به سمت چپ است.

  • Z = -2.98 آمارة آزمون می‌باشد
  • اگر ما فکر کنیم که مقدار P کوچک است؛ یعنی کوچکتر از 02/0، آنگاه احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با 02/0 می‌باشد. یعنی سطح معنی‌داری برابرα = 0.02. می‌باشد.
slide147
مثال

جمعیت دانشجویان

آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟

مقدار متوسط 17 دقیقه با انحراف معیار16 دقیقه.

نمونة 64 دانشجو

slide148
مقادیر P

چگونه محتمل است که 64 دانشجو، به طور متوسط حداقل 17 دقیقه و حداکثر 23 دقیقه صرف مطالعه کنند اگر متوسط جمعیت 20 دقیقه باشد؟

slide149
تعیین مقدار P

H0: μ = متوسط وقت صرف‌شده = 20

HA: μ = متوسط وقت صرف شده# 20

اگر 64 دانشجوبه طور متوسط 17 دقیقه با انحراف معیار 16 دقیقه صرف مطالعه کنند، مقدار P برابر است با:

و

بنابراین P-value = 0.067 × 2 = 0.134

slide150
تصمیم‌گیری
  • مقدار P کوچک نیست. محتمل است که ما یک نمونه به کوچکی 17 دقیقه و به بزرگی 23 دقیقه داشته باشیم اگر مقدار متوسط صرف شده 20 دقیقه باشد.
  • فرضیة صفر رد نمی‌شود. شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از 20 دقیقه است وجود ندارد.
slide151
اصطلاحات
  • H0: μ = 20 در برابر HA: μ # $20

آزمون فرضیة دو دنباله یا دو طرفه نامیده می‌شود چونکه مقدار P در هر دو طرف می‌باشد.

  • Z = -1.5آمارة آزمون می‌باشد

چون ما در رد فرضیة صفر شکست خوردیم، ممکن است خطای نوع اول را داشته باشیم.

slide153
نکتة بسیار مهم
  • مقدار P شما، صحیح نخواهد بود مگر اینکه فرض‌های شما درست باشد.
  • اگر شما نمونة کوچکی داشته باشید، باید ببینید آیا داده‌های شما به طور نرمال توزیع شده است یا نه
  • اگر داده‌ها به طور نرمال توزیع نشده باشند، شما باید یک نمونة بزرگ داشته باشید.
testing hypotheses made about the means of two populations
START

Paired t test (samples must come

from normal populations):

Yes

Are the

two samples

dependent?

No

where df = n - 1

z test (normal distribution):

Testing Hypotheses Made about the Means of Two Populations

Do n1 and n2

both exceed

30?

Yes

No

No

Are both populations

normally distributed?

Use nonparametric methods

Yes

Reject

After applying the F

test, what do we conclude

about ?

separate variances t test

(samples must come from

normal populations)

Fail to reject

Pooled variances t test (samples must

come from normal populations):

where

and

slide155

یادآوری

عدم توجه به سطوح اندازهگیری در بکارگیری روشهای مختلف آماری اعم از آمار توصیفی یا استنباطی، اشتباه رایجی است که در بسیاری از تحقیقات به چشم می‌خورد.

سطوح اسمی Nominal scaleمقولات یک متغیر به صورت قراردادی کنار هم قرار می‌گیرند. زن یا مرد (همسانی یا ناهمسانی)

slide156
2. در سطح ترتیبی ordinal scale:

جهت تغییر از کم به زیاد یا از ضعیف به شدید است، بنابراین در این سطح علاوه بر همسانی یا ناهمسانی مقولات، شدت و ضعف و ترتیب آنها نیز مشخص می‌شود ولی چون فواصل بین مقولات مشخص نیست اعداد اختصاص‌یافته به آنها باز هم فاقد ارزش عددی است. یعنی نمی‌توان گفت که فلانی سه برابر دیگری به تحصیل علاقه دارد.

slide157
3. سطح فاصله‌ای‌Interval Scale

در این سطح علاوه بر تعیین سطوح مختلف و ترتیب منطقی و واقعی بین مقادیر یک متغیر، فاصلۀ بین مقادیر متغیر فوق نیز مشخص می­شود.

به عنوان مثال می­توان گفت دانشجوئی که نمره 20 گرفته است به اندازۀ 10 نمره با دانشجوئی که نمرۀ 10 گرفته است فاصله دارد.

در این مقیاس صفر مطلق وجود ندارد، مثلاً اگر دانشجوئی در درس آمار صفر گرفته باشد، نباید فرض کرد که اصولاً فاقد دانش آمار است

slide158
4. سطح نسبی Ratio Scale

بالاترین و دقیق ترین سطح اندازه‌گیری است که علاوه بر تعیین سطوح و مقادیر یک متغیر و تعیین فاصله بین مقادیر یک متغیر، نسبت‌ها نیز قابل محاسبه و بیان هستند و مبنای اندازه‌گیری نیز صفر مطلق است. مانند میزان درآمد یا حساب دانشجو - در این متغیر اگر حساب دانشجو صفر باشد واقعاً هیچ پولی در حساب او نیست زیرا این متغیر دارای صفر مطلق است و وجود صفر حقیقی به عنوان مبدأ اندازه‌گیری محقق را قادر می‌سازد تا از روشهای مختلف آماری استفاده کند.

slide160
تحلیل روابط بین متغیرها

آمار توصیفی تنها می‌تواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد

محقق در تحقیقات مختلف عمدتاً بدنبال تحلیل و تبیین داده‌ها و متغیرهای موردنظر است به همین دلیل سعی می‌کند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروه‌های مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد.

slide161
روابط بین متغیرها

آیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟

آیا می‌توان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیش‌بینی و تبیین کرد؟

پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکان‌پذیر است.

slide162
در رابطه با تحلیل دومتغیره روابط بین متغیرها را می‌توان از طریق 1) جداول توافقی 2) ضریب همبستگی اسپیرمن 3) ضریب همبستگی پیرسون و برای پیشگویی تغییرات یک متغیر از طریق متغیر دیگر از رگرسیون ساده بهره جست.

در رابطه با جمعیت چندمتغیره، روابط بین متغیرها از طریق 1) ضریب همبستگی چندگانه و 2) ضریب همبستگی جزئی و پیشگوئی تغییرات یک متغیر از طریق متغیرهای دیگر با استفاده از رگرسیون چندگانه امکان‌پذیر است.

slide163
در حاشیه:تفاوت عمدۀ همبستگی و رگرسیون

تفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیش‌بینی است در حالیکه ضریب همبستگی تنها میزان وابستگی دو متغیر را با هم بررسی می‌‌کند.

دررگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.

- ضریب همبستگی قادر به بیان روابط علی و معلولی بین متغیرها نیست.

slide164
هدف از تشکیل یک جدول توافقی نشان دادن هرنوع رابطه‌ای است که ممکن است بین دو متغیر وجود داشته باشد‌. در مثال حاضر متغیر‌های کیفی، جنس (با سطوح مرد وزن) و رد کردن (با سطوح بله و خیر) می‌باشد.

از روی جدول روشن می‌شود که در حقیقت رابطه‌ای بین این دو متغیر وجود دارد. به طوری که واضحاً نسبت بیشتری از پاسخ‌دهندگان زن، برنامه مورد نظر را رد می‌کنند

جدول توافقی

slide165
ضرایب همبستگی مرتبط با متغیرهای اسمی

1. کای‌اسکوئر: یکی از آزمون‌های ناپارامتری است.

این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنی‌داری تفاوت بین فراوانیهای مشاهده شده و فراوانی‌های موردانتظار بدست‌آمده از جامعه بپردازد.

این آزمون نشان می‌دهد که آیا تفاوت موجود بین مقادیر فوق از نظرآماری معنی‌داراست یا این تفاوت عمدتاً براساس شانس است.

slide166
شرایط استفاده از آزمون کای‌اسکوئر

داده‌های مشاهده‌شده باید به صورت تصادفی گردآوری شده باشند.

کلیه موارد موجود در نمونه باید مستقل از هم باشند.

حتی‌الامکان هیچ یک از خانه‌های جدول نباید کمتر از 10 باشند (البته برخی آماردانان تعداد 5 مورد را ذکر می­کنند)

تعداد نمونه باید به اندازۀ کافی بزرگ باشد. بهتر است حجم نمونه در اینگونه تجزیه و تحلیلها حداقل 50 مورد باشد.

آماره کای‌اسکوئر می‌تواند برای یک متغیر اسمی و یک متغیر ترتیبی نیز بکار رود.

(مثلاً عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو سطح خاک)

slide167
2. ضریب همبستگی چوپروف (T)

به منظور تعیین شدت وابستگی بین متغیرهای مورد مطالعه بکار گرفته می‌شود و مقدار آن همواره بین صفر و یک در نوسان است. این آزمون زمانیکه هر دو متغیر اسمی و یا یکی اسمی و دیگری ترتیبی باشد مورد استفاده قرار می‌گیرد. اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته می‌شود.

3 phi
3. ضریب همبستگی فیphi

به منظور بررسی شدت همبستگی بین دو متغیر اسمی که به صورت دووجهی و در قالب جدول توافقیمی‌باشد مورد استفاده قرار می‌گیرد به همین دلیل در اینگونه موارد باید بجای استفاده از کای‌اسکوئر، از ضریب همبستگی فی استفاده نمود.

تفاوت ضریب همبستگی فی با کای‌اسکوئر در این است که کای‌اسکوئر سطح معنی‌داری همبستگی بین متغیرها را تعیین می‌کند در حالیکه ضریب فی شدت همبستگی کای‌اسکوئر را نشان می‌دهند. این ضریب همانندکای‌اسکوئر تفسیر می‌گردد و مقدار آن همواره بین صفر و یک است.

4 pearson s coefficient contingency
4. ضریب همبستگی توافق پیرسونPearson s coefficient contingency

این ضریب که آنرا با C نمایش می‌دهند میزان همبستگی بین دو متغیراسمی را که به صورت توافقی تنظیم شده‌اند محاسبه می‌کند. این شاخص زمانی بکار می‌رود که خانه‌های جدول توافقی بیش از باشد.

slide170
5. ضریب کرامر:

این ضریب برای تعیین میزان شدت همبستگی بین دو متغیر اسمی مورد استفاده قرار می‌گیرد و آنرا با نشان می‌دهند که مقدار آن همواره بین صفر و یک در نوسان است این ضریب در مقایسه با سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر ازو هم برای جداول مستطیلی بکار می‌رود.

1 kendall s rank correlation coefficient
1. ضریب همبستگی رتبه‌ای کندالkendall s rank correlation coefficient

شاخص کندال حالت تقارن دارد به این معنا که متغیرها قرینه بوده و برای محقق مهم نیست که کدامیک از متغیرهای مورد مطالعه وابسته و کدامیک مستقل می‌باشد. این شاخص مشخص می‌کند که تا چه میزان افزایش یا کاهش در یک متغیر با افزایش یا کاهش در متغیر دیگر همراه است. مقدار ضریب کندال همواره بین 1- تا 1+ در نوسان است.

2 gamma coefficient
2. ضریب گاماGamma coefficient

شاخص است که از طریق آن می‌توان با آگاهی از پاسخهای یک متغیر پاسخ‌ها و نتایج متغیر دیگر را پیشگوئی کرد. گاما در واقع میزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغیر مستقل رخ می‌دهد مشخص می‌کند.

3 spearman rank correlation coefficient
3. ضریب همبستگی رتبه‌ای اسپیرمنSpearman Rank Correlation Coefficient

این ضریب زمانی مورد استفاده قرار می‌گیرد که داده‌ها به صورت رتبه‌ای متوالی ناپیوسته (... و 3 و 2 و 1) باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند. در صورتیکه داده‌ها با مقیاس فاصله‌ای یا نسبتی اندازه‌گیری شده باشند می‌توان آنها را به رتبه تبدیل کرد و بعد ضریب همبستگی رتبه‌ای اسپیرمن را محاسبه نمود.

ضریب همبستگی اسپیرمن که آنرا با rs نمایش می‌دهند همواره بین 1+ و 1- در نوسان است و از لحاظ سطح سنجش نیز ترتیبی و از نوع متقارن می‌باشد به همین دلیل برای محقق مهم نیست که کدام متغیر مستقل و کدامیک وابسته باشد.

pearson correlation coefficient
ضریب همبستگی پیرسونPearson Correlation Coefficient
  • از روشهای پرکاربرد جهت تعیین میزان رابطه بین دو متغیر مصوب گردیده و با علامت r نشان داده می‌شود. این ضریب به منظور بررسی رابطه بین دو متغیر فاصله‌ای یا نسبی مورد استفاده قرار می‌گیرد و مقدار آن بین 1+ و 1- در نوسان است.
  • اگر این ضریب مثبت باشد به معنای آن است که تغییرات در برد و متغیر به طور هم جهت اتفاق می‌افتد و بالعکس.
slide178
نکته:

دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است.

الف- وجود همبستگی بین دو متغیر به معنای این نیست که آنها دارای اثرات مساوی هستند و یا یکی علت دیگری است، زیرا ممکن است هر دو تحت تأثیر عامل دیگری باشند.

به عنوان مثال اگر بین میزان غیبت از کار و رضایت شغلی رابطه متغیر وجود داشته باشد نمی­توان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثیر عامل دیگر قرار گرفته باشد.

ب- همبستگی ساده نشان می‌دهد که بین دو متغیر چقدر ارتباط خطی وجود دارد.

slide179
انتخاب آزمون مناسب برای مقایسۀ میانگین‌ها

چنانچه داده‌های مربوط به متغیر وابسته از نوع کمی با مقیاس (فاصله‌ای یا نسبی) و داده‌های متغیر مستقل یا گروه‌بندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررسی تفاوت ها می‌توان به مقایسه میانگین‌ها پرداخت و معنی‌داربودن تفاوت‌های موجود بین طبقات یا گروه‌ها را مورد بررسی قرار داد.

slide180
آزمونهای پارامتری

آزمونهای t و F عمده‌ترین آزمونهای آماری برای مقایسۀ میانگین گروه‌ها می‌باشند. از آنجا که گروه‌های مورد بررسی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به دو بخش مستقل و همبسته تقسیم می‌شوند. تصمیم‌گیری در مورد این‌که در چه مواقعی باید از آزمونهای t یا F مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است.

slide182
پیش‌فرضهای آزمونهای پارامتری

آزمونهای پارامتری t و F را با پیش فرضهای زیر میتوان مورد استفاده قرار داد:

مشاهدات از یک جامعه نرمال انتخاب شده باشند.

اطلاعاتی که با هم مقایسه می‌شوند باید تقریباً واریانس یکسانی داشته باشند (در نمونه‌های بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم می‌توان از آزمونهای پارامتری استفاده نمود)

داده‌های گردآوری شده دارای مقیاس فاصله‌ای یا نسبتی باشند.

اگر اطلاعات جمع‌آوری‌شده این سه شرط را نداشت می‌توان داده‌های فوق را به غیر پارامتری تبدیل کرد و از روش‌های آماری غیرپارامتری استفاده نمود. روش عمده تبدیل داده­های پارامتری به غیرپارامتری، رتبه‌بندی کردن آنها می‌باشد.

slide183
الف- آزمونt: اگر متغیرمستقل یا متغیرگروه‌بندی تنها دو گروه داشته باشد.

(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)

f anova
ب- آزمون F(تحلیل واریانس ANOVA)
  • اگر تعداد گروهها بیش از دو باشد.

(اگر بخواهیم میزان درآمد گروههای شغلی کارگر، کارمند و کشاورز را با هم مقایسه کنیم)

  • نکته: آزمون F تنها معنی‌داری تفاوت بین میانگین گروه‌ها را مورد بررسی قرار می‌دهد اما مشخص نمی‌کند که این تفاوت‌ها در بین کدامیک از گروه‌های مورد بررسی وجود دارد. به همین دلیل برای ایک که بدانیم تفاوت‌های بدست‌آمده در بین کدامیک از طبقات وجود دارد و از این طریق مقایسه‌ای بین گروه‌ها انجام گیرد، باید از آزمون شفه (Scheffe test) یا LSD و یا از آماره‌هایی نظیر توکیTukey یا دانکن Duncan استفاده کرد. این آزمونها میانگین زوج‌ها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختلاف معنی‌دار بین آنها را نشان می‌دهد.
slide185
این روش کل واریانس موجود در یک مجموعه از داده‌ها را به دو بخش تقسیم می‌کند.

بخشی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است ناشی از دلایل یا عوامل خاصی باشد، از طرف دیگر واریانس موجود ممکن است ناشی از تفاوت بین گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونه‌ها حادث شده باشد.

مهمترین اصل در تحلیل واریانس (ANOVA) آزمایش تفاوت‌های موجود در بین میانگین‌های جوامع یا گروههای مورد مطالعه از طریق بررسی میزان واریانس بین گروه‌ها نسبت به واریانس درون گروه‌هاست.

در واریانس درون جامعه فرض بر این است که تفاوت بین مقدار نسبت به میانگین جامعه بخاطر شانس است در حالیکه در بررسی تفاوتهای بین جوامع و گروهها، فرض بر این است که تفاوت بین میانگین جامعه یا نمونۀ jام با میانگین کل به دلیل عوامل خاص می‌باشد. بنابراین زمانی که از تحلیل واریانس استفاده می‌شود فرض می‌گردد که هر یک از نمونه‌ها از یک جامعه نرمال انتخاب شده‌اند و هر یک از این جوامع نیز واریانس برابری دارند همچنین فرض می‌شود کلیه عوامل بجز عواملی که مورد مطالعه می‌باشند تحت کنترل هستند.

slide186
نکته:
  • در تحلیل واریانس، اگر در بین میانگین گروههای مختلف تفاوت معنی‌داری وجود داشته باشد تنها از طریق ANOVA نمی‌توان محل این تفاوت‌ها را بدست آورد.
  • اگر به مقایسۀ سه گروه A، B، C بپردازیم و تفاوت معنی‌داری در بین آنها وجود داشته باشد نمی‌توانیم قضاوت کنیم که آیا این تفاوت‌ها بین A و B است یا بین B و C یا بین A و C.
  • در چنین مواقعی نباید از طریق آزمون t به مقایسه دوبدو گروهها پرداخت، زیرا هر قدر تعداد دفعاتی که آزمون t انجام می‌گیرد بیشتر باشد سطح اطمینان نتایج پائین می‌آید.
  • (در این موارد باید از آزمونهائی مانند آزمون شفه، آزمون چنددامنه دانکن، آزمون توکی و آزمون استیودنت نیومن، کیول برحسب ضرورت استفاده کرد.
slide187
تحلیل واریانس یکطرفه:One-way Analysis of Varianceاگر محقق تنها یک متغیر (درآمد) را انتخاب کند و بخواهد تفاوت بین طبقات یا گروههای مختلف را بررسی کند در این صورت از تحلیل واریانس یکطرفه استفاده می‌کند.

تحلیل واریانس دوطرفه:

Two way Analysis of Variance

اگر محقق بخواهد اثر دو عامل را بر روی یک متغیر وابسته بررسی کند باید از تحلیل واریانس دوطرفه استفاده کند.

slide188
آزمونهای غیرپارامتری

همانطوری که قبلاً نیز بحث گردید آزمونهای پارامتری علاوه بر این که نیاز به داده‌هائی از نوع فاصله‌ای دارند باید از برخی از پیش فرض‌های اولیه نیز برخوردار باشند (نرمال بودن توزیع در جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار می‌گیرند و ...)

slide189
اما در آزمونهای غیرپارامتری چنین پیش‌فرضهائی مطرح نبوده و زمانی که داده‌ها در سطح اسمی و یا ترتیبی باشد و یا در صورتیکه گروه‌های مورد مطالعه از واریانس نابرابر و یا از چولگی برخوردار باشند باید از آزمون‌های غیرپارامتری استفاده کرد. این آزمون‌ها از ویژگی‌هائی برخوردار هستند که آنها را از آزمون‌های پارامتری متمایز کرده است:
slide190
این آزمونها هیچکدام از پیش‌فرضهای مطرح شده در آزمونهای پارامتری، نظیر نرمال بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمی‌دهد و حتی در صورت صادق نبودن مفروضات فوق در خصوص داده‌های فاصله‌ای به منظور استفاده از آزمونهای پارامتری امکان تبدیل داده های فوق به داده‌های غیرپارامتری و رتبه‌ای و محاسبه آزمونهای ناپارامتری وجود دارد.
  • از آنجا که در این آزمونها از مقادیر رتبه‌ای و حتی داده‌های اسمی استفاده می‌گردد، بنابراین محاسبۀ آنها کار ساده‌ای است.
  • این آزمونها در مقایسه با آزمونهای پارامتری از دقت بالائی برخوردار نمی‌باشند. دلیل آن این است که با تبدیل داده‌های فاصله‌ای به مقادیر رتبه‌ای، فواصل واقعی موجود در بین داده‌ها به فواصل یکسان بین رتبه‌ها تبدیل شده و در این فرآیند بخشی از اطلاعات ناپدید می‌گردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر رتبه‌ای، بدلی از واقعیت ساخته می‌شود و این بدل بدست‌آمده به جای واقعیت مورد تجزیه و تحلیل قرار می‌گیرد.
slide192
1. آزمون نشانه:

زمانی که داده‌ها به صورت همبسته باشند مورد استفاده قرار می‌گیرد.

slide193
آزمون مک نمار:
  • اغلب در مواردی بکار برده می‌شود که داده‌ها به صورت اسمی و مربوط به دو نمونه مرتبط بهم (Two related) یا همبسته باشند

(زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)

slide194
مثال1. ابتدا در مورد یک موضوع نظر افراد را به صورت موافق یا مخالف جویا می‌شویم پس از آن نسبت به برگزاری کلاس آموزشی اقدام می‌کنیم (یاجلسۀ توجیهی) و سپس دوباره نظر افراد را نسبت به موضوع جویا می‌شویم. در اینجا فرض صفر (Ho) این است که تفاوتی بین نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزشی) وجود ندارد.

مثال2. نظرات 1000 نفر درباره خرید و عدم خرید یک کالا قبل و بعد از برگزاری برنامه تبلیغاتی و معرفی کالا پرسیده شده است با این آزمون می‌توان مشخص نمود که آیا برنامه تبلیغاتی در تغییر نگرش مشتریان مؤثر بوده است یا خیر.

3 wilcoxon test
3.آزمون ویلکاکسون Wilcoxon Test

در بسیاری از پژوهشهائی که نمونه‌ها به صورت جفت شده و همبسته هستند ممکن است محقق بخواهد هم جهت تغییر و هم میزان تغییر را مورد بررسی قرار دهد، برای این منظور آزمون ویلکاکسون تست مناسبی است.

داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند.

مثال: نظر تعدادی از مشتریان در رابطه با دو نوع کالای مشابه اما با مارک‌های متفاوت از نظر کیفیت محصول سؤال شده است.

4 fridman test
4. آزمون فریدمن Fridman Test
  • آزمون فریدمن یکی از آزمونهای غیرپارامتری است این آزمون در واقع معادل آزمون F در روشهای پارامتری می‌باشد اما در اینجا برخلاف آزمون F، فرض توزیع نرمال و برابر بودن واریانس ضرورتی ندارد.
  • این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار می‌رود.
  • مثال: نظرات 30 نفر از فراگیران را درخصوص سه روش مختلف تدریس جویا شده‌ایم و پاسخ‌ها نیز از 1 (بسیار نامناسب) تا 5 (بسیار مناسب) امتیازبندی شده‌اند.
slide197
5.آزمون کوکران

یکی از روشهای ناپارامتری و درواقع تعمیم‌یافته آزمون مک نمار است با این تفاوت که این روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار می‌رود: داده‌های این آزمون به صورت اسمی می‌باشد و وجود تفاوت بین نظرات افراد را مورد بررسی قرار می‌دهد.

مثال: نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده می‌شود

- قبل از برگزاری یک دورۀ آموزشی (موافقت – مخالفت)

- بعد از برگزاری دوره (موافقت – مخالفت)

- بعد از اجرای عملی محتویات دوره (موافقت – مخالفت)

6 mann whitney test
6.آزمون من - ویتنی Mann – Whitney Test

برای مقایسه میانگین‌های دو جامعه مستقل زمانی که داده‌ها به صورت رتبه‌ای یا ترتیبی باشند مورد استفاده قرار می‌گیرد.

مثال: فرض کنید دو گروه 30 نفره از فراگیران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی آنها از دوره‌های فوق در قالب امتیازات 1 تا 5 گردآوری شده است.

7 kolmogrov smirnov test
7. آزمون کولموگروف - اسمیرنف Kolmogrov – Smirnov Test

چنانچه در بحث کای‌اسکوئر گفته شد اگر فراوانی‌های مورد انتظار بیش از 20 درصد خانه‌های جدول، کمتر از 5 باشد، در این صورت نمی‌توان از فرمول کای‌اسکوئر استفاده کرد، این مشکل معمولاً زمانی پیش می‌آید که حجم نمونه کمتر از 50 باشد و یا تعداد خانه‌های جدول بیشتر باشد. در چنین حالتی می‌توان از تست کولموگرف - اسمیرنف استفاده کرد. اساس این آزمون مقایسه فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار می‌باشد.

8 kruskal wallis test
8. آزمون کروسکال - والیسKruskal – Wallis Test

این آزمون در واقع معادل تحلیل واریانس یکطرفه می‌باشد، اما برخلاف آن نیازی به مفروضات آن نظیر اینکه نمونه‌ها از یک جامعۀ نرمال بدست‌آمده باشند و یا اینکه انحراف معیار یکسانی داشته باشند وجود ندارد. آزمون کروسکال والیس زمانی استفاده می‌‌شود که تعداد نمونه‌ها بیش از دو گروه باشد.

مثال: از 90 نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامه‌های آموزشی دانشکده را ارزیابی کنند. امتیازات ارائه شده توسط افراد فوق از 1 (بسیار ضعیف) تا 5 (بسیار قوی) در نوسان بوده است.

Ho: بین نظرات دانشجویان رشته‌های مختلف تفاوت معنی‌داری وجود ندارد.

این آزمون اگرچه وجود تفاوت بین نظرات گروه‌های مختلف را نشان می‌دهد اما مشخص نمی‌کند که این تفاوت در بین کدام یک از گروه‌ها وجود دارد.

median test
آزمون میانه:Median test

یکی دیگر از روشهای غیرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد استفاده قرار می‌گیرد. اطلاعات مورد نیاز در این روش باید در سطح رتبه‌ای بوده و حتی‌الامکان داده‌ها هم‌رتبه نباشند، زیرا اگر میانه مشترک بین گروهها جزو نمرات تکراری باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه می­گردد.

مثال: می‌خواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با هم متفاوت است یا خیر؟

برای این کار تعداد شلوار دوخته شده توسط 40 کارگر (از سه شیفت مختلف) در یک هفته گردآوری شده است.

slide203
انتخاب روش مناسب برای تجزیه و تحلیل داده‌ها مهمترین قدم در تحلیل داده‌های گردآوری شده محسوب می‌گردد.
  • متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روش‌های مختلف آماری چند متغیره، به اشتباه یکی به جای دیگری مورد استفاده قرار می‌گیرد و تکنیک‌های مختلف به طور نابجا بکار گرفته می‌شوند.
slide204
به منظور آشنائی با نحوه بکارگیری روش‌های چند متغیره در تجزیه و تحلیل داده‌ها، درخت تصمیم‌گیری برای استفادۀ اصولی و متناسب با نوع داده‌ها و هدف تجزیه و تحلیل ارائه شده است،

این طبقه‌بندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است:

  • آیا داده‌های مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟
  • اگر چنین تقسیم‌بندی امکان‌پذیر است، چند متغیر از موارد فوق، متغیر وابسته می‌باشند؟
  • متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازه‌گیری شده‌اند؟
slide205
پاسخ این سه سؤال محقق را در تصمیم‌گیری برای انتخاب مناسب‌ترین تکنیک تجزیه و تحلیل چند متغیره کمک می‌کند.
  • پاسخ سؤال اول مشخص می‌کند که آیا باید از تکنیکهای وابستگی (Dependenc Technique) استفاده نمود یاباید از تکنیکهای هم ‌وابستگی (Interodependence Technique) بهره گرفت.
  • روشهای وابستگی تکنیک‌هائی هستند که در آن یک یا چند متغیر به عنوان متغیرهای وابسته لحاظ شده و تغییرات آن براساس متغیرهای مستقل دیگر مورد بررسی و تبیین قرار می‌گیرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغیره و غیره.
  • روش‌های هم وابستگی تکنیک‌هائی هستند که در آن متغیرهای مستقل و وابسته وجود ندارد، بلکه در این روش‌ها مجموعه متغیرها به طور همزمان و با هم مورد تجزیه و تحلیل قرار می‌گیرند. مانند روش تحلیل عاملی.
slide207
اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است.
  • * چنانچه داده‌های فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیرپارامتری دووجهی باشد، روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است.
  • چنانچه متغیر وابسته غیرپارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیرپارامتری و متغیرهای مستقل از نوع پارامتری هستند.
  • اما چنانچه متغیرهای وابسته و مستقل هر دو غیرپارامتری باشند روش مناسب برای تجزیه و تحلیل داده‌ها رگرسیون لوجیستیک می‌باشد.
  • تحلیل مسیر روشی است که هم برای داده‌های پارامتری و هم غیرپارامتری سازگار است.
  • اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود.
    • اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود
    • اما اگر متغیرهای وابسته مورد نظر غیرپارامتری باشد می‌توان از طریق تبدیل آنها به متغیرهای مجازی کدبندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.
slide208
روشهای هم‌وابستگی بر مبنای وجود یا عدم وجود متغیرهای وابسته مورد تجزیه و تحلیل قرار نمی‌گیرند زیرا در این روشها کلیۀ متغیرها به طور همزمان و با همدیگر بررسی می‌شوند این روشها از نظر پارامتری یا غیرپارامتری بودن داده‌ها به دو گروه جداگانه تقسیم می‌شوند.
    • پارامتری: تکنیکهای تحلیل عاملی و تحلیل خوشه‌ای
    • غیرپارامتری: داده‌های غیرپارامتری از طریق کدبندی متغیر مجازی (به صورت صفر و یک) قابل بکارگیری در روشهای تحلیل عاملی و تحلیل خوشه‌ای هستند.
  • از سوی دیگر هم داده‌های پارامتری و هم غیرپارامتری قابل استفاده در تکنیک مقیاس‌بندی چندبعدی می‌باشند.
slide210
جمع‌آوری داده‌ها
  • سه روش اصلی برای جمع‌آوری داده‌ها:
    • مطالعات قبلی بر اساس داده‌های تاریخی
    • مطالعة مشاهده‌ای
    • طرح آزمایشی (بهترین حالت)
slide211
کاربرد رگرسیون
  • توصیف داده‌ها
  • برآورد پارامترها
  • پیش‌بینی و تخمین
  • کنترل
slide212
نقش کامپیوتر
  • تحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است.
  • SAS, SPSS, S-plus, R, MATLAB, …
slide213
رگرسیون و مدل سازی
  • تحلیل رگرسیون: یک تکنیک آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها
  • کاربردها: مهندسی، علوم فیزیکی و شیمیایی، اقتصاد، مدیریت، علوم زیستی و بیولوژیکی و علوم اجتماعی
  • تحلیل رگرسیون شاید گسترده‌ترین تکنیک آماری مورد استفاده می‌باشد.
slide214
تحلیل رگرسیون این امکان را برای محقق فراهم می‌کند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیش‌بینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.
slide215
تحلیل رگرسیون و ضریب همبستگی

رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که می‌توانیم از رگرسیون برای آزمون فرضیه‌های تحقیق استفاده نمائیم.

slide216
تحلیل رگرسیون

مفهوم رگرسیون برای اولین بار توسط فرانسیسگالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد.

وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلندقد و نیز والدین کوتاهقد به داشتن فرزندان کوتاهقد وجود دارد اما متوسط قد بچه‌های والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد (Regress)

slide217
تعبیر نوین تحلیل رگرسیون
  • تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی می‌توان گفت:
  • تحلیل‌های رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) می‌پردازد که با تخمین یا پیش‌بینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (درنمونه‌گیری تکراری) صورت می‌پذیرد.
slide219
تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ علیت
  • هرچند تحلیل‌های رگرسیون وابستگی یک متغیر به سایر متغیرها را بررسی می‌کند اما الزاماً بیانگر حالت علیت نمی‌باشد. بنا به گفته کندال و استوارت یک رابطۀ آماری هرچند قوی و واضح هرگز نمی‌تواند پایۀ ارتباط علی (سببی) قرار بگیرد. ایده‌های ما از علیت باید خارج از حیطۀ آمار و مالاً از تئوری یا غیر آن حاصل شود.
  • مثلاً نمی‌توان گفت که بارندگی به عملکرد محصول وابسته است.
slide220
تفاوت عمدۀ همبستگی و رگرسیون
  • در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.
  • ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست.
slide221
اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی‌ به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است.
  • اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی می‌گردد.
slide222
رگرسیون خطی و غیرخطی
  • خطی‌بودن از نظر متغیرها
  • خطی‌بودن از نظر پارامترها
slide223
جزء استوکاستیک (تصادفی) تابع رگرسیون جامعه

جزء تصادفی جامعه () نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموش‌شده که بر متغیر وابسته اثر می‌گذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمی‌توانند در مدل گنجانده شوند).

slide224
اهميت جزء اخلال استوکاستیک و تعبیر آن

جزء استوکاستیک نماینده‌ای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر می‌گذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمی‌شوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمی‌شوند.

دلایل فراوانی وجود دارد:

  • ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بی‌اطلاع باشیم.
  • ممکن است راجع به بعضی از متغیرها داده‌های اندکی داشته باشیم.
  • جمع‌آوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.
  • به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال می‌تواند آنرا منعکس کند.
  • ممکن است در اندازه‌گیری خطا صورت گرفته باشد.
  • با تأسی به قاعدۀ اُکام (توصیف راجع به پدیده‌ها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن ساده‌تر بگیریم.
slide225
تخمین مدل رگرسیون دومتغیره

روش حداقل مربعات معمولی

Ordinary Least Square (OLS)

برطبق فروض اصلی، روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل فردریک گوس، ریاضیدان نامی آلمان نسبت داده می‌شود).

slide229
روش حداقل مربعات، تخمینهای منحصر بفردی ازورا که کوچکترین مقدار ممکنرا به نمونه ارائه شده بدهد، مهیا می‌سازد.

تخمين زننده‌های حداقل مربعات

slide230
اين تخمين‌زننده‌ها خصوصیات جالبی دارند که عبارتند از:
  • منحصراً برحسب مقادیر قابل مشاهده بیان می‌شوند (مثلاً و در یک نمونه)
  • این تخمین‌زن‌ها، تخمین‌زن‌های نقطه‌ای هستند یعنی در نمونه داده شده با هر تخمین‌زن فقط مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه می‌کند (بنابراین خط رگرسیون را می‌توان به آسانی برازش نمود)
slide231
فرضیات اساس روش حداقل مربعات
  • اگر هدف ما تنها تخمین و باشد، روش OLS کافی است اما به یاد داریم که در تحلیل رگرسیون هدف تنها بدست‌آوردنونیست بلکه هدف استنتاجاتی دربارۀ و واقعی می‌باشد.
  • برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیین کنیم بلکه باید فرضیات معینی دربارۀ چگونگی بوجودآمدن و را نیز مطرح سازیم:
  • اين معادله نشان می‌دهد که هم به و هم به بستگی دارد. بنابراین تا زمانی که ندانیم و چگونه بدست می‌آیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنین و نخواهیم داشت. از اینرو فرضیات مبتنی بر متغیر و جزء خطا برای تفسیر معتبری از تخمینهای رگرسیون اهمیت دارند.
slide232
آنچه به عنوان مدل رگرسیون خطی عمومی، گوسی، کلاسیک یا استاندارد معروف می‌باشد، مبتنی بر فرضیات زیر است:

فرض1: میانگین uiها صفر است

اين فرض بيان مي‌كند كه مقدار میانگین‌ uiها برحسب Xiمفروض صفر است.

slide233
اگر بین uها حالت الف یا ب وجود داشته باشد آنگاه خودهمبستگی یا همبستگی پیوسته وجود خواهد داشت.

فرض2: عدم وجود خودهمبستگی بین uها

3 u i
فرض 3: یکسانی (همسانی) واریانس Uiها

این فرض بیان می‌کند که جامعۀ Yمتناظر با مقادیر مختلف X واریانس یکسان دارند.

slide235
در مقابل این حالت شکل زیر، واریانس شرطی جامعۀ y همراه با افزایش مقدارX افزایش مییابد، این حالت به ناهمسانی واریانس و یا ناهمسانی در پراکندگی معروف است.
4 u i x i
فرض4: کوواریانس صفر بین و Ui , Xi

فرض نمودیم که x و u (که می‌تواند تأثیر تمام متغیرهای حذف شده را نشان دهد) دارای تأثیرات جمع‌پذیر و مجزا بر y می‌باشند اما اگر X و u همبسته باشند. تشخیص تأثیر خاص و مجزای هر کدامشان بر y ممکن نیست. بنابراین اگر X و u به طور مثبت همبستگی داشته باشند X با افزایش u افزایش و با کاهش u کاهش می‌یابد به همین شکل اگر X و u به طور منفی همبسته باشند X با افزایش u کاهش و با کاهش u افزایش می‌یابد و به هر ترتیب جداکردن تأثیر X و u بر Y مشکل است.

slide237
فرض5: مدل رگرسیون دقیقاً تصریح شده است(عدم وجود خطای تصریح یا تورش)

سؤالات فوق بسیار مهمند چراکه با حذف متغیرهای اصلی از مدل، انتخاب شکل تبعی غلط و یا مطرح کردن فرض‌های آماری نادرست دربارۀ متغیرهای مدل، اعتبار تفسیر رگرسیون تخمین‌زده شده، زیر سؤال خواهد رفت.

slide238
از میان تمامی فرضها، این فرض انعطاف‌ناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب باشد.

یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیده‌های مورد نظر شروع می‌شود. بعضی از سؤالات مهم که در تصریح مدل پدید می‌آیند عبارتند از:

  • چه متغیرهائی باید در مدل جای گیرند؟
  • شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغیرها و یا هردو؟
  • فرض‌های احتمالی ارائه شده در مورد، YiوXiو uiهای درون مدل چه می‌باشند؟
slide239
متأسفانه در عمل، شخص به ندرت از متغیرهای صحیحی که باید در مدل منظور شود، شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغیرهای وارد شده در مدل اطلاع دارد.

بنابراین در عمل کارشناس از بعضی قضاوت‌ها در انتخاب تعدادی از متغیرهای واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرض‌ها را در مورد ماهیت تصادفی متغیرهای مشمول در مدل پیش می‌کشد و در انتخاب مدل صحیح برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست.

slide242
خصوصیات تخمین‌زننده‌های حداقل مربعات: قضیۀ گوس- مارکف

یک تخمین‌زن 2را زمانی می‌توان بهترین تخمین‌زن بدون تورش خطی (BLUE) از2دانست که:

  • تخمین‌زن خطی باشد. یعنی تابعی خطی از یک متغیر تصادفی مانند متغیر وابستهYدر مدل رگرسیون باشد.
  • تخمین‌زن بدون تورش باشد
  • تخمين‌زن در بین تمام تخمین‌زننده‌های بدون تورش خطی، حداقل واریانس را داشته باشد (تخمین‌زن بدون تورش با حداقل واریانس به تخمین‌زن کارا معروف است).
the gauss markov theorem are the b est l inear u nbiased e stimators blue
The Gauss-Markov Theorem: are the best linear unbiased estimators (BLUE).
slide244
قضیۀ گوس- مارکف

با توجه به فرض‌های مدل کلاسیک رگرسیون خطی، تخمین‌زننده‌های حداقل مربعات در بین تخمین‌زننده‌های خطی، بدون تورش و دارای حداقل واریانس یعنی BLUE می‌باشند.

r 2 r 2
ضرائب تعیین r2(معیار خوبی برازش) و ضریب همبستگی r2

ضریب همبستگی:

  • r می‌‌تواند مثبت یا منفی باشد.
  • این کمیت بین دو مقدار 1+ و 1- می‌باشد.
  • این کمیت ماهیتاً قرینه می‌باشد یعنی ضریب همبستگی بین x و y یعنی rxyمعادل ضریب همبستگی بین y و x (ryx) است.
  • این کمیت مستقل از مبدأ و مقیاس اندازه‌گیری است.
  • اگر x و y از لحاظ آماری مستقل باشند ضریب همبستگی بین آنها صفر است و r = 0به این معنا نیست که دو متغیر مستقلند (قسمتh شکل صفحه بعد)
  • این کمیت صرفاً معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات غیرخطی قابل استفاده نیست. بنابراین در قسمت hY=X2بیانگر یک ارتباط دقیق است اما میزان r معادل صفر است.
  • هرچندکه r معیار همبستگی خطی بین دو متغیر است ولی همانطور که قبلاً اشاره شد بیانگر هیچ‌گونه رابطۀ علت و معلولی نمی‌باشد.
slide247
ضریب تعیین

در زمینۀ رگرسیون،r2معیار پرمعناتری از r است چراکه r2نسبت تغییرات متغیر وابسته توضیح داده شده به وسیلۀ متغیرهای توضیحی را ارائه می‌دهد درحالیکه r فاقد چنین خصوصیتی است. به علاوه تعبیرr (R=) در یک مدل رگرسیون مرکب زیر سؤال می‌باشد.

slide248
کوشش برای حداکثرکردن R2
  • گاهی محققان سعی در حداکثرکردن R2دارند یعنی انتخاب مدلی که بالاترین R2را بهدست می‌دهد
  • اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک R2بالا بهدست آوریم.
  • بلکه هدف بدست آوردن تخمین‌های قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط آماری دربارۀ آنهاست.
  • در تحلیل‌های تجربی بدست آوردن یک R2بسیار بالا چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب تخمین‌زده شدۀ رگرسیون از لحاظ آماری بی‌معنی بوده یا دارای علامت‌هائی برخلاف انتظارات قبلی هستند.
  • بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغیرهای توضیحی یا متغیر وابسته و معنی‌داری آماری آنها داشته باشد.
  • اگر R2بالا بدست آوریم خوب خواهد بود اما اگر R2پایین باشد این امر به معنی بدی مدل نمی‌باشد.
slide250
توزیع احتمالی اجزاء اخلال ui
  • برای کاربرد روش حداقل مربعات معمولی (OLS) در مدل کلاسیک رگرسیون خطی، هیچ فرضی در مورد توزیع احتمالی جزء اخلال uiارائه نکردیم.
  • تنها فروضی که در مورد uiمدنظر قرار گرفت عبارت بودند از این‌که اجزا مذکور دارای امید صفر، عدم همبستگی و واریانس ثابت هستند.
slide251
اگر هدف ما تنها تخمین پارامترها باشد در این‌صورت روش OLS کافی خواهد بود اما تأکید بر تخمین تنها یکی از جنبه‌های استنتاج آماری است و جنبۀ دیگر آزمون فرضیه می‌باشد.
  • از آنجا که هدفمان هم تخمین پارامترها و هم آزمون فرضیه است، لذا احتیاج به تعیین توزیع احتمالی جزء اخلال uiخواهیم داشت.
slide252
فرض نرمال بودن
  • ميانگین
  • واریانس
  • کوواریانس ui ، uj
slide253
طبق قضیۀ مشهور آماری حدی مرکزی می‌توان نشان داد که اگر با تعداد زیادی از متغیرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم، در اینصورت به استثناء چند حالت خاص، با افزایش تعداد متغیرها به سمت بی‌نهایت توزیع مجموع آنها به سمت توزیع نرمال میل می‌کند.
slide254
خصوصیت تخمین‌زننده‌های OLS تحت فرض نرمال بودن
  • بدون تورش هستند
  • دارای حداقل واریانس هستند
  • سازگاری: یعنی همانطور که حجم نمونه به سمت بینهایت افزایش می‌یابد، تخمین‌زننده‌ها نیز به مقادیر جامعه‌شان نزدیک می‌شوند
  • به طور نرمال توزیع شده است
  • به طور نرمال توزیع شده است
  • عبارتاز توزیع کای‌دو با درجۀ آزادی (N-2) تبعیت می‌کند.
  • و مستقل از توزیع شده‌اند.
  • و در گروه تخمین‌زننده‌های بدون تورش خطی یا غیرخطی دارای حداقل واریانس هستند.

بنابراین می‌توان گفت که تخمین‌زننده‌های حداقل مربعات بهترین تخمین‌زننده‌های بدون تورش (BLUE) هستند.

slide257
فاصلة اطمینان

از آنجائیکه فاصلۀ اطمینان تصادفی است، احتمالهای بدست آمده می‌بایست در معنای درازمدت فهمیده شوند، یعنی نمونه‌گیری تکراری به طور مشخص‌تر به این معنی است که: اگر در نمونه‌گیری تکراری، فواصل اطمینان

براساس احتمالبه تعداد زیاد ساخته شوند آن‌گاه در درازمدت به طور متوسط چنین فواصلی درمورد از تعداد کل موارد، مقدار حقیقی پارامتر را در بر می‌گیرند.

slide258
آزمون فرضیه و انتخاب سطح معنی‌داری

خطای نوع اول: احتمال ردکردن فرضیۀ درست.

خطای نوع دوم: احتمال قبول فرضیۀ نادرست.

براساس هزینۀ هر کدام از خطاهای فوق، محقق اقدام به انتخاب سطح معنی‌داری خواهد نمود.

slide259
نقض فروض مدل کلاسیک
  • مدل کلاسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است:
  • فرض1: میانگین شرطی جزء اخلال جامعهمشروط به مقادیر مفروض متغیرهای توضیحی (xها) صفر است.
  • فرض2: واریانس شرطی uiثابت یا همسان است.
  • فرض3: خودهمبستگی در اجزا اخلال وجود ندارد.
  • فرض4: متغیرهای توضیحی غیرتصادفی‌اند. حتی اگر تصادفی هم باشند، مستقل از اجزا اخلال uiتوزیع شده‌اند.
  • فرض5: بین متغیرهای توضیحی (xها) همخطی مرکب وجود ندارد.
  • فرض6: uiها به طور طبیعی با میانگین و واریانس داده شده در فروض 1 و 2 توزیع شده‌اند.
  • فرض7: مدل رگرسیون به طور صحیح تصریح شده است، یعنی تورش تصریح وجود ندارد.
ols blue
با این فروض دیدیم که تخمین‌زنهای حداقل مربعات معمولی (OLS) ضرائب رگرسیون، بهترین تخمین‌زنهای بدون تورش خطیBLUE می‌باشند.
  • فروض 1، 4 و 6 را به دلایل زیر به طور مفصل مورد بحث قرار نخواهیم داد:
  • فرض1: امید صفر جزء اخلال: اگر این فرض تأمین شود نمی‌توان عرض از مبدأ اصلیرا تخمین زد و چون در بسیاری از حالت‌های کاربردی، جزء عرض از مبدأاهمیت ناچیزی دارد چندان تأثیری نخواهد داشت.
  • فرض4: حالت تصادفی‌بودن متغیرهای توضیحی: اگر xها با وجود تصادفی‌بودن به طور مستقل از uها توزیع شوند آن‌گاه برای تمام مقاصد کاربردی، xها را می‌توان غیراستوکاستیک فرض کرد.
  • فرض6: نرمال بودن u: اگر هدف ما صرفاً تخمین باشد، این فرض ضروری نیست. فرض نرمال بودن به منظور آزمون فرضیه و پیش‌بینی بسیار مهم است.
multicollinearity
یکی از فروض مدل کلاسیک رگرسیون خطی این است که هیچ‌گونه هم‌خطی مرکب بین متغیرهای توضیحی موجود در مدل وجود ندارد.همخطیMulticollinearity

توجه داشته باشید که هم‌خطی تنها ارتباطات خطی بین متغیرهای x را شامل می‌شود

و ارتباطات غیرخطی بین آنها را در بر نمی‌گیرد.

اگر هم‌خطی وجود داشته باشد ضرائب رگرسیونی متغیرهای x نامعین و انحراف معیارشان بی‌نهایت است. (هم‌‌خطی‌کامل) هم‌خطی ویژگی‌های BLUE بودن تخمین‌ها را نقض نمی‌کند.

slide262
نتایج عملی هم‌خطی

الف- بزرگی واریانس و کوواریانسهای تخمین‌زنهای OLS

ب- فواصل اعتماد عریض‌تر: احتمال قبول شدن یک فرضیۀ غلط (مثلاً خطای نوع دوم)

ج- نسبت‌های غیرمعنادار r: مقادیر t کوچک می‌شوند و فرضیۀ صفر به معنای صفر‌بودن پارامترهای جامعۀ واقعی مورد قبول واقع می‌شود.

د- R2بالا اما تعداد اندک نسبت‌های معنادار.

هـ- حساسیت تخمین‌زنهای OLS و خطای معیار آنها نسبت به تغییرات اندک در داده‌ها

slide263
کشف هم‌خطی

الف-

  • در هم‌خطی سؤال از درجه است نه از نوع. تمایز معناداری بین حضور و عدم حضور هم‌خطی وجود ندارد، بلکه تمایز بین درجات گوناگون آن است.
  • از آنجایی که هم‌خطی به شرایط متغیرهای توضیحی برمی‌گردد که فرض شده غیرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه بنابراین ماآزمون برای هم‌خطی صورت نمی‌دهیم، بلکه می‌توان درجه‌اش را در نمونۀ مشخص اندازه‌گیری نمود.

ب-

1. R2بالا اما تعداد کم نسبتهای t معنی‌دار

2. همبستگی شدید بین دوبدو متغیرهای توضیحی

3. امتحان ضرائب جزئی

4. رگرسیونهای معین

5. ریشۀ مشخصه (Eigenvalue) و شاخص وضعیت (Condition Index)

در برنامۀ SAS از ریشۀ مشخصه و شاخص وضعیت برای تشخیص هم‌خطی استفاده می‌کنند.

slide264
رفع مشکل هم‌خطی:

قاعدۀ محکم و دقیقی جهت چاره‌جوئی مشکل وجود ندارد، چراکه هم‌خطی الزاماً یک مشکل نمونه‌ای است.

  • اطلاعات قبلی (تئوریکی)
  • ترکیب کردن داده‌های مقطعی و سری‌های زمانی (داده‌های مرکب)
  • حذف متغیرها و تورش تصریح
  • تبدیل متغیرها
  • داده‌های جدید یا اضافی (افزایش حجم نمونه)
slide265
ناهمسانی واریانس Heteroscedasticity یکی از مهمترین فروض مدل رگرسیون خطی کلاسیک این است که اجزاء اخلال uiکه بر تابع رگرسیون جامعه ظاهر می‌شوند، دارای واریانس همسان هستند.

با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پس‌انداز) افزایش می‌یابد.

«ناهمسانی واریانس»

slide266
نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس
  • اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمین‌زن هنوز BLUE هست اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نیز نمی‌باشد در این حالت از روش تخمین معروف به حداقل مربعات تعمیم‌یافته (GLS) استفاده می‌نمائیم.
  • فاصلۀ اطمینان براساس بیش از حد لازم بزرگ خواهد شد و در نتیجه آزمون‌های t و F احتمالاً نتیج غلطی به ما خواهند داد.
slide267
کشف ناهمسانی واریانس
  • روش ترسیمی: ابتدا رگرسیون را براساس فرض عدم ناهمسانی تحلیل کرده و سپس مجذور باقیمانده‌های تخمین‌زده شده ei2را مورد بررسی قرار داد تا ببینیم چه الگوی سیستماتیک و منظمی را نشان می‌دهند.
  • واریانس جزء اخلال به طور خطی یا متغیر x مربوط است.

2. آزمون پارک: پارک روش گرافیکی را در قالب فرمول بیان داشته است.

3. آزمون گلدفلد- کوانت

4. آزمون گلچس

5. آزمون بروج پاگانت

6. آزمون وایت

slide268
خودهمبستگی
  • یکی از فروض مهم مدل کلاسیک این است که خودهمبستگی سریالی بین اجزاء اخلالی که در تابع رگرسیون جامعه وارد می‌شود وجود ندارد.
  • ماهیت خودهمبستگی: همبستگی بین اعضای سری‌های مشاهداتی است که در زمان (سریهای زمانی) یا مکان (داده‌های مقطعی) ردیف شده‌اند.

اگر محصول در یک فصل کم باشد دلیلی بر کم بودن محصول در فصل دیگر نمی‌باشد

(عدم خودهمبستگی)

slide269
تخمین OLS در حالت وجود خودهمبستگی
  • در حالت خودهمبستگی تخمین‌زن GLS خصوصیت BLUE داشته و تخمین‌زن OLS چنین خصوصیتی ندارد. تخمین‌زن OLS از اطلاعات موجود بیشترین استفاده را می‌کند.
  • درحالت وجود خودهمبستگی نیز همانند حالت ناهمسانی، تخمین‌زنهای OLS خطی و بدون تورش و لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را ندارند)
  • فواصل اعتماد بزرگتر از حالت معمول خواهد بود (OLS نسبت به GLS)
slide270
تخمین OLS بدون در نظر گرفتن خودهمبستگی
  • احتمالاً واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد تخمین می‌زند.
  • در نتیجه R2 بیش از حد تخمین زده می‌شود.
  • آزمونهای معنی‌داری t و F معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار غلطی در مورد معنی‌داری آماری ضرایب تخمین‌زده شدۀ رگرسیون به‌دست خواهیم آورد.
slide271
فروض زیربنایی آزمون D.W1.مدل رگرسیون دارای جزء عرض از مبدأ است2. متغیرهای توضیحی غیرتصادفی هستند3. اجزاء اخلال به وسیلۀ الگوی خود رگرسیونی مرتبۀ اولحاصل می‌شوند.4. مدل رگرسیون شامل مقادیر با وقفه‌ای از متغیر وابسته به عنوان یکی از متغیرهای توضیحی نیست.5. هیچ مشاهدۀ مفقوده‌ای در داده‌ها وجود ندارد.

کشف خودهمبستگی:

  • -روش ترسیمی
  • -آزمون تسلسل
  • -آزمون دوربین واتسون : مشهورترین آزمون تشخیص همبستگی سریالی است DW
slide272
تصریح مدل
  • یکی از فروض کلاسیک، تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای تصریح در مدل وجود ندارد. این موضوع بسیار گسترده و پیچیده می‌باشد و بسیاری از مباحث آن بالاتر از سطح مفروض ما می‌باشد.
  • این قسمت دربرگیرندة مسائل زیر است:
    • مدل خوب یا صحیح متضمن چه خصوصیاتی است؟
    • فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن آمار و ارقام، سهل‌انگاری، ملاحظات هزینه‌ای یا سستی، مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل صحیح مرتکب خطای تصریح شده‌ایم. حال سؤال این است که در عمل وقوع چه نوعی از شکل‌های مختلف خطاهای تصریح وجود دارد؟
    • نتایج انواع مختلف خطای تصریح کدامند؟
    • طرق کشف این نوع خطاها کدامند؟
    • اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟
    • در 5 مورد بالا فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکلات عارض شده در اثر کاربرد مدل دیگری بودیم اما اگر اصلا ندانیم که کدام مدل صحیح است دچار خطای تعیین غلط مدل می شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است.
slide273
خصوصیات یک مدل خوب
  • قلت منطقی متغیرهای توضیحی: یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی از تغییرات را به وسیلة تعداد کمی از متغیرها بتوان توضیح داد.
  • قابلیت تشخیص: برای مجموعه داده های معین، پارامترهای تخمین زده شده باید مقادیر منحصر بفردی را به دست دهند به عبارت دیگر تنها یک تخمین برای هر پارامتر مشخص به دست آید.
  • خوبی برازش:
  • سازگاری با تئوری
  • قدرت تعمیم دهی و پیشنگری: تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی آن با تجارب است.
slide274
انواع خطای تصریح
  • حذف یک متغیر مهم
  • واردکردن متغیر غیرلازم
  • درنظر گرفتن یک شکل تبعی غلط
  • خطای در اندازه گیری
slide275
نتایج خطای تصریح
  • حذف یک متغیر مهم:
    • ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار، ناسازگار)
    • واریانس جزء اخلال اشتباه تخمین زده می شود.
    • نهایتاً فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری پارامترهای تخمین زده شده به دست می دهند.
  • لحاظ کردن یک متغیر نامربوط
    • تخمینها ناتور و ناسازگارند
    • واریانس خطا درست برآورد می شود.
    • آزمون فرضیه و فاصلة اعتماد معتبر می باشند.
    • به طور کلی ضرایب برآوردشده غیرکارا هستند یعنی واریانس آنها عموماً بزرگتر از واریانسهای ضرایب حقیقی می باشند. (دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل همخطی را نیز زیاد می کند) (درجة آزادی را کم می کند)
slide276
آزمونهای کشف خطای تصریح
  • کشف وجود متغیرهای غیرلازم
    • آزمون معنادار بودن ضریب متغیر اضافه (آزمون F)
  • آزمونهای راجع به متغیرهای حذف شده و شکل تبعی غلط
    • استفاده از باقیمانده ها (ملاحظة گرافیک این باقیمانده ها)
    • آزمون Reset رمزی
    • آزمون نسبت راستنمایی
    • آزمون والد
    • آزمون ضریب لاگرانژ
    • آزمون هاسمن
slide278
رگرسیون بر روی متغیرهای موهومی
  • در بسیاری از تحلیل‌های رگرسیونی، متغیر وابسته نه تنها تحت‌تأثیر متغیرهای کمی (مثل تولید، میزان کود مصرفی،...) با مقیاس‌های متداول است، بلکه از متغیرهای ماهیتاً کیفی (جنس، نژاد، ...) نیز تبعیت می‌کند.
  • نظر به اینکه متغیرهای کیفی عموماً دلالت بر وجود یا عدم وجود کیفیت یا صفتی دارند، لذا یک روش برای کمی کردن این صفات،‌درنظر گرفتن متغیرهای ساختگی با قبول دو مقدار ضفر و یک می‌باشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن می‌باشد. به این ترتیب متغیرهایی که این مقادیر صفر و یک را اختیار می‌کنند، متغیرهای موهومی (Dummy Variable) نام دارند.
  • اسامی دیگر این متغیرها عبارتند از متغیرهای دلالت‌کننده بر یک صفت، متغیرهای دوتایی، متغیرهای طبقه‌ای، متغیرهای کیفی، متغیرهای منقسم به دو، متغیرهای مجازی.
slide279
متغیرهای موهومی به همان سادگی متغیرهای کمی در تحلیل رگرسیونی به کار می‌روند.
  • اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغیرهای توضیحی موهومی یا کیفی بیان شده باشند، آن را مدل آنالیز واریانس می‌نامند.
  • در بیشتر تحقیقات اقتصادی، معمولاً یک مدل رگرسیون شامل چندین متغیر توضیحی می‌باشد که تعدادی از آنها کمی و بقیه کیفی می‌باشند، این گونه مدل‌های رگرسیونی که شامل دو نوع متغیرهای کمی و کیفی هستند را مدل‌های آنالیز کوواریانس (ACOV) می‌نامند.

قاعدة‌کلی برای تعداد متغیرهای موهومی: چنانچه متغیر کیفی موردنظر دارای m طبقه باشد، آنگاه بایستی فقط به تعداد m-1 متغیر موهومی در مدل منظور شود در غیر اینصورت در دام متغیر موهومی گرفتار خواهیم شد (همان حالت ایجاد همخطی کامل بین متغیرهای موهومی)

slide280
رگرسیون بر روی یک متغیر کمی و یک متغیر کیفی با بیش از دو طبقه

پيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي

(کد مقاله653)

احسان مصدری[1] ، محمد حسین عدالت[2] ، محمد جواد خلیلی[3] ، حمید طاهرپور کلانتری[4]

مجموعه مقالات پنجمین کنگرة ملی مهندسی ماشین‌‌های کشاوزی و مکانیزاسیون

slide281
مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر متغيرهاي کيفي را بر روي متغير وابسته سنجيد. اين مدل ها مي توانند فقط از متغيرهاي موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانسمي نامند و يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز کوواريانس مي نامند.
  • در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک تبديل کرد. براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است.
  • که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي است که در پي تخمين زدن هستيم. اين مدل با استفاده از روش OLS به راحتي قابل تخمين است .اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود.
  • متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه،واريته گندم،مدل کمباين، نوع کشت، عملکرد، عمر کمباين، تاريخ برداشت و ساعت برداشت مي‌باشد. متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش طبيعي محصول مي‌باشد.
slide282
متغير منطقه داراي چهار حالت مشهد، تربت جام، خواف و تايباد مي باشد که از اين ميان منطقه مشهد به عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي Torbatjam،Khaf و Taybadوارد الگو مي شود. در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد، اگر متغير Torbatjam برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير Khaf برابر يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و در نهايت اگر متغير Taybad برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود.
  • به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک، نشان دهنده برداشت در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد. براي هر مشاهده حداکثر يک متغير برابر با يک مي شود و ساير مناطق صفر است. همانطور که قبلا گفته شد اگر مقدار هر سه متغير صفر باشد نشان دهنده شهرستان پايه يعني مشهد است.
slide283
به همين ترتيب براي واريته گندم که شامل چهار رقم فلات، روشن، سرداري و گاسكوژن است، واريته فلات به عنوان واريته پايه انتخاب شده و ارقام روشن، سرداري و گاسکوژن به وسيله متغيرهاي کيفي Roshan ، Sardary و Gaskojen وارد الگو شده است. مدل هاي کمباين شامل جاندير و سهند S68 است که به وسيله يک متغير کيفي با نام Model وارد الگو شده است. مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار صفر نشان دهنده کمباين S68 است. نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير Abideym مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است.
  • به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه، واريته گندم، نوع کشت و مدل کمباين وارد الگو مي‌شوند، ساير متغيرها شامل عمر کمباين، تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي Omr ، Tarikh ، Saat معرفي مي‌شوند.
  • متغير Omr برحسب سال، متغير Tarikh برحسب شماره روز از ابتداي سال 84 و متغير Saat برحسب فاصله زماني از ساعت 12 شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است.

معني‌داري کلي رگرسيوني با استفاده از آزمون F و معني داري ضرايب با استفاده از آزمون tبررسي مي‌شود.

slide284
رگرسیون بر روی متغیر وابستة موهومی
  • در مدل‌های رگرسیونی دارای متغیر موهومی، این فرض ضمنی وجود داشت که متغیرهای توضیحی می‌توانند کمی، کیفی یا ترکیبی از آن دو باشند. در حالیکه متغیر به هر حال بایستی قابل اندازه‌گیری کمی باشد.
  • در این قسمت مدل‌های رگرسیونی مورد نظر قرار می‌گیرند که در آنها متغیر وابسته یا تابع، خود ماهیتاً بیانگر دو گروه است که هر یک مقادیر 0 و 1 را اختیار می‌کنند.
slide285
عموماًًًًً برای تخمین این مدل‌ها سه روش وجود دارد:
  • مدل احتمال خطیlinear probability model (LPM)
  • مدل لاجیت (Logit)
  • مدل پروبیت (Probit)
slide287
بسیاری از روابط آماری به وسیلة مدل‌های تک معادله‌ای قابل تبیین هستند. در این مدل‌ها یک متغیر (متغیر وابسته) به عنوان تابعی خطی از یک یا چند متغیر دیگر (متغیرهای توضیحی) درنظر گرفته می‌شوند. به این ترتیب به طور ضمنی فرض بر این است که رابطة علْی (درصورت وجود بین دو متغیر x و y یکطرفه می‌باشد یعنی متغیرهای توضیحی حکم علت و متغیر وابسته حکم معلول را دارا می‌باشد.
  • اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بین متغیرها مواجهیم یعنی یک متغیر در عین تأثیرگذاری بر متغیر(های) دیگر، از آن (آنها) نیز تأثیر می‌پذیرد. بدیهی است در این حالت، تحلیل رگرسیونی قبل (OLS) برای مطالعة چنین وضعی مناسب نخواهد بود چرا که دو متغیر متقابلاً بهم وابسته‌اند. به عبارت دیگر در این حالت به دو معادله احتیاج خواهیم داشت و همین ضرورت است که ما را متوجه مبحث معادلات همزمان می‌کند.
slide288
اگر در این حالت از سایر معادلات در سیستم چشم‌پوشی نماییم و پارامترهای هر معادله را به وسیلة روشی مانند حداقل مربعات معمولی تخمین بزنیم، این تخمین‌ها نه تنها تورشدار بلکه ناسازگار نیز خواهند بود چون یکی از فروض قاطع روش OLS ، داشتن توزیع مستقل متغیرهای توضیحی از جزء اخلال استوکاستیک است که در معادلات همزمان نقض می‌شود.
  • در این حالت از روش‌های زیر استفاده می‌شود:
    • روش حداقل مربعات دو مرحله (2SLS)
    • روش حداقل مربعات سه‌مرحله‌ای (3SLS)
    • روش حداقل مربعات سه مرحله‌ای تکراری (I3SLS)
    • روش حداکثر راستنمایی
      • روش حداکثر راستنمایی با اطلاعات محدود (LIML)
      • روش سیستمی حداکثر راستنمایی با اطلاعات کامل (FIML)
slide289

تحلیل مسیر

در حوزة مطالعات اجتماعي و اقتصادي، روشهاي تحليل چندمتغيرة زيادي وجود دارند كه به بررسي اثرات و روابط بين متغيرهاي مورد مطالعه مي‌پردازند.

اين روشها عمدتاًًاثرات مستقيم يك متغير بر متغير ديگر را مورد بررسي قرار مي‌دهد.

اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه علاوه بر بررسي اثرات مستقيم متغيرهاي مستقل بر متغير وابسته، اثرات غيرمستقيم اين متغيرها را نيز مدنظر قرار مي‌دهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل وارد مي‌كند و با بيان منطقي، روابط و همبستگي مشاهده‌شدة بين آنها را تفسير مي‌كند.

slide290
خاستگاه تحلیل مسیر
  • توسط Sewell Wright توسعه یافت.

Formulated in series of papers published in 1918, 1921, 1934, 1960

  • برای استخراج اثرات مستقیم و غیرمستقیم در بین متغیرها ایجاد شد.
  • تحلیل مسیر با ارتباطات تبعی در بین متغیرها سرو کار دارد.
slide291
اصل اساسی موردنظر در تحلیل مسیر این است که هر ضریب همبستگی بین دو متغیر را می‌توان به مجموعه‌ای از مسیرها تجزیه کرد.
  • استفاده از تکنیک تحلیل مسیر مستلزم قبول پیش‌فرضی است مبنی بر اینکه روابط بین متغیرهایی که حداقل در مقیاس شبه‌فاصله‌ای هستند به طور خطی با افزایش متغیرها اضافه می‌گردد. هر متغیر وابسته بر اساس اثرات متغیرهای قبلی در دیاگرام مسیر و متغیر باقیمانده مورد تحلیل و تبیین قرار می‌گیرد.
slide292
تجزیة همبستگی
  • همبستگی = اثرات مستقیم + اثرات غیرمستقیم
slide293
براي ساختن يك مدل در بحث تحليل مسير، ده شرط مطرح شده است كه به كمك آنها، امكان تجزيه و تحليل علّي فراهم مي‌گردد. درده شرط موردبحث، هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه و تحليل و استنتاج علّي فراهم مي‌سازد:
  • بيان رسمي تئوري در قالب مدل ساختاري
  • وجود منطق تئوريكي براي فرضيه‌هاي علّي
  • معين‌نمودن نظم علّي
  • مشخص‌نمودن جهت روابط علّي
  • نوشتن معادلات توابع
  • مشخص‌نمودن مرزهاي مدل
  • ثبات مدل ساختاري
  • عملياتي‌كردن متغيرها
  • تأييدتجربي معادلات كاركردي
  • برازش مدل ساختاري با داده‌هاي تجربي
slide294
درتحليل مسيري به منظور بررسي روابط علت و معلولي بين متغيرها لازم است براي عيني شدن آنها و جلوگيري ازبروز اشتباهات، ازنمودارهاي مسيري استفاده‌نمودكه اين كار را مي‌توان طي مراحل زيرنشان داد:

الف- تعيين متغيرها:پيش از هرچيز بايد هريك از متغيرهاي مورد بررسي به لحاظ نقشي كه در سيستم ايفا مي‌نمايند، مشخص شده باشند. ازاين نظر دو نوع متغير وجوددارد:

متغيربرونزا: به متغيرهايي از مجموعة متغيرهاي مورد بررسي اطلاق مي‌گردد كه تحت‌تأثير ساير متغيرها قرار نداشته باشند.

متغيرهاي‌درونزا: به متغيرهايي ازمجموعه متغيرهاي موردبررسي اطلاق مي‌گردد كه تحت‌تأثير يك يا چند متغير ديگر قرارداشته باشند.

slide295
انواع مدل‌های مسیری

در تحليل مسيري با دو نوع مدل سروكار داريم (آذر، 1380):

1- مدلهاي بازگشتي: به مدلهايي گفته مي‌شود كه در بين هيچ يك از متغيرهاي مورد بررسي، رابطة دوطرفه يا متقابل وجود نداشته باشد.

2- مدلهاي‌غيربازگشتي:يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه باشد.

slide298
معنی مدل‌های مسیری
  • فرض بر این است که مدل‌های مسیری نشاندهندة فرضیه‌های علّی می‌باشند.
  • یک مدل مسیری معنی‌دار به معنی علیت نمی‌باشد.
    • بلکه با استفاده از داده‌های تجربی از یک مدل برای آزمون علیت استفاده نمود.
slide299
اثرات غیرمستقیم و مستقیم
  • دو راهی که یک متغیر پیش‌بینی‌کننده ممکن است بر یک منغیر واکنش تأثیر بگذارد.
  • اول یک اثر مستقیم متغیر x بر روی متغیر y

x1 y

  • دوم یک اثر غیرمستقیم متغیر x بر روی y از طریق یک متغیر پیش‌بینی‌کنندة دیگر.
slide303
بنابر آنچه گفته شد، پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بین متغیرهاست این مدل از چپ به راست حرکت می‌کند تا از حجیت علی متغیرهائی را که به چپ نزدیک‌تر هستند را منعکس سازد، هر معرف نماد یک مسیر علی و بنابراین یک ضریب مسیر است که باید محاسبه شود.
  • بر پایه این مدل ملاحظه می‌کنیم که:
    • سن بر رضایت شغلی هم اثر مستقیم (P1) و هم اثر غیرمستقیم دارد.
    • سن به گونه مستقیم بر درآمد اثر می‌گذارد (P5) که به نوبه خود در رضایت اثر دارد (P6) و بر خودفرمانی نیز اثر می‌گذارد (P2) که خود بر درآمد اثر مستقیم دارد (P4) و به نوبه خود رضایت را زیر نفوذ قرار می‌دهد (P6).
    • علاوه بر این، خودفرمانی نیز بر رضایت شغلی هم اثر مستقیم (P3)، هم از طریق تأثیر بر درآمد (P4) بر آن اثر غیرمستقیم دارد (P6)
    • سرانجام، درآمد بر رضایت اثر مستقیم دارد (P6) اما بر آن اثر غیرمستقیم ندارد.
slide304
مشاهده می‌شود که درآمد، خودفرمانی و رضایت شغلی دارای پیکانهای دیگری‌اند که مبدأ آنها خارج از حیطه آن متغیرهاست که مستقیم به آنها وصل شده‌اند
  • این پیکانها معرف واریانس تبیین نشده برای هر متغیر می‌باشند
  • بنابراین پیکان e1 به خودفرمانی (P7) بیانگر مقدار واریانس خودفرمانی است که از سوی سن، تبیین نمی‌شود.
  • پیکان e2 به رضایت شغلی (P8) معرف مقداری از خطای ناشی از رضایت شغلی است که از سوی سن، خودفرمانی و درآمد توجیه نمی‌شود.
  • سرانجام پیکان e3 به درآمد (P9) معرف مقداری از واریانس درآمد است که از سوی سن و خودفرمانی تبیین نشده است.
  • این سه جملۀ خطا نشاندهندۀ این واقعیت است که متغیرهای دیگری وجود دارند که بر خودفرمانی و درآمد و رضایت شغلی اثر دارند اما در این نمودار مسیر گنجانده نشده است.
slide305
تحلیل مسیر اساساً با برآورد مقدار اتصالات بین متغیرها و کاربرد این برآوردها به منظور بدست آوردن اطلاعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد،
  • هرچند این برآوردها را می‌توان از طریق روشهای گوناگونی بدست آورد اما ساده‌ترین راه برای محاسبۀ آنها، کاربرد روش رگرسیون معمولی است
  • مشروط بر آن که مفروضه‌های رگرسیون به‌ویژه این مفروضه که متغیر پس‌ماند در معادلۀ ساختاری با متغیرهای تبیین‌کننده در آن معادله ناهمبسته است برقرار باشد
  • برای بدست‌آوردن برآوردهای ضرائب اصلی مسیر کافی است هر متغیر وابسته (درونزا) به متغیرهائی که مستقیماً تحت تأثیر آن است بازگشت داده شود. به بیان دیگر برای برآوردهای هر یک از مسیرهای مشخص شده، ضرائب استانداردشده رگرسیون (یاضرائب مسیر) محاسبه می‌شود. این ضرائب از طریق برقراری معادله‌های ساختاری یعنی معادله‌هائی که ساختار روابط مفروض در یک مدل را مشخص می‌سازد به دست می‌آیند.
slide306
بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.
  • e1 + (سن) x1 = خودفرمانی
  • e2 + (درآمد) x3 + (خودفرمانی) x2+(سن) x1 = رضایت شغلی
  • e3 + (خودفرمانی) x2+(سن) x1 = درآمد
slide307
بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.
  • e1 + (سن) x1 = خودفرمانی
  • e2 + (درآمد) x3 + (خودفرمانی) x2+(سن) x1 = رضایت شغلی
  • e3 + (خودفرمانی) x2+(سن) x1 = درآمد

ضریب استاندارد برای سن در معادله (1) مقدار 2P: ضرائب سن، خودفرمانی و درآمد در معادله (2) به ترتیب مقادیر 1P ، 2P و 3P؛ و سرانجام ضرائب سن و خودفرمانی در معادله (3) به ترتیب مقادیر 5P و 4P را به دست میدهد. بنابراین به منظور محاسبه ضرایب مسیر، ضرورت دارد سه معادله را به عنوان معادله‌های رگرسیون چندمتغیری در نظر بگیریم و ضرائب حاصل از آنها ضرائب مسیر را به‌دست می‌دهد.

slide308
. از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوممحاسبه می‌شود.
  • باید توجه داشت که چون به منظور تکمیل مسیرها لازم است همه ضرائب مسیر محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود.
slide311
چون ضرایب مسیر ضرایب استاندارد هستند، این امکان وجود دارد که آنها را به گونة مستقیم با هم مقایسه کنیم. می‌توان دید که سن اثر مستقیم اما بسیار کوچک و منفی در رضایت شغلی دارد در حالیکه اثر غیرمستقیم آن مثبت و قابل توجه است.
slide312
بسیاری از پژوهشگران مایلند اثر کلی یک متغیر را بر متغیر دیگر محاسبه کنند برای مثال اثر کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (08/0 -) با مجموع آثار غیرمستقیم آن به دست می‌آيد. آثار غیرمستقیم از طریق حاصلضرب ضرائب هر مسیر سن به رضایت شغلی به طریق زیر محاسبه می‌شود:
  • برای مسیرهای سن به درآمد به رضایت شغلی 27/0 = (47/0 ×57/0)
  • برای مسیرهای سن به خودفرمانی به رضایت شغلی 16/0 = (58/0 × 28/0)
  • برای مسیرهای سن به خودفرمانی به درآمد به رضایت شعلی 03/0 = (47/0 ×22/0 × 28/0)
  • بنابراین جمع آثار عیرمستقیم سن بر رضایت شغلی 46/0 = 03/0 + 16/0 + 27/0 می‌باشد.
  • و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غیرمستقیم آن جمع کنیم که حاصل آن برابر با 38/0 = 46/0 + 08/0 – خواهد بود.
  • این تمرین نشان داد که اثر غیرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن نزدیک به صفر و اثر غیرمستقیم آن مثبت است.
slide314
برخی اوقات، جهت علی بین همه متغیرها را در نمودار مسیر نمی‌توان تعیین کرد. برای مثال، چنان که در شکل مشاهده می‌شود خودفرمانی و ماهیت کار همبسته‌اند، یعنی بین آنها ارجحیت علی یکی بر دیگری وجود ندارد، و اتصال بین آنها به وسیله یک پیکان دوسره نشان داده شده است. هر متغیر دارای یک اثر مستقیم (P5و P4)، و یک اثر غیرمستقیم بر غیبت از طریق رضایت شغلی است: خودفرمانی به رضایت (P1)
  • و رضایت به غیبت (P3)؛ ماهیت کار به رضایت (P2) و رضایت به غیبت (P3). به منظور محاسبه ضرایب لازم، نیاز به ضریب r‌ پیرسون برای خودفرمانی و ماهیت کار و نیز نیاز به ضرایب استانداردشده دو معادله زیر داریم:

e1 + (ماهیت کار) x2 +(خودفرمانی) x1 + a= رضایت

e2 + (رضایت) x3 + (ماهیت کار) x2 +(خودفرمانی) x1 = غیبت

slide315
پس از آن می‌توانیم کل آثار علی را هم برای متغیرهای خودفرمانی و ماهیت کار، و هم برای رضایت محاسبه و با هم مقایسه کنیم. اثر کلی می­تواند از جمع اثر مستقیم با کل آثار غیرمستقیم تشکیل شود. اثر کلی این سه متغیر بر غیبت عبارت است از:
  • (p3)(p1) + (p5) = اثر کلی خودفرمانی
  • (p3)(p2) + (p4) = اثر کلی ماهیت کار
  • p3= اثر کلی رضایت شغلی
slide317
تفسیر ارتباطات
    • X1بازگشتی و علی وابسته به x4 می‌باشد
    • X1 ممکن است به طور غیرمستقیم از طریق x4 به 4 وابسته باشد
    • X4 ممکن است به طور غیرمستقیم از طریق x1 به 1 وابسته باشد
    • 1ممکن است به 4 وابسته باشد.
  • اگر این وضعیت وجود داشته باشد ...
    • فروض OLS نقض می‌شوند. در رگرسیون به روش OLS فرض بر ایت است که ارتباطات یکطرفه بوده و جملات خطا از یکدیگر مستقل می‌باشند.
slide319

تحلیل عاملی

Factor Analysis

slide321
تعریف ماتریس همبستگی
  • ماتریس همبستگی مجموعه‌ای از ضرایب همبستگی بین تعدادی از متغیرها است:
    • فرض بر این است که هر متغیر با خودش همبستگی کامل دارد(عناصری که در قطرهای ماتریس همبستگی قرار می‌گیرند در فهم و تفسیر تحلیل‌های عاملی مهم هستند).
    • زواید زیادی در ماتریس وجود دارد، بدین معنا که هر ضریب دوبار در ماتریس ظاهر می‌شود.
    • تحلیل عاملی برای ساده‌کردن چنین ماتریس‌هایی طراحی شده است
    • در یک ماتریس بزرگ از همبستگی‌ها، منطقی است بپرسیم که چه چیزی ممکن است این همبستگی‌ها را تبیین کند.
slide322
تعریف عامل: اساساً عامل، بعد یا سازه‌ای است که روابط بین مجموعه‌ای متغیرها را به صورت خلاصه مطرح می‌کند بنا به عقیدة رویس (1963)، عامل، سازه‌ای است که عملاً از روی (یا بوسیلة) بارهای عاملی‌اش تعریف می‌شود.
  • تعریف بارهای عاملی: همبستگی یک متغیر با یک عامل را بار عاملی گویند. فرض کنید کجموعه‌ای از آزمون‌های توانایی و پیشرفت تحصیلی را تحلیل عاملی کرده‌ایم. این مثال، سه عامل را در یک نوع تحلیل عاملی از تواناییها نشان می‌دهد. عاملهای دیگری نیز ممکن است وجود داشته باشد اما اینها ماهیت عوامل و بارهای عاملی را بهتر توضیح می‌دهند.
slide323
فایده تحلیل عاملی
  • به رغم اینکه می‌دانیم تحلیل عاملی برای خلاصه‌کردن ماتریس‌های همبستگی به کار برده می‌شود، هنوز یک سؤال مهم باقی است و آن این است که با تحلیل عاملی چه کارهایی را می‌توان انجام داد و این فن چگونه می‌تواند سودمند واقع گردد؟
  • برای پاسخ به این پرسش، باید به این نکته توجه کرد که هنگام کاربرد این روش باید بین تحلیل اکتشافی (exploratory) و تأییدی (confirmatory) تمایز قائل شد.
slide324
تحلیل عاملی اکتشافی: یک مثال
  • هدف از تحلیل عاملی اکتشافی، بررسی یک حوزه (field) برای کشف ابعاد یا سازه‌های اصلی آن حوزه است. به همین علت بود که اسپیرمن (1904) تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد. او سعی کرد به این سؤال که چرا بین تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد. (در تحلیل عاملی توانایی‌ها، این موضوع صورتبندی مثبت نامیده می‌شود بدین معنا که تمام همبستگی‌های ماتریس همبستگی، مثبت است).
  • به طور کلی در تحلیل عاملی اکتشافی، قاعده بر این است که محققان تا حدامکان متغیرهای بسیاری را وارد تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند
slide325
تحلیل عاملی تأییدی
  • در ابتدا تحلیل عاملی صرفاً یک روش آماری اکتشافی بود اما اخیراً این امکان بوجود آمده که با استفاده از تحلیل عاملی، فرض‌آزمایی کرد. این روش که بوسیلة یورس کوگ (1973) ابداع شده، تحلیل تأییدی نامیده می‌شود.
slide326
اشکالات وارده بر تحلیل عاملی
  • ایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاضی معادل وجود دارد.
  • تحلیل‌گران عاملی غالباً در تعیین مهمترین علامت‌های یک حوزه با هم اختلاف دارند.
  • تکرار تحلیل‌های عاملی دشوار است.
slide327
انجام تحلیل عاملی
  • يكي از آماره‌هايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسب‌بودن داده‌ها براي تحليل عاملي مي‌باشد، آزمون KMO مي‌باشد كه مقدار آن همواره بين 0 و 1 درنوسان است. درصورتيكه مقدار KMOكمتر از 5/0 باشد، داده‌ها براي تحليل عاملي مناسب نخواهند بود. اگرمقدار آن بين 5/0 تا 69/0 باشد، مي‌توان با احتياط بيشتري به تحليل عاملي پرداخت. اما درصورتيكه مقدار آن بزرگتر از 7/0 باشد، همبستگي‌هاي موجود در بين داده‌ها براي تحليل‌عاملي مناسب خواهند بود.
  • Kaiser-Meyer-Olkin
slide328
دررابطه با حجم نمونه نيز بايدتأكيد كرد كه تعداد نمونه نبايد كمتر از 50 مورد باشد و ترجيحاً حجم نمونه را بايد به بيش از 100 مورد افزايش داد. اولين تصميم در بكارگيري تحليل عاملي، محاسبة ماتريس همبستگي است. براي اينكار بايد مشخص شود كه آيا هدف، محاسبة همبستگي بين متغيرهاست يا بين پاسخگويان، اگر هدف مطالعه، تلخيص متغيرها باشد. در اين صورت بايد همبستگي بين متغيرها محاسبه شود. اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات مي‌باشد كه به تحليل عاملي نوع R معروف است.
slide329
در تحليل عاملي مدلهاي مختلفي وجود دارد
  • كه از ميان آنها دو روش
    • تحليل مؤلفه‌هاي اصلي
    • و تحليل عاملي مشترك
  • از پركاربردترين اين روشهاست.
  • مدل تحليل مؤلفه‌هاي اصلي زماني مورد استفاده قرار مي‌گيرد؛ كه هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل براي اهداف پيش‌بيني باشد.
ad