نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03

نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03

نام درس: مباحث ويژه در پايگاه داده ها نام منبع : جزوه درسي دانشگاه پيام نورنام مولف : دکتر احمد فراهيانتشارات : دانشگاه پيام نورتعداد واحد : 3رشته : مهندسي کامپيوتر گرايش نرم افزار مقطع : کارشناسي ارشدنام استاد محتوا : دکتر احمد فراهيشماره مهارت/ تعداد کل مهارت : 11/03تاريخ توليد : 1390/11/07

اهدافمهارت : آشنايي با تکنيک ها، روشها، الگوريتم ها و فنون هاي مرتبط با داده کاوي نام مهارت : روشها و الگوريتم های داده کاوی • زير مهارت 1: تکنيک های روش پيشگويی • زير مهارت 2: تکنيک های روش توصيفی • زير مهارت 3: الگوريتم های خوشه بندی • زير مهارت 4: الگوريتم Apriori • زير مهارت 5: الگوريتم K-Means

اهداف مهارت فنون داده کاوي، گروه نامتجانسي از علوم مختلف را شکل مي‌دهند هر تکنيکي که بتواند بينش جديدي از داده‌ها را استخراج کند مي‌تواند داده کاوي به حساب آيد. به طور خلاصه، داده کاوي پل ارتباطي ميان علم آمار،علم کامپيوتر،هوش مصنوعي، الگو شناسي، يادگيري ماشين و بازنمايي بصري داده مي‌باشد. مي‌توان گفت در داده کاوي، تئوري‌هاي پايگاه داده‌ها، هوش مصنوعي، يادگيري ماشين و علم آمار را در هم مي‌آميزند تا زمينه کاربردي فراهم شود.

زير مهارت 1 : تکنيک های روش پيشگويیروش‌هاي اصلي داده کاوي به دو دسته کلي تقسيم مي‌شوند: توصيفي و پيشگويي. اين دو گروه، بيانگر اهداف و عملکرد روش‌هاي داده کاوي نيز هستند.

زير مهارت 1 : تکنيک های روش پيشگويی دسته بندی دسته بندي يا طبقه بندي در واقع ارزشيابي ويژگي‌هاي مجموعه‌اي از داده‌ها و سپس اختصاص دادن آن‌ها به مجموعه‌اي از گروه‌هاي از پيش تعريف شده است. اين متداول‌ترين قابليت داده كاوي مي‌باشد. در دسته بندي، به دنبال مدلي هستيم که با تشخيص دسته‌ها مي‌تواند دسته ناشناخته اشياء ديگر را پيش بيني کند. دسته بندي جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار مي‌گيرد.دسته بندي نوعي يادگيري است که به کمک نمونه‌ها صورت مي‌گيرد و طبقه بندي بر اساس مجموعه‌هاي از پيش تعريف شده انجام مي‌شود لذا مي‌توان گفت دسته بندي يادگيري با نظارت (هدايت شده) است. دسته بندي فرآيندي دو مرحله‌اي مي‌باشد. در گام اول، يک مدل بر اساس مجموعه داده‌هاي آموزشي موجود در پايگاه داده‌ها ساخته مي‌شود. اين مدل‌ها به فرم‌هايي از درخت تصميم، يا فرمول‌هاي رياضي نمايش داده مي‌شود. مجموعه داده‌هاي آموزشي از رکوردها، نمونه‌ها، مثال‌ها و يا اشيائي که شامل مجموعه‌اي از صفات يا جنبه‌ها مي‌باشد، تشکيل شده‌اند.

زير مهارت 1 : تکنيک های روش پيشگويی دسته بندی سيستم بر اساس اين مجموعه آموزشي به خود آموزش مي‌دهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا مي‌کند. هر نمونه يک برچسب کلاس معلوم دارد، که به طور تصادفي از مجموعه داده‌ها انتخاب مي‌شود. گام بعدي پس از مرحله آموزش، براي پيش بيني و تعيين دسته مي‌باشد. توسط قوانين صورت مي گيرد، آنگاه مدل مي‌تواند، جهت پيشگويي برچسب‌هاي کلاس براي داده‌هاي جديد -که داراي برچسب کلاس نامعلوم هستند-مورد استفاده قرار گيرد.تکنيک‌هاي داده كاوي كه براي دسته بندي به كار مي‌آيند عموماً شامل تکنيک‌هاي شبكه عصبي و درخت تصميم گيري هستند. دسته بندي کاربردهاي زيادي در بازرگاني، بانکداري، پزشکي، ارتباطات، کشاورزي و غيره دارد. به عنوان مثال طبقه بندي در بازاريابي هدف، تصويب اعتبار و بررسي تقلب است. از جمله کاربردهاي ديگر دسته بندي، متن کاوي مي‌باشد.

زير مهارت 1 : تکنيک های روش پيشگويی رگرسيون رگرسيون بهترين مدلي است که مي‏تواند متغيرهاي خروجي را با متغيرهاي ورودي متعدد ارتباط دهد. ساده‌ترين حالت آن، مدل به ارزش خطي است، يعني ارتباط بين متغيرهاي ورودي و خروجي را به صورت خطي برقرار مي‌کند. از نقطه نظر کلي، دسته بندي و رگرسيون دو نوع اصلي از مسائل پيشگويي هستند، که دسته بندي، جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار مي‌گيرد، در حالي که رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار مي‌گيرد. انواع مدل‌هاي يكساني را مي‌توان هم براي رگرسيون و هم براي دسته بندي استفاده کرد. براي مثال الگوريتم درخت تصميم CART را مي‌توان هم براي ساخت درخت‌هاي دسته بندي و هم درخت‌هاي رگرسيون استفاده کرد. شبکه‌هاي عصبي را نيز مي‌توان براي هر دو مورد استفاده كرد

زير مهارت 1 : تکنيک های روش پيشگويی سري‌هاي زمانيتحليل سري‌هاي زماني تكنيكي ديگر در داده‌كاوي كه هدف از آن، يافتن خصوصيات جالب توجه و نظم‌هاي مشخص در حجم بالاي داده است. يکي از سري هاي زماني دنباله‌اي مرتب شده از مشاهدات است که،ارزش يک شيء را به عنوان تابعي از زمان در مجموعه داده‌هاي جمع آوري شده توصيف مي‌کند. رخداد وقايع متوالي در اصل مجموعه‌ي وقايعي است كه بعد از يك واقعه‌ي مشخص به وقوع مي‌پيوندند.پيش بينيپيش‌بيني يکي از تكنيك داده كاوي است که ‌در اين تكنيك مقادير ممكن براي متغيرهاي نامعلوم پيش‌بيني مي‌شود. از شبكه‌هاي عصبي و الگوريتم ژنتيك براي پيش‌بيني استفاده مي‌شود.

زير مهارت 2 : تکنيک های روش توصيفیدر روش‌هاي توصيفي، خواص عمومي داده‌ها بيان مي‌شود. هدف از توصيف، يافتن الگوهايي در مورد داده‌هاست که براي انسان قابل تفسير باشد. روش توصيفي نيز شامل تکنيک‌هاي: خوشه بندي، خلاصه سازي، کشف توالي (تحليل دنباله) ، قوانين انجمني مي‌باشد.خوشه بندي خوشه بندي، گروه بندي نمونه‌هاي مشابهبا هم، در يک حجمداده مي‌باشد. خوشه بندي يک دسته بندي بدون نظارت (هدايت نشده) است که دسته‌ها از قبل تعريف نشده اند. در خوشه‌بندي -بر خلاف طبقه‌بندي که هر داده به يک طبقه‌ي (کلاس) از پيش مشخص شده تخصيص مي‌يابد- هيچ اطلاعي از کلاس‌هاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند.

زير مهارت 2 : تکنيک های روش توصيفیهدف از خوشه بندي اين است که داده‌هاي موجود، به چند گروه تقسيم شوند و در اين تقسيم بندي داده‌هاي گروه‌هاي مختلف حداکثر تفاوت ممکن را به هم داشته باشند و داده‌هاي موجود در يک گروه بايد بسيار به هم شبيه باشند. (تشابه يا عدم تشابه بر اساس معيارهاي اندازه گيري فاصله تعريف مي‌شود.) پس از اينکه داده‌ها به چند گروه منطقي و توجيه پذير تقسيم شدند از اين تقسيم بندي مي‌توان براي کسب اطلاعات در مورد داده‌ها يا تقسيم داده‌ها جديد استفاده کنيم.خوشه بندي کاربردهاي متعددي دارد. اغلب از خوشه بندي به عنوان اولين گام در فرايندهاي داده كاوي ياد مي‌شود كه قبل از ساير فرايندها براي شناسايي گروهي از ركوردهاي مرتبط با هم كه بعداً بتوانند نقطه آغاز تحليل‌ها باشند، بر روي ركوردها اعمال مي‌شود. در برخي موارد براي تشخيص داده‌هاي پرت که با ساير داده‌ها تفاوت چشمگير دارند (مورد کاربرد در کشف وقوع جرم و تخلف در عمليات بانکي يا در وب)، استفاده مي‌شود

زير مهارت 2 : تکنيک های روش توصيفی قوانين انجمنياستخراج قواعد انجمني، نوعي عمليات داده کاوي است که به جستجو براي يافتن ارتباط بين ويژگي‌ها در مجموعه داده‌ها مي‌پردازد. نام ديگر اين روش، تحليل سبد بازار است. اين روش به دنبال استخراج قواعد، به منظور کمي کردن ارتباط ميان دو يا چند خصوصيت مي‌باشد. قواعد انجمني ماهيتي احتمالي دارد و به شکل اگر و آنگاه و به همراه دو معيار پشتيبان و اطمينان تعريف مي‌شوند. اين دو شاخص به ترتيب مفيد بودن و اطمينان از قواعد مکشوفه را نشان مي‌دهند.معيار اطمينان: ميزان وابستگي يک کالاي خاص را به ديگري بيان مي‌کند. يعني درجه وابستگي بين دو مجموعه X و Y را محاسبه مي‌کند و به عنوان شاخصي براي اندازه گيري توان يک قاعده در نظر گرفته مي‌شود.معيار پشتيبان (X,Y): نشان دهنده درصد يا تعداد تراکنش هايي (زيرمجموعه‌هايي از اقلام خريداري شده) است که شامل هر دوي اقلام (مجموعه اقلام)X و Y باشند.

زير مهارت 2 : تکنيک های روش توصيفی قوانين انجمنيمثال‌هايي از کاربرد قوانين انجمني مي‌تواند اين گونه باشد:بررسي اينکه چه اقلامي در يک فروشگاه با هم خريداري مي‌شوند و اينکه چه اقلامي هيچ گاه خريداري نمي‌شوند.بررسي ارتباط بين توانايي خواندن کودکان با خواندن داستان توسط والدين براي آن‌ها.اگر مجموعه‌اي از عناصر، حداقل پشتيباني را داشته باشند، "مکرر" خوانده مي‌شوند. "قواعد قوي" قواعدي هستند که به طور توامان داراي مقدار پشتيبان و اطمينان بيش از آستانه باشند. با استفاده از اين مفاهيم پيدا کردن قواعد انجمني در دو گام خلاصه مي‌شود،: پيدا کردن مجموعه‌هاي مکرر و استخراج قواعد قوي.

زير مهارت 2 : تکنيک های روش توصيفی خلاصه سازي (تلخيص)در برگيرنده روش‌هايي براي يافتن يک توصيف فشرده از زير مجموعه‌اي از داده‌ها است. به عنوان مثالي ساده مي‌توان اشاره داشت به: تهيه‌ي جدول ميانگين و انحراف معيار براي تمام فيلدها. روش‌هاي پيچيده‌تر شامل استنتاج قواعد خلاصه، فنون مصورسازي چند متغيره و کشف رابطه تابعي بين متغيرهاست. کاربرد فنون تلخيص معمولاً در تحليل اکتشافي داده‌ها و توليد گزارش خودکار به کار برده مي‌شوند.

زير مهارت 2 : تکنيک های روش توصيفیمدل‌سازي وابستگي (تحليل لينک)شامل يافتن مدلي براي توصيف وابستگي‌هاي معني دار بين متغيرهاست. مدل‌هاي وابستگي در دو سطح وجود دارند: سطح ساختاري و سطح کمّي. در سطح ساختاري، مدل از طريق رسم شکل مشخص مي‌کند که کدام متغيرها به طور محلي به ديگري وابسته‌اند. در سطح کمّي، مدل قدرت وابستگي‌ها را با مقياس عددي مشخص مي‌کند.وابستگي‌ها به صورت A->B نمايش داده مي‌شوند كه به A مقدم و به B موخر يا نتيجه گفته مي‌شود. مثلاً اگر يك قانون به صورت زير داشته باشيم:" اگر افراد چكش بخرند، آنگاه آن‌ها ميخ خواهند خريد"در اين قانون مقدم، خريد چكش و نتيجه، خريد ميخ مي‌باشد.

زير مهارت3: الگوريتم های خوشه بندیدر خوشه‌بندي بر خلاف طبقه‌بندي که هر داده به يک طبقه (کلاس) از پيش مشخص شده تخصيص مي‌يابد هيچ اطلاعي از کلاس‌هاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند. لذا مي‌توان گفت خوشه بندي نوعي يادگيري بدون نظارت (هدايت نشده) است يعني نوعي يادگيري است که به وسيله‌ي مشاهدات انجام مي‌شود نه با مثال‌ها.خوشه بندي در انجام فعاليت داده کاوي در موارد زير استفاده مي‌شود:تجزيه و تحليل شباهت يا عدم شباهت: تحليل اينکه کدام نقاط داده در يک نمونه به يکديگر شبيه هستند.تشخيص داده‌هاي پرت: تشخيص داده‌هايي که با ساير داده‌ها تفاوت چشمگيري دارند.کاهش بُعد (حجم): به عنوان پيش پردازش داده‌ها قبل از فعاليت‌هاي داده کاوي، مي‌توان حجم يا بُعد داده‌ها را به وسيله‌ي تکنيک‌هاي خوشه بندي، کاهش داد.

زير مهارت3: الگوريتم های خوشه بندیمعيارهاي ارزيابي الگوريتم‌هاي خوشه بندي براي ارزيابي و سنجش انواع الگوريتم‌هاي خوشه بندي، معيارهاي متعددي مطرح مي‌شود:1- امکان اعمال بر روي تعداد نمونه‌هاي زياد2- توانايي پردازش انواع متفاوت خصيصه3- اداره‌ي داده‌هاي بعد بالا4- توانايي اداره کردن داده‌هاي پويا5- توانايي پردازش داده‌هاي پرت و اغتشاش6- کشف خوشه‌ها با اشکال دلخواه7- ميزان وابستگي به پارامترهاي ورودي8- حساسيت به ترتيب رکوردهاي ورودي

زير مهارت3: الگوريتم های خوشه بندیطبقه بندي روش‌هاي خوشه بنديخوشه‌بندي انحصاري و خوشه‌بندي باهمپوشي در روش خوشه‌بندي انحصاري پس از خوشه‌بندي، هر داده دقيقأ به يک خوشه تعلق مي‌گيرد مانند روش خوشه‌بندي K-Means. ولي در خوشه‌بندي باهمپوشي پس از خوشه‌بندي، به هر داده يک درجه‌ي تعلق به ازای هر خوشه نسبت داده مي‌شود. به عبارتي يک داده مي‌تواند با نسبت‌هاي متفاوتي به چندين خوشه تعلق داشته باشد. نمونه‌اي از آن خوشه‌بندي فازي است. خوشه ‌بندي سلسله مراتبي و خوشه‌ بندي مسطح با توجه با اينکه روش‌هاي خوشه‌بندي سلسله مراتبي اطلاعات بيشتر و دقيق‌تري توليد مي‌کنند براي تحليل داده‌هاي با جزئيات پيشنهاد مي‌شوند ولي از طرفي چون پيچيدگي محاسباتي بالايي دارند براي مجموعه داده‌هاي بزرگ روش‌هاي خوشه‌بندي مسطح پيشنهاد مي‌شوند.

زير مهارت 4 : الگوريتم AprioriApriori يک الگوريتم کلاسيک براي قوانين انجمني است.اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(iterative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. مجموعه آيتمي که شامل I نمونه از آيتم هاست را مجموعه آيتم i تايي مي نامند.(i-itemset) در تکرار i همه تکرار هاي مجموعه آيتم i تايي محاسبه مي شوند.(شمرده مي شوند)قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها با اطمينان (Confidence) c برقرار است، اگر c% از تراکنش هايي که شامل X هستند، شامل Y هستند.قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها داراي پشتيبان (Support) s است، اگر s% از تراکنش ها در پايگاه داده ها شامل XUY باشند.

زير مهارت 4 : الگوريتم AprioriApriori يک الگوريتم کلاسيک براي قوانين انجمني است.اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(itrative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. مجموعه آيتمي که شامل I نمونه از آيتم هاست را مجموعه آيتم i تايي مي نامند.(i-itemset) در تکرار i همه تکرار هاي مجموعه آيتم i تايي محاسبه مي شوند.(شمرده مي شوند)قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها با اطمينان (Confidence) c برقرار است، اگر c% از تراکنش هايي که شامل X هستند، شامل Y هستند.قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها داراي پشتيبان (Support) s است، اگر s% از تراکنش ها در پايگاه داده ها شامل XUY باشند.

زير مهارت 4 : الگوريتم Aprioriبه عنوان مثال پايگاه داده زير را در نظر بگيريد،فرض کنيد حداقل مقدار پشتيبان s=50% باشد. • در مرحله اول از اولين تکرار(توليد کانديد) همه آيتم ها به عنوان کانديد در نظر گرفته مي شوند.بنابراين 5 مجموعه آيتم 1 تايي(1-items) تشکيل مي شود.در مرحله دوم از اولين تکرار، 4 مجموعه از آيتم 1 تايي (1-items) به عنوان مجموعه L1 انتخاب مي شوند، چرا که مقدار پشتيباني آنها %50 يا بيشتر مي باشد.

زير مهارت 4 : الگوريتم Aprioriنتايج حاصل از تکرار الگوريتمApriori در تکرار اول در شکل زير آمده است: B1) count phase B2) select phase a) Generate phase

زير مهارت 4 : الگوريتم Aprioriدر تکرار دوم براي توليد مجموعه هاي C2 وL2 از نتايج مرحله قبلي استفاده مي شود.همه ي زير مجموعه هاي يک مجموعه آيتم بزرگ نيز بايد شرط حداقل پشتيبان را برآورده کنند.الگوريتم Apriori براي توليد مجموعه کانديد C2 از L1*L2 استفاده مي کند، که عملگر * به صورت زير توصيف مي گردد:Lk * Lk ={ XUY where X,Y ɛ Lk ,|X∩Y=K-1 } نتايج حاصل از اجراي عملگر* توسط الگوريتم Apriori در تکرار دوم در اسلايد بعدی آمده است.

زير مهارت 4 : الگوريتم Apriori

زير مهارت 4 : الگوريتم Aprioriمجموعه آيتم هاي 2 تايي که شرط حداقل پشتيباني را برآورده مي کنند، ملاحظه مي فرماييد.به همين ترتيب در تکرار سوم ، مجموعه C3 از روي L2 توسط L2 * L2 توليد مي شود. مجموعه آيتم هاي دو تايي که داراي عضو اول يکسان هستند، همان ابتدا انتخاب مي شوند: {B,C}و {B,E} سپس الگوريتم بررسي مي کند که آيا مجموعه {C,E} خودش يک مجموعه آيتم 2 تايي هست يا خير، با توجه به شرط اينکه {C,E} خودش يک مجموعه آيتم 2 تايي هست، معلوم مي شود که همه زير مجموعه هاي {B,C,E} نيز شرط حداقل پشتيبان را فراهم مي نمايند. بنابراين {B,C,E} يک کانديد يک کانديد 3-itemset است.Apriori سپس تمام تراکنش هاي پايگاه داده را بررسي مي کند و L3 را بصورت ذيل تعريف مي نمايد:

زير مهارت 5 : الگوريتم K-Meansاين الگوريتم يک متد ساده تکرار شونده است، و براي خوشه بندي مجموعه اي از داده ها ي در اختيار در تعداد مشخصي خوشه (K) که کاربر تعيين مي کند کاربرد دارد.الگوريتمK_Means توسط محققين متعدد و به روش هاي مختلفي بيان شده است. الگوريتمK_Means بيشترين استفاده در عمل تقسيم بندي خوشه ها را دارد و الگوريتمي بسيار ساده، قابل فهم و بطور منطقي قابل مقياس بندي است و مي توان آن را به سادگي اصلاح کرد تا با سناريوهاي مختلف مانند يادگيري شبه مشاوره يا داده هاي جاري سروکار داشته باشد. پيشرفت ها و کليت هاي مداوم الگوريتم پايه، ارتباط مداوم آن را تضمين مي کند و به تدريج بر تأثير گزاري آن افزوده است.اين الگوريتم پارامتر k را به عنوان ورودي گرفته و مجموعه‌ي n شيء را به k خوشه افراز مي‌کند به طوري که سطح شباهت داخلي خوشه‌ها بالا و سطح شباهت اشياء بيرون خوشه‌ها پايين باشد. شباهت هر خوشه نسبت به متوسط اشياء آن خوشه -که مرکز خوشه ناميده مي‌شود- سنجيده مي‌شود.

زير مهارت 5 : الگوريتم K-Meansگام ‌هاي الگوريتم k-meansگام 1: انتخاب k نقطه‌ي دلخواه به عنوان مراکز خوشه‌هاي ابتدايي به صورت تصادفي (بهتر است k نقطه از n نقطه‌ي موجود انتخاب شود.)گام 2: تخصيص هرشي به خوشه‌ها با توجه به بيشترين شباهت آن به مراکز خوشه‌ها. گام 3: به روز کردن مراکز خوشه‌ها به اين معني که براي هر خوشه، ميانگين اشياء آن خوشه، محاسبه مي‌شود.گام 4: بازگشت به قدم 2با توجه به مراکز جديد خوشه‌ها، تا هنگامي که هيچ تغييري در خوشه‌ها رخ ندهد. (در اين حالت الگوريتم پايان يافته است)

زير مهارت 5 : الگوريتم K-Means

زير مهارت 5 : الگوريتم K-Meansويژگي‌هاي الگوريتم k-meansپيچيدگي محاسباتي الگوريتم: O(tkn).( n: تعداد کل اشيا، k: تعداد خوشه‌ها، t : تعداد تکرارهاي الگوريتم).پارامتر ورودي: تعداد خوشه‌ها (k) توسط کاربر بايد تعيين شود و راه خاصي براي تعيين آن مشخص نشده است. (يک راه، امتحان k هاي مختلف و بررسي معيار مربع خطا براي هر k مي‌باشد)نوع داده‌ي ورودي: اين الگوريتم با داده‌هاي از نوع عددي، انجام پذير است. مقياس پذيري: اين الگوريتم براي پايگاه داده‌هاي بزرگ، کارا نيست و نياز به توسعه دارد.مواجهه با اغتشاش: از مهم‌ترين نقاط ضعف اين روش، حساسيت در برابر اغتشاشات و نقاط پرت است زيرا در اين روش از ميانگين داده‌ها استفاده شده که به راحتي تحت تأثير داده‌هاي پرت قرار مي‌گيرد.

زير مهارت 5 : الگوريتم K-Meansويژگي‌هاي الگوريتم k-meansشکل خوشه: اين الگوريتم هنگامي که خوشه‌ها به صورت ابرهاي فشرده هستند و اين ابرها نيز خودشان از يکديگر مجزا هستند، به خوبي عمل مي‌کند لذا اين روش تنها خوشه‌هاي کروي شکل را تشخيص داده و براي کشف خوشه‌هايي با شکل‌هاي پيچيده به خصوص غير محدب، مناسب نيست. اين روش اغلب به يک بهينه محلي ختم مي‌شود نه يک بهينه‌ي سراسري.

زير مهارت 5 : الگوريتم K-Meansرفع اشکالات الگوريتم k-means: براي رفع اشکالات الگوريتم k-means روش‌هايي توسعه يافته که در انتخاب k مرکز اوليه، محاسبه‌ي عدم شباهت و استراتژي‌هاي محاسبه‌ مراکز خوشه‌ها با يکديگر متفاوتند. يکي از اين تغييرات اين است که ابتدا روي پايگاه داده، توسط الگوريتم تجميع سلسله مراتبي، تعداد خوشه‌هاي مطلوب را پيدا کرده و سپس از خوشه‌هاي بدست آمده، به عنوان مرحله اول الگوريتم k-means استفاده مي‌شود.يکي ديگر از روش‌هاي مشابهk-means روش k-modes مي‌باشد. که توسعه يافته‌ي k-means براي استفاده از داده‌هاي طبقه‌اي است و به جاي استفاده از مراکز خوشه‌ها، از مدهاي خوشه‌ها (روش مبتني بر فراواني) استفاده مي‌کند. لذا از يک رابطه‌ي اندازه گيري عدم شباهت جديد براي داده‌هاي اسمي يا طبقه‌اي استفاده مي‌کند. از مزاياي روش فوق، جبران نقص حساسيت نسبت به داده‌هاي دور از مرکز مي‌باشد زيرا ميانه (مد) از مقادير بزرگ تأثير نمي‌پذيرد. اما ايراد روش اين است که بعضاً نماينده خوشه‌ها از ميان اشيا انتخاب نمي‌شود.

خلاصه مهارتفنون داده کاوي، گروه نامتجانسي از علوم مختلف را شکل مي‌دهند هر تکنيکي که بتواند بينش جديدي از داده‌ها را استخراج کند مي‌تواند داده کاوي به حساب آيد. به طور خلاصه، داده کاوي پل ارتباطي ميان علم آمار،علم کامپيوتر،هوش مصنوعي، الگو شناسي، فراگيري ماشين و بازنمايي بصري داده مي‌باشد. مي‌توان گفت در داده کاوي، تئوري‌هاي پايگاه داده‌ها، هوش مصنوعي، يادگيري ماشين و علم آمار را در هم مي‌آميزند تا زمينه کاربردي فراهم شود.داده کاوي يکي از پيشرفت هاي اخير در صنعت مديريت داده ها است.در اصل داده کاوي مجموعه اي از فنون مي باشد که به شخص اين امکان را مي دهد تا وراي داده پردازي معمولي حرکت کند و به استخراج اطلاعاتي درانبوه داده هاي مخفي يا پنهان دست پيدا کند.براي داده کاوي الگوريتم ها و روش هاي بسياري معرفي شده است ولي موضوع مورد نظر انتخاب تعدادي از اين الگوريتم ها و توضيح مختصر در مورد آنها مي باشد.

کلمات کليدي مهارتAssociation rules-Classification-Cluster AnalysisGenetic algorithms-High Dimension-Market Basket AnalysisPredict-Time series

واژگان تخصصي مهارت

آزمون مهارت آزمونچهار گزينه اي آزمونتشريحي

1. تکنيک هاي « رگرسيون » و « قوانين انجمن » به ترتيب جزء کداميک از روش هاي اصلي مي باشند؟ • الف) توصيفي - پيشگويي • ب) هردو پيشگويي • ج) هر دو توصيفي • د) پيشگويي- توصيفي آزمون چهار گزينه اي

2. تعريف زير بيان کننده کداميک از روش هاي داده کاوي مي باشد؟ • « ارزشيابي ويژگي‌هاي مجموعه‌اي از داده‌ها و سپس اختصاص دادن آن‌ها به مجموعه‌اي از گروه‌هاي از پيش تعريف شده است و جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار مي‌گيرد.» • الف) رگرسيون • ب) دسته بندي • ج) قوانين انجمني • د) موارد الف و ج آزمون چهار گزينه اي

3.کداميک از موارد زير صحيح نمي باشد؟ • الف) رگرسيون بهترين مدلي است که مي‏تواند متغيرهاي خروجي را با متغيرهاي ورودي متعدد ارتباط دهد. • ب) دسته بندي، جهت پيشگويي مقادير گسسته و اسمي، و رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار مي‌گيرد. • ج) الگوريتم درخت تصميم CARTفقط براي ساخت درخت‌هاي دسته بندي استفاده مي شود. • د) روش توصيفي شامل تکنيک‌هاي خوشه بندي، خلاصه سازي، کشف توالي (تحليل دنباله) ، قوانين انجمني مي‌باشد. آزمون چهار گزينه اي

4. به ساختار سلسله مراتبي حاصل از روش‌هاي خوشه‌بندي سلسله مراتبي .......... گفته مي‌شود. • الف) Cluster • ب) Dendogram • ج)Datalog • د) Dataset آزمون چهار گزينه اي

5. کداميک از موارد زير جزء ويژگي هاي ارزيابي الگوريتم خوشه بندي نيست؟ • الف) امکان اعمال بر روي تعداد نمونه‌هاي زياد • ب) اداره‌ي داده‌هاي بعد بالا • ج) عدم توانايي پردازش داده‌هاي پرت و اغتشاش • د) توانايي پردازش انواع متفاوت خصيصه آزمون چهار گزينه اي

6. کداميک از موارد زير صحيح نمي باشد؟ • الف) در روش خوشه‌بندي انحصاري پس از خوشه‌بندي، هر داده دقيقا به يک خوشه تعلق مي‌گيرد مانند روش خوشه‌بندي K-Means. • ب) در خوشه‌بندي باهمپوشي پس از خوشه‌بندي، به هر داده يک درجه‌ي تعلق به ازاء هر خوشه نسبت داده مي‌شود. • روش خوشه بندي سلسله مراتبي داراي پيچيدگي محاسباتي کم مي باشد. • د) مجموعه داده‌هاي بزرگ روش‌هاي خوشه‌بندي مسطح پيشنهاد مي‌شوند. آزمون چهار گزينه اي

7. کدام گزينه در مورد الگوريتم Apriori صحيح نمي باشد؟ • الف) Apriori يک الگوريتم کلاسيک براي قوانين انجمني است. • ب) اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(itrative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. • ج) Apriori يک الگوريتم پر کاربرد در خوشه بندي است. • د) موارد الف و ب. آزمون چهار گزينه اي

8. کداميک از گزينه هاي زير صحيح است؟ • الف) الگوريتمk_Means بيشترين استفاده در عمل تقسيم بندي خوشه ها را دارد. • ب) پيچيدگي محاسباتي الگوريتمk-means: O(tkn). • ج) نوع داده هاي ورودي اين الگوريتم از نوع عددي مي باشد. • د) همه موارد. آزمون چهار گزينه اي

9. اين روش توسعه يافته‌ي k-means است که براي استفاده از داده‌هاي طبقه‌اي، به جاي استفاده از مراکز خوشه‌ها، از مدهاي خوشه‌ها (روش مبتني بر فراواني) استفاده مي‌کند. الف) الگوريتم k-modes ب) الگوريتم EM ج) الگوريتم CART د) الگوريتم Apriori آزمون چهار گزينه اي

پاسخنامه آزمون چهارگزينه اي 1

فهرست مطالب واژگان تخصصي کلمات کليدي آزمون کتابنامه • داده کاوي را در يک جمله تعريف کرده و ارتباط آن را با کشف دانش ذکر نماييد. • هدف از انجام داده کاوي پيشگويانه چيست؟ • هدف از انجام داده کاوي توصيفي چيست؟ • تفاوت هاي بين علم آمار و داده کاوي را بيان نماييد. • چرخه عمر يک پروژه داده کاوي را نام ببريد. • گام درک داده ها در داده کاوي چند بخش است؟ آنها را نام ببريد. • راهبردهاي برخورد با مقادير مفقودشده را نام ببريد. • تکنيک هاي تلخيص داده ها را نام ببريد. آزمون تشريحي صفحه قبل صفحه بعد

پاسخنامه سوال تشريحي 1داده کاوي فرآيندي تکراری است که پيشرفت آن در کشف دانش ، هم به روش دستي و هم به روش خودکار امکان پذير است. درحقيقت ، داده کاوي ، تلاش مشترک بين انسان ها وکامپيوترهاست که در آن، جستجوي لازم براي کشف اطلاعات جديد وارزشمند ازميان حجم بسيار زياد داده ها صورت مي گيرد.

پاسخنامه سوال تشريحي 2در انتهاي طيف پيشگويي، هدف داده کاوي ايجاد مدلي است که به صورت يک برنامه و کداجرايي مي باشد و مي تواند براي دسته بندي ، پيشگويي ، برآورد و ديگر اعمال مشابه مورد استفاده قرارگيرد

پاسخنامه سوال تشريحي 3در انتهاي طيف توصيف ، هدف ، بدست آوردن يک درک و شناخت از سيستم تحليل شده از طريق کشف الگوها و روابط آشکار در مجموعه داده هاي بزرگ مي باشد

نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03

نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03

Presentation Transcript