Popular Ensemble Methods: An Empirical Study

به نام خدا Popular Ensemble Methods: An Empirical Study استاد راهنما: دکتر کیومرث شیخ اسماعیلی ارائه دهنده: شهرام رحمانی رحیم شیخی مصطفی اعظمی G7 Popular Ensemble Methods: An Empirical Study گروه مهندسي کامپيوتر و فناوری اطلاعات دانشگاه کردستان

مقدمه • اصل ”نهار مجانی وجود ندارد“(No Free Lunch Theorem) بیان میدارد که: • هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین ( دقیق ترین) یادگیر را بوجود آورد. • ایده: • اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت بالاتری رسید. • این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند: • الگوریتم: که باعث میشود فرضیات مختلفی در مورد داده استفاده شود. • پارامترها: مثل تعداد گره های مختلف لایه پنهان شبکه های عصبی و یا K متفاوت در KNN • نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر، استفاده از مجموعه داده متفاوت • مجموعه آموزشی: داده های آموزشی یادگیرها اندکی با هم تفاوت داشته باشند.

d1 d2 Final output input d3 d4 d5 ترکیب دسته بندی کننده ها • روشهای مختلفی برای ترکیب نتایج دسته بندی کننده ها وجود دارد: • متداولترین روشها میانگین گیری و یا استفاده از رای اکثریت هستند • انگیزه اصلی این کار در اینجاست که: • ما هنگام طراحی یک سیستم یادگیر انتخاب های فراوانی داریم: نحوه نمایش، پارامترهای یادگیر، داده های آموزشی و غیره. • این تنوع باعث میشود که نوعی از واریانس در عملکرد سیستم وجود داشته باشد. در نتیجه اگر سیستم های مختلفی داشته و از نتایج آنها استفاده شود این امکان وجود دارد که توزیع خطا حول هدف متمرکز شده و با افزایش نمونه گیری از این توزیع به نتیجه بهتری برسیم

Simple Majority Voting

خصوصیت دسته بندی کننده های پایه • برای اینکه بتوان نتیجه مناسبی از ترکیب دسته بندی کننده ها گرفت، این دسته بندی کننده ها باید شرایط زیر را داشته باشند: • هر یک به تنهائی در حد قابل قبولی دقیق باشند. البته نیازی به بسیار دقیق بودن آنها نیست. • هر کدام مکمل دیگری عمل کنند. به این معنا که همگی نباید مشابه هم بوده و نتیجه یکسانی تولید کنند.

انواع ترکیب دسته بندی کننده ها • Static structures • پاسخ چندین خبره بدون در نظر گرفتن سیگنال ورودی با هم ترکیب میشوند. • ensemble averaging • خروجی خبره های مختلف بصورت خطی با هم ترکیب شده و خروجی جمعی را بوجود می آورد • boosting • یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت بالائی برسد. • Dynamic structures • در این روش سیگنال ورودی در انتخاب مکانیسم ترکیب خبره ها تاثیر میگذارد. • mixture of experts • خروجی خبره ها توسط یک شبکه Gating network بصورت غیر خطی با هم ترکیب میشوند. • hierarchical mixture of experts • خروجی خبره ها توسط چندین شبکه Gating network که بصورت سلسله مراتبی قرار داده شده اند بصورت غیر خطی با هم ترکیب میشوند.

Ensemble Methods

Ensemble Averaging

نتیجه گیری در موردEnsemble Averaging • اگر چندین خبره با بایاس و واریانس یکسان، از طریق روش ensemble-averaging با هم ترکیب شوند: • بایاس سیستم حاصل مشابه بایاس هر یک از خبره ها خواهد بود. • واریانس سیستم حاصل کمتر از واریانس هر یک از خبره ها خواهد بود. • خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها خواهد بود.

مثال • در این مثال خروجی 10 شبکه با هم ترکیب شده اند. میانگین Ensemble توانسته به خطای مورد انتظاری که کمتر از خطای میانگین شبکه های منفرد است (eD) برسد. • 80.3% درصد صحت دسته بندی کننده ترکیبی در مقابل79.4% میانگین دسته بندی کننده منفرد • %1 اختلاف

روش Bagging • این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده های آموزشی متفاوتی آموزش داده میشوند تا اندکی با هم تفاوت داشته باشند. در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختلاف نیز خواهند داشت. • Bagging (Bootstrap Aggregating) - Breiman, 1996 • take a training set D, of size N • for each network / tree / k-nn / etc… • - build a new training set by sampling N examples, • randomly with replacement, from D • - train your machine with the new dataset • end for • output is average/vote from all machines trained

مثال • روش Bagging برای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی که با تغییر داده دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد داشت. ( شبکه عصبی و درخت تصمیم نمونه ای از این الگوریتمها هستند. در حالیکه KNN پایدار است.)

Bagging

Boosting • اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی نخواهد داشت. بهتر است که یادگیرها تصمیم گیری متفاوتی داشته و مکمل یکدیگر باشند. • در Boosting سعی میشود تا تعدادی یادگیر پایه ضعیف که مکمل هم باشند تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد. • منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که یک کمی از حالت تصادفی بهتر عمل کند. (e < ½) • در مقابل به یادگیری که با احتمال بالائی به دقت دلخواه برسد یادگیر قوی گفته میشود. • منظور از Boosting این است که یک یادگیر ضعیف را به یک یادگیر قوی تبدیل کنیم.

Boosting • به هر یک از دسته بندی کننده های مورد استفاده یک خبره (expert) گفته میشود. هر خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود. • برای پیاده سازی Boosting سه روش مختلف وجود دارد: • Filtering • در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی که از آن انتخاب میشوند، یا حذف شده و یا به مجموعه داده برگردانده می شوند. • Subsampling • این روش با مجموعه داده های با اندازه ثابت بکار برده میشود. داده ها با استفاده از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند. • Reweighting • این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود. ولی داده ها توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.

Boosting

Boosting accuracyTraining

Boosting

AdaBoost (ADAptive BOOSTing) • در این روش احتمال انتخاب یک نمونه xt برای قرار گرفتن در مجموعه داده های آموزشی دسته بندی کننده j+1 بر مبنای احتمال خطای دسته بندی کننده cj تعیین میشود: • اگر نمونه xt بدرستی دسته بندی شده باشد، احتمال انتخاب شدن آن برای دسته بندی کننده بعدی کاهش داده می شود. • اگر نمونه xt بدرستی دسته بندی نشود، احتمال انتخاب شدن آن برای دسته بندی کننده بعدی افزایش داده می شود. • تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته باشند در غیر اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده بعدی مشکلتر شود.

یک نمونه از پیاده سازی الگوریتم AdaBoost

AdaBoost training

مثال

Arcing-x4 • این روش از رای گیری وزن دار استفاده نمی کند. • اما وزن مثال ها با توجه به K دسته بندی کننده ی قبلی با فرمول زیر محاسبه می شود:

مثال

Methodology

Data Set Error Rates

Percent Reduction in Error

درصد کاهش خطا در شبکه عصبی

درصد کاهش خطا در درخت تصمیم

Ensemble Size

Noise

Error rates by the size of ensemble & Noise

نتیجه گیری • نتیجه بهترBoosting نسبت به Baggingوsingleها • حساسیتBoosting نسبت به نویز وپایین آمدن کارائی • بیشترین کاهش خطا با شبکه عصبی با سایز10-15 • بیشترین کاهش خطا با درخت تصمیم با سایز25 • مناسب بودن Bagging روی اکثر مسائل • بالا بودن دقتBoosting در شرایط مناسب

پیشنهادات • استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده ها • انتخاب مناسب مقدارپارامترها ازقبیل لایه های مخفی و نرخ یادگیری و.... • راهکاری برای ممانعت Overfitشدن Boostingدر دیتاهای حاوی نویز

Popular Ensemble Methods: An Empirical Study