540 likes | 1.04k Views
تکنیکهای غیرپارامتری Nonparameteric Techniques. حسین منتظری کردی دانشکده مهندسی برق و کامپیوتر دانشگاه صنعتی نوشیروانی بابل بهار 93. رئوس مطالب 1- تخمین چگالی 2- پنجرههای پارزن 3- تخمین k همسایهی نزدیکتر 4- قاعدهی همسایهی نزدیکتر 5- متریکها و طبقهبند همسایهی نزدیکتر
E N D
تکنیکهای غیرپارامتری Nonparameteric Techniques حسین منتظری کردی دانشکده مهندسی برق و کامپیوتر دانشگاه صنعتی نوشیروانی بابل بهار 93
رئوس مطالب 1- تخمین چگالی 2- پنجرههای پارزن 3- تخمین k همسایهی نزدیکتر 4- قاعدهی همسایهی نزدیکتر 5- متریکها و طبقهبند همسایهی نزدیکتر 6- طبقهبند فازی
4-1- مقدمه • در روشهای پارامتری، فرض میشود که شکل توزیع احتمال معلوم است • روشهای غیرپارامتری برای هر توزیع دلخواهی و بدون معلوم بودن شکل توزیع احتمال قابل استفاده است • 4-2- تخمین چگالی • احتمال P برای اینکه بردار x در ناحیهی R قرار گیرد از رابطهی زیر بدست میآید • P احتمال هموار شده (بدلیل متوسطگیری با انتگرال) از p (x) میباشد • فرض n نمونهی مستقل از x با توزیع p (x) وجود داشته باشد، آنگاه با توزیع دو جملهای و احتمال P برای قرارگرفتن k نمونه از n تا در R داریم
مقدار میانگین این توزیع نیز برابر است با
با فرض پیوسته بودن p (x) و کوچک بودن R (در این ناحیه، p (x) تغییر محسوسی ندارد) میتوان نوشت • V حجمی است که ناحیهی R را احاطه کرده است. توزیع p (x) از رابطهی زیر تخمین زده میشود • تخمین p (x) در نقطهی x به اندازهی حجم Vوتعداد نمونهها بستگی دارد. بدلیل وجود محدودیتهای عملی و تئوری، جهت تخمین توزیع در نقطهی x رشتهای از نواحی شامل x را در نظر بگیرید • فرض Vn حجم Rnبا تعداد kn نمونه باشد و pn(x) تخمین nام از p (x) باشد، آنگاه
شرایط زیر جهت همگرایی pn(x) به p (x) لازم است • دو روش معمول ایجاد رشتهای از نواحی وجود دارد. روش پنجرهی پارزن؛ حجم تابعی از n؛ و روش k همسایهی نزدیکتر؛ kn تابعی از n است
4-3- پنجرههای پارزن • فرض کنید که نواحی Rn ابرمکعبهای d بُعدی میباشند و hn نیز طول هر ضلع باشد، آنگاه حجم این ناحیه برابر است با • تابع پنجره بصورت یک ابرمکعب واحد بمرکز مبداء تعریف میشود • برابر یک است اگر xi درون ابرمکعب با حجم Vn و مرکز x قرار گیرد، آنگاه تعداد نمونههای داخل این ابرمکعب برابر است با • با قراردادن معادلهی 10 در 7 داریم
روش پارزن چگالی احتمال را با میانگین تابعی از x و نمونههای xi (تابع پنجره) تخمین میزند. تابع پنجره عمل درونیابی را برحسب فاصلهی هر نمونه تا x انجام میدهد • از آنجاییکه تابع پنجره یک چگالی احتمال را تخمین میزند، بنابراین این تابع میبایست خواص یک تابع چگالی را داشته باشد • تاثیر پهنای پنجره روی تخمین چگالی احتمال • کوچکتر کردن hn، یعنی شبیهتر شدن شکل تابع پنجره به یک دلتا بمرکزیت xi • در این روش، تعداد پیکها برابر با تعداد نقاط بوده و تعیین مقدار h توسط کاربر
روش پارزن یک تخمینگر بدون بایاس مستقل از اندازه داده، N، میباشد. برای N ثابت، h کوچکتر موجب بیشتر شدن واریانس تخمین میشود • اگر h ثابت باشد، آنگاه با افزایش N مقدار واریانس کاهش مییابد. چونکه نقاط فضای تخمین چگالتر میشود، لذا برای h کوچکتر با N بزرگتر تخمین بهتر میباشد • در عمل با تعداد محدود داده، N، برای انتخاب مناسب بایستی یک مقایسه بین h و Nانجام گیرد. یک روش انتخاب متوالی h جهت کمینه کردن خطای طبقهبندی • با افزایش ابعاد بردار ویژگی، مسئله کم بودن N بیشتر نمایان میشود و برخی از نواحی فضای ویژگی دارای نقاط پراکنده میشوند. لذا، برای حل این مشکل بهتر است از h متغیر استفاده شود (در نقاط پراکنده از h بزرگ) • 4-3-3- مثال • مثالی از یک توزیع گوسی تک متغیره با میانگین صفر و واریانس واحد را درنظر بگیرید. تابع پنجره را نیز گوسی با همین مشخصات فرض کنید
فرض باشد که h1 یک پارامتر در اختیار کاربر است. تابع چگالی میانگینی از چگالی نرمال بمرکز xi خواهدبود • 4-3-5- شبکههای عصبی احتمالی • هدف تخمین پارزن برای n نمونهی d بُعدی از c کلاس میباشد • PNN شامل d واحد ورودی، n واحد الگو که هر واحد الگو تنها به یک کلاس اختصاص دارد، و c واحد کلاس است • ارتباط بین واحد ورودی و واحد الگو از طریق وزنهای قابل اصلاح میباشد و اتصال بین هر واحد الگو با واحد کلاس مربوطه نیز فقط با یک دامنهی ثابت صورت میگیرد • برای آموزش شبکه، ابتدا هر الگوی ورودی x به نُرم واحد نرمالیزه میشود و بعد، به واحد ورودی اعمال میشود • جهت اصلاح ضرایب، ابتدا w1= x1 تنظیم میشود و سپس، یک اتصال بین واحد الگو و یک گره از واحد کلاس برحسب برچسب الگوی ورودی برقرار میشود
آموزش شبکه تا وارد شدن تمام الگوهای ورودی مطابق الگوریتم زیر ادامه خواهد داشت • جهت طبقهبندی یک الگوی آزمون ورودی، x نرمالیزه شده در واحد ورودی قرار گرفته و ضرب داخلی زیر حساب میشود • عمل هر واحد کلاس، محاسبهی جمع تمام الگوهای متصل به آن میباشد • مزیت PNN آموزش بسیار سادهی آن است. مقدار حافظهی مورد نیاز جهت اجرا نیز برابر با O ((n+1)d)است
4-4- تخمین kn همسایهی نزدیکتر • تخمین p (x) میتواند با رشد یک سلول بمرکز x تا در برگرفتن kn نمونه صورت گیرد. این نمونهها را kn همسایهی نزدیکتر از x مینامند • تابع چگالی احتمال از رابطهی زیر حساب میشود • رابطهی 31 مشابه 7 است با این تفاوت که حجم در 31 به مقدار kn وابسته است • شرایط همگرایی پارزن در اینجا نیز برقرار است و با افزایش تعداد نواحی، p (x) در حالت حدی پیوسته خواهدبود
اگر انتخاب شود، آنگاه یک تخمین ضعیف و تیز خواهیم داشت • اگر انتخاب شود، آنگاه میتوان دقت تخمین را کنترل کرد • 4-4-1- تخمین احتمال پسین • از یک مجموعهی برچسب خوردهی n عضوی، یک سلول به حجم V بمرکز x ایجاد شده و k نمونه را در بر میگیرد • اگر ki نمونه متعلق به کلاس ωi در این حجم باشد، آنگاه احتمال توأم برابر است با • و احتمال پسین بصورت زیر خواهدبود • احتمال پسین برابر کسری از نمونههای متعلق به ωi درون سلول است و نرخ کمینه خطا، کلاس بیشتر دیده شده را نتیجه میدهد
4-5- قاعدهی نزدیکترین همسایه • برای k= 1، n نمونهی برچسب خورده را با نشان داده و X’ متعلق به این مجموعه نزدیکترین نقطه به نمونهی آزمایش x باشد • مطابق قاعدهی نزدیکترین همسایه، x به برچسب کلاس X’ تعلق دارد • اگر ωm(x) را بصورت زیر تعریف کنیم، آنگاه قاعدهی تصمیم بیزین همواره ωm را انتخاب میکند • قاعدهی نزدیکترین همسایه (kNN) منجر به تقسیم فضای ویژگی به سلولهایی میشود که تمام نقاط سلول به یک نقطهی یادگیری X’ نزدیکتر است • تمام نقاط داخل چنین سلولی برمبنای کلاس X’ برچسب خوردهاند • این چنین سلولهایی را سنگفرش وُرونی گویند • اگر P (ωm|x) نزدیک واحد باشد، آنگاه اغلب همواره انتخاب NN معادل با بیزین است
اگر احتمال خطای شرطی روی مجموعهی یادگیری بصورت P (e|x) باشد، آنگاه متوسط خطا برابر است با
اگر P*(e|x) حداقل مقدار ممکن برای متوسط خطا P (e|x) باشد، و P*نیز حداقل مقدار ممکن برای P (e) باشد، آنگاه • 4-5-1- همگرایی نزدیکترین همسایه • در روش نزدیکترین همسایه، اگر Pn(e) خطای n نمونهای باشد و اگر • باید نشان داد که میانگین احتمال خطا در محدودهی زیر قرار دارد • بردارهای همسایهی متفاوتی برای طبقهبندی x برحسب مجموعههای متفاوت از n نمونه با قاعدهی نزدیکترین همسایه حاصل میشود • احتمال قرارگیری یک نمونه داخل ابرکرهای بمرکز x عددی مثبت است
بنابراین، احتمال خطای قرار نگرفتن n نمونه در این کره با افزایش n به سمت صفر میل میکند • 4-5-4- قاعدهی k همسایهی نزدیکتر (k-NN) • این قاعده x را به برچسب k همسایهی نزدیکترش نسبت میدهد
مقدار k برای مسئله دو کلاسه فرد و برای c کلاسه نبایستی مضرب صحیح از تعداد کلاس باشد. • برای یک مسئلهی دو کلاسه با k فرد و تعداد نمونههای زیاد، نرخ خطای قاعدهی k-NN دارای کران بالایی برحسب خطای بیزین P* خواهدبود
در ابتدا قاعده نزدیکترین همسایه برای یک بردار ویژگی x و یک اندازه فاصله بشرح زیر بیان میشود • - برای N بردار آموزش، k همسایه نزدیکتر باتوجه به برچسب کلاسها تعیین میشوند • - در بین این k نمونه، تعداد بردارهای ki متعلق به ωi را تعیین میکنیم • - بوضوح، بردار x به کلاس ωi با بیشترین ki اختصاص مییابد • اندازههای فاصله نظیر اقلیدسی، ماهالانوبیس، قدرمطلق فاصله یا نرم یک (L1)، و ... • برای k = 1 سادهترین نوع الگوریتم بنام قاعده نزدیکترین همسایه (NN)، بعبارتی دیگر یک بردار ورودی ناشناس به برچسب کلاس نزدیکترین همسایه اختصاص مییابد • برای تعداد داده آموزشی کافی، این روش ساده دارای عملکرد مناسب میباشد و برای میل N به مقدار بینهایت، میزان خطای طبقهبندی برای k-NN به خطای بیزین میل میکند • وجود پیچیدگی برای جستجوی نزدیکترین همسایهها در تکنیک kNN، میزان محاسبات متناسب با kN
برای مجموعهداده با N کوچک، کارآیی روش kNN کاهش مییابد. استفاده از روشهای ویرایش، تعریف فاصله سازگار با داده، و شیوههای دیگر جهت افزایش کارآیی • 4-6- متریکها و طبقهبند همسایهی نزدیکتر • طبقهبند k-NN از یک متریک یا فاصله جهت سنجش بین الگوها استفاده میکند • یک اندازهی فاصله، D (., .)، برحسب بردارهای a, b, c دارای خواص زیر است • برای فاصلهی اقلیدسی در فضای d بُعدی داریم • یک کلاس عام برای متریکها در فضای d بُعدی الگوها، متریک مینکووسکی است
متریک مینکووسکی به نُرم Lk (نُرم L1) معروف است. فاصلهی اقلیدسی، نُرم L2 و نُرم L1 نیز به فاصلهی منهتن یا بلوک شهر (city block) معروف میباشند • انتخاب متریک یا فاصله به پیچیدگی محاسباتی و شرایط مسئله وابسته است • 4-7- طبقهبند فازی • در برخی موارد، دانش شهودی راجع به یک مسئلهی تشخیص الگو و طراحی طبقهبند وجود دارد • طبقهبند فازی منجر به تولید توابع عضویت طبقهای (Category) فازی میشود که یک پارامتر قابل سنجش شهودی (غیرخصوصی، objective) را به پارامتر خصوصی (subjective) عضویت طبقه تبدیل میکند • مثال: ویژگی روشنایی؛ تیره، تیرهی متوسط، متوسط، روشن متوسط، روشن؛ پنج طبقه برای توصیف یک ویژگی
روش ارتباط بین توابع عضویت طبقه و اعداد متناظر با تصمیم نهایی را قاعدهی اتصال یا ادغام نامند • مقدار توابع عضویت به صفر و یک محدود میشود (جهت کاهش قواعد اتصال). اگر در مسئلهی ماهی، ویژگیهای شهودی روشنایی و شکل دخیل باشند و طراح آنها را در دو طبقهی روشن متوسط و مستطیلی فرض کند، آنگاه قاعدهی اتصال موجب تبدیل مقادیر عضویت به توابع تمایز میشود
4-8- روشهای رهاسازی (Relaxation) • روش رهاسازی به تکنیکهای ریاضی اشاره دارد که به تنظیم پارامترها میپردازند • سادهترین روش توابع پتانسیل میباشند که نوعی تابع درونیاب هستند • تفاوت این روش با پنجرههای پارزن در این است که دامنهی هریک برای طبقهبندی درست دادهی یادگیری تنظیم میشود • شبکهی RCEیا انرژی کاهشیافتهی کولمب نمونهای از این نوع روشها است • ساختار RCE مشابه PNN است ولی با این تفاوت که: • - در RCE هر واحد الگو دارای یک پارامتر قابل تنظیم است • - پارامتر واحد الگو با شعاع کرهی d بُعدی مرتبط است • - هر شعاع در طول یادگیری طوری تنظیم میشود تا هر واحد الگو یک ناحیهی تا حد ممکن بزرگ را بدون همپوشانی با نواحی دیگر پوشش دهد
4-10- تمایز خطی فیشر (FLD) • تمایز خطی فیشر روشی جهت کاهش بُعد از یک فضای d بُعدی به یک فضای یک بُعدی با تصویر روی یک خط میباشد • فرض که n دادهی d بُعدی از نمونهها x1, …, xn وجود دارند که n1 تا در زیرمجموعهی D1 برای کلاس ω1 و n2 تا در زیرمجموعهی D2 برای کلاس ω2هستند • یک ترکیب خطی از نمونهها با رابطهی زیر تشکیل میدهیم • N نمونه y1, …, yn در دو زیرمجموعه تقسیم میشوند
هدف یافتن بهترین جهت برای w است بطوری که منجر به تصویر داده روی یک خط با تفکیکپذیری دادههای دو کلاس میباشد • یک اندازه برای جداپذیری، اختلاف بین میانگین کلاسها است
فاصلهی بین میانگینهای تصویر شده برابر است با • با انتخاب w مناسب میتوان اختلاف بین میانگینها را تاحد ممکن بزرگ نمود. ولی، این کار تضمینی برای جداپذیری نمونهها نخواهدبود • جهت داشتن جداپذیری خوب، وجود اختلاف بزرگ بین میانگینها نسبت به یک انحراف معیار استاندارد بین کلاسها، معیار فیشر، مناسب است • هدف FLD تصویر خطی x در جهت w مستقل از نُرم w است تا تابع زیر بیشینه شود • با تعریف ماتریسهای تفرق بصورت زیر داریم
Sw ماتریس تفرق درون کلاسی و SB ماتریس تفرق برون کلاسی است. معیار J برحسب ماتریسهای درون و برون کلاسی بصورت زیر خواهدبود
رابطهی 84 بعنوان نسبت تعمیمیافتهی رایلی معروف است. با توجه به مقادیر ویژه داریم • با حل معادلهی بالا، مقدار بهینهی w (جهت بهینهی خط تصویر) حاصل خواهدشد • برای مسئلهی چگالی احتمال شرطی کلاسی با توزیع نرمال و ماتریس کوواریانس برابر، مرز تصمیم بهینه بصورت زیر است • برای کلاس با توزیع نرمال و ماتریس کوواریانس برابر، قاعدهی بیز معادل با تجاوز FLDاز یک آستانه میباشد