تحلیل اجزای اصلی فرمول مسئله

2 دقیقه |  2020/10/25

محبوب ترین الگوریتم کاهش ابعاد، تحلیل اجزای اصلی یا PCA است.

فرمول مسئله

باتوجه به ۲ ویژگی $x_1$ و $x_2$ ،ما می‌خواهیم یک خط واحد پیدا کنیم که به طور موثر هر دو ویژگی را همزمان توصیف کند. سپس ویژگی های قدیمی خود را بر روی این خط جدید ترسیم می‌کنیم تا یک ویژگی واحد جدید بدست آوریم.

همین کار را می توان با سه ویژگی انجام داد.

هدف PCA کاهش میانگین تمام فواصل هر ویژگی تا خط projection است. این خطای projection است.

کاهش از ۲ بعدی به ۱ بعدی: جهتی را پیدا کنید (بردار $u^{(1)} \in \mathbb{R} ^ n $) که بتوان داده ها را بر روی آن نمایش داد، تا خطای projection به حداقل برسد.

مورد کلی تر به شرح زیر است:

کاهش از n بعدی به k بعدی: به تعداد k بردار پیدا کنید $u^{(1)}, u^{(2)}, …, u^{(k)}$ که داده ها را بر روی آن ها نمایش دهید، تا خطای projection به حداقل برسد.

اگر از ۳ بعدی به ۲ بعدی تبدیل می‌کنیم، داده ها را باید بر روی ۲ جهت نمایش دهیم، بنابراین $k=2$ خواهد بود.

PCA رگرسیون خطی نیست

  • در رگرسیون خطی، ما خطای مجذور از هر نقطه به خط پیش بینی کننده را به حداقل می‌رسانیم. اینها فاصله های عمودی هستند.

  • در PCA، ما کمترین فاصله یا کوتاه ترین فاصله های قائم (ارتودنسی) را تا نقاط داده خود به حداقل می‌رسانیم.

به طور کلی در رگرسیون خطی، ما تمام نمونه های خود را در$x$ را گرفته و از پارامتر های موجود در$\Theta$ برای پیش بینی $y$ استفاده می‌کنیم.

در PCA، ما در حال گرفتن تعدادی ویژگی هستیم $x_1, x_2, …, x_n$، و نزدیک ترین مجموعه داده مشترک بین آن ها را پیدا می‌کنیم. ما سعی در پیش بینی هیچ نتیجه ای نداریم و هیچ وزن تتایی را روی ویژگی ها اعمال نمی‌کنیم.