داده و الگو یکی از شاخص های بسیار مهم در دنیای اطلاعات هستند و خوشهبندی یکی از بهترین روشهایی است که برای کار با داده ها ارائه شده است. قابلیت آن در ورود به فضای داده و تشخیص ساختار آنها باعث گردیده که خوشه بندی یکی از ایدهآلترین مکانیزم ها برای کار با دنیای عظیم داده ها باشد.
در خوشهبندی، نمونهها به دستههایی تقسیم میشوند که از قبل معلوم نیستند. بنابراین، خوشهبندی یک روش یادگیری است که بدون دانش پیشین و مشاهده نمونههای از قبل تعریف شده، داده ها را به صورت خود مختار و مستقل دسته بندی می کند.
خوشه بندی در واقع یافتن ساختار در مجموعه داده هایی است که طبقه بندی نشده اند. به بیان دیگر خوشهبندی قراردادن داده ها در گروههایی است که اعضای هر گروه از زاویهی خاصی به هم شباهت دارند. در نتیجه شباهت بین داده های درون هر خوشه حداکثر و شباهت بین داده های درون خوشه های متفاوت حداقل میباشد. معیار شباهت در اینجا، فاصله بوده یعنی نمونههایی که به یکدیگر نزدیکترهستند، در یک خوشه قرار میگیرند. لذا محاسبهی فاصلهی بین دو داده در خوشهبندی بسیار مهم میباشد؛ زیرا کیفیت نتایج نهایی را دستخوش تغییر قرار خواهد داد.
فاصله که همان معرف عدم تجانس است حرکت در فضای داده ها را میسر میسازد و سبب ایجاد خوشه ها میگردد. با محاسبهی فاصلهی بین دو داده، میتوان فهمید که چقدر این دو داده به هم نزدیک هستند و در یک خوشه قرار می گیرند یا نه؟ توابع ریاضی مختلفی برای محاسبهی فاصله وجود دارند؛ فاصله اقلیدسی، فاصله همینگ و ….
1-1-بیان مسأله
خوشهبندی یافتن ساختار، درون مجموعه ای از داده های بدون برچسب است و میتوان آن را به عنوان مهمترین مسأله در یادگیری بدون نظارت در نظر گرفت. ایده خوشهبندی اولین بار در دهه 1935 مطرح شد و امروزه با پیشرفتها و جهشهای عظیمی که در آن بهوجود آمده در کاربردها و جنبه های مختلفی حضور یافته است. یک جستجوی ساده در وب یا حتی در پایگاه داده یک کتابخانه، کاربرد شگفت انگیز آن را برای ما آشکار میسازد. الگوریتمهای خوشهبندی در زمینه های مختلفی کاربرد دارد که به عنوان نمونه میتوان موارد زیر را برشمرد:
· داده کاوی[1]: کشف اطلاعات و ساختار جدید از دادههای موجود
· تشخیص گفتار[2]: در ساخت کتاب کد از بردارهای ویژگی، در تقسیم کردن گفتار بر حسب گویندگان آن یا فشردهسازی گفتار
· تقسیمبندی تصاویر[3]: تقسیمبندی تصاویر پزشکی یا ماهوارهای
· وب (WWW): دستهبندی اسناد و یا دستهبندی سایتها و …
· زیستشناسی[4]: دستهبندی حیوانات و گیاهان از روی ویژگیهای آنها
· برنامه ریزی شهری[5]: دستهبندی خانهها بر اساس نوع و موقعیت جغرافیایی آنها
· مطالعات زلزلهنگاری[6]: تشخیص مناطق حادثهخیز بر اساس مشاهدات قبلی
· کتابداری: دستهبندی کتابها
· بیمه: تشخیص افراد متقلب
· بازاریابی[7]: دستهبندی مشتریان به دسته هایی بر حسب نیاز آنها از طریق مجموعه آخرین خریدهای آنان.
با توجه به کاربرد روزافزون خوشهبندی، امروزه شاهد ارائه روشهای جدید و کارآمدتری هستیم که هر یک برای کاربردی خاص ارائه می شود. ولی با همه این تلاشها هنوز خوشهبندی در بسیاری از علوم آنچنان که باید مورد استفاده قرار نگرفته است و قابلیت گسترش بسیار زیادی برای آن وجود دارد.
فرم در حال بارگذاری ...