پروژه
بررسی الگو ریتم های خوشه بندی جریان های داده متنی یک تحقیق کامل میباشد و
در 4 فصل تنظیم شده است.این پایان نامه با معرفی داده کاوی و خوشه بندی به
بررسی الگوریتم های خوشه بندی برای جریان های داده متنی پرداخته است.شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.
پروژه
بصورت فایل قابل ویرایش ورد(WORD) در 68 صفحه برای رشته کامپیوتر در پایین
همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا
آخر ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و
فهرست گذاری کامل شده وآماده تحویل است.
امروزه
تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله
فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبکه- های
حسگر، سازماندهی اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین
روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندی جریان متن نسبت به
خوشه بندی جریانهای عددی در آغاز راه است و به تازگی مورد توجه محققان
بیشتری قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده
برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها
در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.
واژه های کلیدی:
خوشه بندی، جریان داده، جریان داده متنی، خوشه بندی جریان داده متنی
فهرست مطالب
فصل اول
کلیات موضوع
1- 1 مقدمه. 2
1-2 تعریف داده کاوی.. 3
1-3 کاربردهای داده کاوی.. 3
1-4 مراحل داده کاوی.. 4
1- 5 تکنیکها و روشهای داده کاوی.. 5
1-6 مقدمهای بر خوشهبندی.. 5
1-7 کلاستر چیست؟. 7
1-8 انواع کلاسترها8
1-9 خوشهبندی در مقابل طبقهبندی.. 8
1-10 یادگیری با نظارت در مقابل یادگیری بدوننظارت.. 9
1-11 کاربردها9
فصل دوم
روش های خوشه بندی
2-1 مسائل درگیر با روشهای خوشهبندی موجود. 12
2-2 خوشهبندی در مقابل چندیسازی برداری.. 12
2-3 ویژگی های الگوریتم های خوشه بندی.. 13
2-4 روشهای خوشهبندی.. 13
2-4-1 خوشهبندی انحصاری و خوشهبندی با همپوشی.. 13
2-4-1-1 خوشه بندی فازی.. 13
2-4-2 خوشهبندی سلسله مراتبی و خوشهبندی مسطح.. 14
2-4-3 روشهای خوشهبندی سلسله مراتبی.. 15
2-4-3-1 خوشهبندی با روش Single-Link. 16
2-4-3-2 خوشهبندی با روش Complete-Link. 17
2-4-3-3 خوشهبندی با روش Average-Link. 18
2-4-3-4 خوشهبندی با روش Group Average Link. 19
2-4-3-5 خوشهبندی با روش Median Distance. 19
2-4-3-6 خوشهبندی با روش Ward. 20
2-4-3-7 الگوریتم خوشهبندی پایین به بالای عمومی.. 20
2-4-4 روش خوشهبندی K-Means (C-Means یا C-Centeriod)21
2-4-4-1 مشکلات روش خوشهبندی K-Means. 22
2-4-4-2 مزایای روش خوشه بندی K-Means. 22
2-4-5 الگوریتم خوشهبندی LBG.. 22
2-4-6 خوشهبندی بر اساس چگالی.. 23
2-4-6-1 الگوریتم خوشهبندی براساس چگالی DBSCAN.. 25
2-4-6-2 الگوریتم سلسله مراتبی خوشهبندی براساس چگالی OPTICS. 25
2-4-7 مزایای خوشهبندی بر اساس چگالی.. 25
2-4-8 بررسی تکنیکهای اندازهگیری اعتبار خوشهها26
2-5 خوشه بندی متن.. 27
2-5-1 الگوریتم خوشه بندی Bi-Section-K Means. 28
2-5-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 28
2-5-3 کامپایل کردن دانش پس زمینه درون متن.. 29
2-5-4 استراتژی های استفاده از کلمه در مقابل مفهوم. 29
2-6 خوشه بندی جریانهای داده. 30
2-6-1 الگوریتم های خوشه بندی جریان داده. 31
2-6-2 مقایسه الگوریتم های خوشه بندی جریان داده. 33
2-7 جریان داده متنی.. 33
فصل سوم
بررسی الگوریتم های خوشه بندی جریان های داده متنی
3-1 مقدمه. 36
3-1-1TF-ICF 37
3-1-2 الگوریتم STREAMING OSKM... 38
3-1-2-1 K-means کروی انلاین.. 38
3-1-2-2 پیاده سازی کارامد oskm.. 39
3-1-2-3 خوشه بندی مقیاس پذیر. 39
3-1-2-4 STREAMING OSKM... 40
3-1-3 الگوریتم OCTS. 41
3-1-3-1 تعاریف اولیه. 41
3-1-3-2 مدل بهبود دهنده معنایی.. 41
3-1-3-3ارزیابی و مقایسه. 44
3-1-4 ویژگی های Bursty. 44
3-1-4-1 ارائه ویژگی bursty. 47
3-1-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی.. 48
3-1-5-1 معایب الگوریتم TSC-AFS. 51
3-2 معیارهای ارزیابی کیفیت خوشه بندی.. 51
فصل چهارم
جمع بندی و پیشنهادات
4-1 مقدمه. 54
4-2 نتیجه گیری.. 54
فهرست منابع.. 56
فهرست شکل ها و جدول ها
شکل1-1:
در این شکل نمونهای از اعمال خوشهبندی روی یک مجموعه از دادهها مشخص
شده است که از معیار فاصله1 به عنوان عدم شباهت2 بین دادهها استفاده شده
است.6
شکل1-2:a)
در طبقهبندی با استفاده یک سری اطلاعات اولیه دادهها به دستههای معلومی
نسبت داده میشوند.b) در خوشهبندی دادهها با توجه به الگوریتم انتخاب
شده به خوشههایی نسبت داده میشوند. 9
شکل 2-1 مجموعه داده پروانه ای.. 14
شکل 2-2 : شمایی از روشهای خوشهبندی بالا به پایین و روشهای پایین به بالا. 16
شکل2-3 : شباهت بین دو خوشه در روش Single-Linkبرابر است با کمترین فاصلة بین دادههای دو خوشه 17
شکل 2-4: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین دادههای دو خوشه.18
شکل 2-5 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین دادههای دو خوشه 19
شکل2-6 : شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه 20
جدول(2-1) ضرایب رابطه 5 برای روشهای متفاوت خوشه بندی سلسله مراتبی.. 21
شکل 2-7: یک همسایگی برای P دارای چگالی نقاط 5. 24
شکل 2-8: P در دسترس مستقیم چگالی q قرار دارد.24
شکل 2-9: P در دسترس چگالی q قرار دارد.24
شکل 2-10 : P متصل چگالی q است.24
شکل 2-11: خوشه بندی بر اساس چگالی.. 25
شکل 2-12 :در روش سلسله مراتبی خوشهبندی براساس چگالی OPTICSاز ترکیب خوشههای با چگالی زیاد و کوچک خوشههای بزرگتری حاصل میشود. 25
شکل 3-1 تفاوت بین خوشه بندی جریان های متنی و سنتی.. 36
شکل 3-2 ایجاد مدلVSMایستا از داده خام. 46
شکل 2-3 شمایی از ارائه ویژگی bursty. 47
شکل 3-4 الگوریتم TSC-AFS. 50