چکیده
در تاریخ در حال توسعه اینترنت، اطلاعات متنی نقش فوق العاده مهمی را بازی می کند. امروزه هنوز هم اطلاعات متنی اساسی ترین و فرم اصلی اطلاعات در اینترنت هستند. بنابراین تقاضای نظارت، مدیریت اطلاعات متنی و استفاده از آن به عنوان منابع با ارزش زیاد، به سرعت در حال افزایش یافتن است. امروزه تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبکه- های حسگر، سازماندهی اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندی جریان متن نسبت به خوشه بندی جریانهای عددی در آغاز راه است و به تازگی مورد توجه محققان بیشتری قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.
تعریف داده کاوی
در متون اکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درانها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از
داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید ازپایگاه داده می-باشد.
اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.داده کاوی یعنی جستجو در پایگاه داده ها برای یافتن الگوهایی میان داده هاداده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگداده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده هاداده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه دادهای می باشد
تعداد صفحات 93 word
فصل اول. 1
1- 1 مقدمه. 2
1-2 تعریف داده کاوی.. 3
1-3 کاربردهای داده کاوی.. 4
1-4 مراحل داده کاوی.. 5
1- 5 تکنیکها و روشهای داده کاوی.. 6
1-6 مقدمهای بر خوشهبندی.. 7
1-7 کلاستر چیست؟. 10
1-8 انواع کلاسترها 10
1-9 خوشهبندی در مقابل طبقهبندی.. 10
1-10 یادگیری با نظارت در مقابل یادگیری بدوننظارت.. 11
1-11 کاربردها 12
1-12 مسائل درگیر با روشهای خوشهبندی موجود 13
1-13 خوشهبندی در مقابل چندیسازی برداری.. 13
1-14 ویژگی های الگوریتم های خوشه بندی.. 14
1-15 روشهای خوشهبندی.. 14
1-15-1 خوشهبندی انحصاری و خوشهبندی با همپوشی. 15
1-15-1-1 خوشه بندی فازی.. 15
1-15-2 خوشهبندی سلسله مراتبی و خوشهبندی مسطح. 16
1-15-3 روشهای خوشهبندی سلسله مراتبی. 17
1-15-3-1 خوشهبندی با روش Single-Link. 18
1-15-3-2 خوشهبندی با روش Complete-Link. 19
1-15-3-3 خوشهبندی با روش Average-Link. 20
1-15-3-4 خوشهبندی با روش Group Average Link. 21
1-15-3-5 خوشهبندی با روش Median Distance. 22
1-15-3-6 خوشهبندی با روش Ward. 23
1-15-3-7 الگوریتم خوشهبندی پایین به بالای عمومی. 23
1-15-4 روش خوشهبندی K-Means (C-Means یا C-Centeriod) 24
1-15-4-1 مشکلات روش خوشهبندی K-Means. 26
1-15-5 الگوریتم خوشهبندی LBG.. 26
1-15-6 خوشهبندی بر اساس چگالی. 28
1-16 خوشه بندی متن. 34
1-16-1 الگوریتم خوشه بندی Bi-Section-K Means. 35
1-16-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 36
1-16-3 کامپایل کردن دانش پس زمینه درون متن. 37
1-16-4 استراتژی های استفاده از کلمه در مقابل مفهوم 38
1-17 خوشه بندی جریانهای داده 38
1-17-1 الگوریتم های خوشه بندی جریان داده 39
1-17-2 مقایسه الگوریتم های خوشه بندی جریان داده 42
1-18 جریان داده متنی. 43
فصل دوم 45
( بررسی الگوریتم های خوشه بندی جریان های داده متنی) 45
2-1 مقدمه. 46
2-1-1TF-ICF. 47
2-2-2 الگوریتم STREAMING OSKM.. 49
2-2-2-1 K-means کروی انلاین. 49
2-2-2-2 پیاده سازی کارامد oskm.. 50
2-2-2-3 خوشه بندی مقیاس پذیر. 51
2-2-2-4STREAMING OSKM.. 53
2-2-2-5 ارزیابی و مقایسه. 53
2-2-3 الگوریتم OCTS. 53
2-2-3-1 تعاریف اولیه. 54
2-2-3-3 الگوریتم خوشه بندی انلاین OCTS. 59
2-2-3-4 الگوریتم OCTS. 62
2-2-4 ویژگی های Bursty. 66
2-2-4-1 ارائه ویژگی bursty. 69
تعریف6 ویژگی bursty. 69
2-2-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی. 71
2- طراحی پردازش جریان. 73
1 معایب الگوریتم TSC-AFS. 76
2-3 معیارهای ارزیابی کیفیت خوشه بندی.. 76
فصل سوم : جمع بندی و پیشنهادات.. 78
فهرست منابع. 85
شکل1-2:a) در طبقهبندی با استفاده یک سری اطلاعات اولیه دادهها به دستههای معلومی نسبت داده میشوند.b) در خوشهبندی دادهها با توجه به الگوریتم انتخاب شده به خوشههایی نسبت داده میشوند 15
شکل 1-3 مجموعه داده پروانه ای.. 20
شکل 1-4 : شمایی از روشهای خوشهبندی بالا به پایین و روشهای پایین به بالا. 22
شکل1-5 : شباهت بین دو خوشه در روش.. 23
شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین دادههای دو خوشه. 24
شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین دادههای دو خوشه 25
شکل1-8 : شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه 26
شکل (2-1) تفاوت بین خوشه بندی جریان های متنی و سنتی. 51
شکل 2-2 ایجاد مدلVSMایستا از داده خام 72
شکل 2-3 شمایی از ارائه ویژگی bursty. 73
شکل 2-4 الگوریتم TSC-AFS. 79