پایان نامه بررسی الگوریتم های خوشه بندی جریان های داده متنی

پایان نامه بررسی الگوریتم های خوشه بندی جریان های داده متنی

چکیده

 در تاریخ در حال توسعه اینترنت، اطلاعات متنی نقش فوق العاده مهمی را بازی می کند. امروزه هنوز هم اطلاعات متنی اساسی ترین و فرم اصلی اطلاعات در اینترنت هستند. بنابراین تقاضای نظارت، مدیریت اطلاعات متنی و استفاده از آن به عنوان منابع با ارزش زیاد، به سرعت در حال افزایش یافتن است. امروزه تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبکه- های حسگر، سازماندهی اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندی جریان متن نسبت به خوشه بندی جریانهای عددی در آغاز راه است و به تازگی مورد توجه محققان بیشتری قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.

تعریف داده کاوی

در متون اکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درانها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از

داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید ازپایگاه داده می-باشد.

‍‍اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.داده کاوی یعنی جستجو در پایگاه داده ها برای یافتن الگوهایی میان داده هاداده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگداده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها

داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه دادهای می باشد

 

تعداد صفحات 93 word

 

فصل اول. 1

1- 1 مقدمه. 2

1-2 تعریف داده کاوی.. 3

1-3 کاربردهای داده کاوی.. 4

1-4 مراحل داده کاوی.. 5

1- 5 تکنیکها و روشهای داده کاوی.. 6

1-6 مقدمه‌ای بر خوشه‌بندی.. 7

1-7 کلاستر چیست؟. 10

1-8 انواع کلاسترها 10

1-9 خوشه‌بندی در مقابل طبقه‌‌بندی.. 10

1-10 یادگیری با نظارت در مقابل یادگیری بدون‌نظارت.. 11

1-11 کاربردها 12

1-12 مسائل درگیر با روش‌های خوشه‌بندی موجود 13

1-13 خوشه‌بندی در مقابل چندی‌سازی برداری.. 13

1-14 ویژگی های الگوریتم های خوشه بندی.. 14

1-15 روش‌های خوشه‌بندی.. 14

1-15-1 خوشه‌بندی انحصاری و خوشه‌بندی با هم‌پوشی. 15

1-15-1-1 خوشه بندی فازی.. 15

1-15-2 خوشه‌بندی سلسله مراتبی و خوشه‌بندی مسطح. 16

1-15-3 روشهای خوشه‌بندی سلسله مراتبی. 17

1-15-3-1 خوشه‌بندی با روش Single-Link. 18

1-15-3-2 خوشه‌بندی با روش Complete-Link. 19

1-15-3-3 خوشه‌بندی با روش Average-Link. 20

1-15-3-4 خوشه‌بندی با روش Group Average Link. 21

1-15-3-5 خوشه‌بندی با روش Median Distance. 22

1-15-3-6 خوشه‌بندی با روش Ward. 23

1-15-3-7 الگوریتم خوشه‌بندی پایین به بالای عمومی. 23

1-15-4 روش خوشه‌بندی K-Means (C-Means یا C-Centeriod) 24

1-15-4-1 مشکلات روش خوشه‌بندی K-Means. 26

1-15-5 الگوریتم خوشه‌بندی LBG.. 26

1-15-6 خوشه‌بندی بر اساس چگالی. 28

1-16 خوشه بندی متن. 34

1-16-1 الگوریتم خوشه بندی Bi-Section-K Means. 35

1-16-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 36

1-16-3 کامپایل کردن دانش پس زمینه درون متن. 37

1-16-4 استراتژی های استفاده از کلمه در مقابل مفهوم 38

1-17 خوشه بندی جریانهای داده 38

1-17-1 الگوریتم های خوشه بندی جریان داده 39

1-17-2  مقایسه الگوریتم های خوشه بندی جریان داده 42

1-18 جریان داده متنی. 43

فصل دوم 45

( بررسی الگوریتم های خوشه بندی جریان های داده متنی) 45

2-1 مقدمه. 46

2-1-1TF-ICF. 47

2-2-2 الگوریتم STREAMING OSKM.. 49

2-2-2-1 K-means کروی انلاین. 49

2-2-2-2 پیاده سازی کارامد oskm.. 50

2-2-2-3 خوشه بندی مقیاس پذیر. 51

2-2-2-4STREAMING OSKM.. 53

2-2-2-5 ارزیابی و مقایسه. 53

2-2-3 الگوریتم OCTS. 53

2-2-3-1 تعاریف اولیه. 54

2-2-3-3 الگوریتم خوشه بندی انلاین OCTS. 59

2-2-3-4 الگوریتم OCTS. 62

2-2-4 ویژگی های Bursty. 66

2-2-4-1 ارائه ویژگی bursty. 69

تعریف6  ویژگی bursty. 69

2-2-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی. 71

2- طراحی پردازش جریان. 73

1 معایب الگوریتم TSC-AFS. 76

2-3 معیارهای ارزیابی کیفیت خوشه بندی.. 76

فصل سوم : جمع بندی و پیشنهادات.. 78

فهرست منابع. 85

 

شکل1-2:a) در طبقه‌بندی با استفاده  یک سری اطلاعات اولیه داده‌ها به دسته‌های معلومی نسبت داده‌ می‌شوند.b) در خوشه‌بندی داده‌ها با توجه به الگوریتم انتخاب شده به خوشه‌هایی نسبت داده‌ می‌شوند 15

شکل 1-3  مجموعه داده پروانه ای.. 20

شکل 1-4 : شمایی از روشهای خوشه‌بندی بالا به پایین و روشهای پایین به بالا. 22

شکل1-5 : شباهت بین دو خوشه در روش.. 23

شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین داده‌های دو خوشه. 24

شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین داده‌های دو خوشه  25

شکل1-8 :  شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه  26

شکل (2-1) تفاوت بین خوشه بندی جریان های متنی و سنتی. 51

شکل 2-2 ایجاد مدلVSMایستا از داده خام 72

شکل 2-3 شمایی از ارائه ویژگی bursty. 73

شکل 2-4 الگوریتم TSC-AFS. 79



خرید و دانلود پایان نامه بررسی الگوریتم های خوشه بندی جریان های داده متنی