امروزه شبیه سازی با بیشتر ارکان زندگی بشر درگیر شده است، از ارتباطات تلفنی و بی سیم گرفته تا خطوط حمل و
نقل و عملیات تولید و سدسازی. با توجه به مزایای غیر قابل انکارِ ای ن رویکرد، برداشتن هر گامی که منجر به بهبود هر
یک از مراحل اجرای آن شود میتواند تاثیر بسزایی در افزایش کارایی سیستمهای مورد ارزیابی داشته باشد. یک شیوه
معتبر برای ارزیابی مناسبتر اعداد و ارقام انبوه به دست آمده از شبیه سازی سیستم،ها استفاده از تکنیکهای هوش
مصنوعی نظیر دادهکاوی است.
به طور کلی مدلهای شبیهسازی به وسیله تحلیلهای آماری فراهم شدهاند و به کل سیستم وابستهاند و سعی می-
کنند تا با مدلهای مشخص و ساده چگونگی تعامل نهادها را در جهت تقلید رفتار سیستم واقعی شرح دهند. در تحقیق
حاضر نشان داده شده است که این مدلها در نهایت با بهرهگیری از روابط آماری و توزیعهای گوناگون پیشبینیهای لازم
را در جهت بررسی تاثیر تغییرات روی عملکرد سیستم انجام میدهند. از طرفی نیز ابزارهای دادهکاوی در جهت کمک به
تحلیل و استخراج دانش مربوط به واقعیت به کار رفته است و نتیجه حاصل از به کار بردن دادهکاوی در مدلسازی
سیسمت ها و بهرهوری به دست آمده در درک رفتار سیستم در آزمایشات انجام گرفته نشان داده شده است.
در این تحقیق داده کاوی مورد بحث قرار می گیرد . علل استفاده از داده کاوی و منابعی که داده کاوی بر روی آنها اعمال می شود ,علاوه بر این خلاصه ای از روشهای رایج داده کاوی ارائه شده است . تکنیکهای داده کاوی و قوانین وابستگی و الگوریتمهای موجود (Apriori , Aprior TID, Partition, Eclat ,Max Eclat , Vector ) و الگوریتم با ساختار Trie وfp grow و الگوریتمهای کاهشی مورد بررسی قرار می گیرند و در هر مورد مثالها , موارد کاربرد ,تکنیکها و نقاط قوت و ضعف مورد بررسی قرار گرفته اند.
فهرست :
چکیده
مقدمه
کشف دانش در پایگاه داده
آیا داده کاوی برای حل مسائل ما مناسب است؟
جمع آوری داده ها
بکارگیری نتایج
استراتژیهای داده کاوی
پیش گویی Perdiction
Unsupervised Clustering دسته بندی بدون کنترل
تکنیکهای داده کاوی تحت کنترل
شبکه عصبی
برگشت آماری
قوانین وابستگی
الگوریتم Apriori
الگوریتم Aprior TID
الگوریتم partition
الگوریتم های MaxEclat,Eclat
الگوریتم با ساختار trie
الگوریتم fp-grow
ساخت fp- tree
Fp-tree شرطی
الگوریتم برداری
نگهداری قوانین وابستگی
الگوریتم کاهشی
چکیده
در تاریخ در حال توسعه اینترنت، اطلاعات متنی نقش فوق العاده مهمی را بازی می کند. امروزه هنوز هم اطلاعات متنی اساسی ترین و فرم اصلی اطلاعات در اینترنت هستند. بنابراین تقاضای نظارت، مدیریت اطلاعات متنی و استفاده از آن به عنوان منابع با ارزش زیاد، به سرعت در حال افزایش یافتن است. امروزه تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبکه- های حسگر، سازماندهی اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندی جریان متن نسبت به خوشه بندی جریانهای عددی در آغاز راه است و به تازگی مورد توجه محققان بیشتری قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.
تعریف داده کاوی
در متون اکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درانها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از
داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید ازپایگاه داده می-باشد.
اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.داده کاوی یعنی جستجو در پایگاه داده ها برای یافتن الگوهایی میان داده هاداده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگداده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده هاداده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه دادهای می باشد
تعداد صفحات 93 word
فصل اول. 1
1- 1 مقدمه. 2
1-2 تعریف داده کاوی.. 3
1-3 کاربردهای داده کاوی.. 4
1-4 مراحل داده کاوی.. 5
1- 5 تکنیکها و روشهای داده کاوی.. 6
1-6 مقدمهای بر خوشهبندی.. 7
1-7 کلاستر چیست؟. 10
1-8 انواع کلاسترها 10
1-9 خوشهبندی در مقابل طبقهبندی.. 10
1-10 یادگیری با نظارت در مقابل یادگیری بدوننظارت.. 11
1-11 کاربردها 12
1-12 مسائل درگیر با روشهای خوشهبندی موجود 13
1-13 خوشهبندی در مقابل چندیسازی برداری.. 13
1-14 ویژگی های الگوریتم های خوشه بندی.. 14
1-15 روشهای خوشهبندی.. 14
1-15-1 خوشهبندی انحصاری و خوشهبندی با همپوشی. 15
1-15-1-1 خوشه بندی فازی.. 15
1-15-2 خوشهبندی سلسله مراتبی و خوشهبندی مسطح. 16
1-15-3 روشهای خوشهبندی سلسله مراتبی. 17
1-15-3-1 خوشهبندی با روش Single-Link. 18
1-15-3-2 خوشهبندی با روش Complete-Link. 19
1-15-3-3 خوشهبندی با روش Average-Link. 20
1-15-3-4 خوشهبندی با روش Group Average Link. 21
1-15-3-5 خوشهبندی با روش Median Distance. 22
1-15-3-6 خوشهبندی با روش Ward. 23
1-15-3-7 الگوریتم خوشهبندی پایین به بالای عمومی. 23
1-15-4 روش خوشهبندی K-Means (C-Means یا C-Centeriod) 24
1-15-4-1 مشکلات روش خوشهبندی K-Means. 26
1-15-5 الگوریتم خوشهبندی LBG.. 26
1-15-6 خوشهبندی بر اساس چگالی. 28
1-16 خوشه بندی متن. 34
1-16-1 الگوریتم خوشه بندی Bi-Section-K Means. 35
1-16-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 36
1-16-3 کامپایل کردن دانش پس زمینه درون متن. 37
1-16-4 استراتژی های استفاده از کلمه در مقابل مفهوم 38
1-17 خوشه بندی جریانهای داده 38
1-17-1 الگوریتم های خوشه بندی جریان داده 39
1-17-2 مقایسه الگوریتم های خوشه بندی جریان داده 42
1-18 جریان داده متنی. 43
فصل دوم 45
( بررسی الگوریتم های خوشه بندی جریان های داده متنی) 45
2-1 مقدمه. 46
2-1-1TF-ICF. 47
2-2-2 الگوریتم STREAMING OSKM.. 49
2-2-2-1 K-means کروی انلاین. 49
2-2-2-2 پیاده سازی کارامد oskm.. 50
2-2-2-3 خوشه بندی مقیاس پذیر. 51
2-2-2-4STREAMING OSKM.. 53
2-2-2-5 ارزیابی و مقایسه. 53
2-2-3 الگوریتم OCTS. 53
2-2-3-1 تعاریف اولیه. 54
2-2-3-3 الگوریتم خوشه بندی انلاین OCTS. 59
2-2-3-4 الگوریتم OCTS. 62
2-2-4 ویژگی های Bursty. 66
2-2-4-1 ارائه ویژگی bursty. 69
تعریف6 ویژگی bursty. 69
2-2-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی. 71
2- طراحی پردازش جریان. 73
1 معایب الگوریتم TSC-AFS. 76
2-3 معیارهای ارزیابی کیفیت خوشه بندی.. 76
فصل سوم : جمع بندی و پیشنهادات.. 78
فهرست منابع. 85
شکل1-2:a) در طبقهبندی با استفاده یک سری اطلاعات اولیه دادهها به دستههای معلومی نسبت داده میشوند.b) در خوشهبندی دادهها با توجه به الگوریتم انتخاب شده به خوشههایی نسبت داده میشوند 15
شکل 1-3 مجموعه داده پروانه ای.. 20
شکل 1-4 : شمایی از روشهای خوشهبندی بالا به پایین و روشهای پایین به بالا. 22
شکل1-5 : شباهت بین دو خوشه در روش.. 23
شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین دادههای دو خوشه. 24
شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین دادههای دو خوشه 25
شکل1-8 : شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه 26
شکل (2-1) تفاوت بین خوشه بندی جریان های متنی و سنتی. 51
شکل 2-2 ایجاد مدلVSMایستا از داده خام 72
شکل 2-3 شمایی از ارائه ویژگی bursty. 73
شکل 2-4 الگوریتم TSC-AFS. 79
فرمت : Word
تعداد صفحات : 144
بسیاری از فروشگاهها پس از گذشت یک ربع قرن از آغاز فعالیت، هنوز مشتری وفادار خود را دارند. این وفاداری تصادفی نیست. اداره کنندگان این فروشگاهها به سلایق و نیازهای مشتریان خویش واقف شده اند و توان مالی خرید آنها را می شناسند. وقتی کسی از آنها راهنمایی بخواهد پاسخ آنها براساس دانش اندوخته شان در مورد ذائقه و بودجه آن مشتری و همچنین دانش شان در باره محصولات خودشان خواهد بود.
افرادی که به این فروشگاه رفت و آمد دارند در مورد کالاهای آن فروشگاه چیزهای زیادی می دانند. هر چند این دانش یکی از دلایل آنها برای ایجاد خرید از آنجاست و به همین دلیل به فروشگاه های دیگر نمی روند ولی داشتن اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجا می کند و به یک مغازه مشابه دیگر در آنطرف خیابان و روبروی همین فروشگاه نمی روند و برخوردار بودن این فروشگاه از اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجام می کند . یک مغازه مشابه دیگر می تواند در آنطرف خیابان و روبروی همین مغازه باز شود ولی ماهها و حتی سالها طول می کشد تا آنها به این سطح از دانش در باره مشتریانشان دست یابند.
طبیعتاً تجارتهای کوچکی که مدیریت خوبی دارند می توانند به نحوه ایجاد رابطه با مشتریانشان پی ببرند. آنها با گذشت زمان در باره مشتریانشان به چیزهای بیشتر و بیشتری پی خواهند برد و از آن دانش برای خدمت بهتر به مشتریان استفاده خواهند نمود و نتیجه کار، مشتریان وفادار و خرسند و تجارتهای سودآور خواهد بود.
شرکتهای بزرگ با صدها هزار یا میلیونها نفر مشتری از مزیت برقراری روابط شخصی حقیقی با تک تک مشتریانشان بی بهره اند. این موسسات عظیم باید به وسایل دیگری برای برقراری رابطه با مشتریانشان تکیه نمایند. آنها باید یاد بگیرند که از آنچه که به وفور دارند یعنی داده هایی که از طریق تعامل با تک تک مشتریان به دست آمده است نهایت بهره را ببرند. این کتاب در مورد تکنیکهای تحلیلی بحث میکند که برای تبدیل داده های مشتریان به دانش در باره مشتریان استفاده میشود.
مدیریت روابط تحلیلی با مشتریان
شکی نیست که لازم است موسسات بزرگ نیز مانند تجارتهای خدمات مدار و کوچک از منافع برقراری روابط یک به یک با مشتریانشان بهره مند گردند. مدیریت روابط با مشتری موضوع گسترده ای است که در کتابها و کنفرانسهای زیادی در مورد آن بحث شده است. تمرکز این کتاب بر نقشی است که داده کاوی می تواند در بهبود مدیریت روابط با مشتری از طریق افزایش توان موسسات برای برقراری روابط با مشتریانشان ایفا کند.
ا افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به دادهها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویسهای وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند. طی این گزارش پس از معرفی وب کاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند که در این پروژه بیشتر به وب کاوی در صنعت می پردازم. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند.
فهرست :
مقدمه
فصل دوم: داده کاوی
مقدمه ای بر داده کاوی
چه چیزی سبب پیدایش داده کاوی شده است؟
مراحل کشف دانش
جایگاه داده کاوی در میان علوم مختلف
داده کاوی چه کارهایی نمی تواند انجام دهد؟
داده کاوی و انبار داده ها
داده کاوی و OLAP
کاربرد یادگیری ماشین و آمار در داده کاوی
توصیف داده ها در داده کاوی
خلاصه سازی و به تصویر در آوردن داده ها
خوشه بندی
تحلیل لینک
مدل های پیش بینی داده ها
دسته بندی
رگرسیون
سری های زمانی
مدل ها و الگوریتم های داده کاوی
شبکه های عصبی
درخت تصمیم
Multivariate Adaptive Regression Splines(MARS)
Rule induction
Knearest neibour and memorybased reansoning(MBR)
رگرسیون منطقی
تحلیل تفکیکی
مدل افزودنی کلی (GAM)
Boosting
سلسله مراتب انتخابها
داده کاوی و مدیریت بهینه وب سایت ها
دادهکاوی و مدیریت دانش
فصل سوم: وب کاوی
تعریف وب کاوی
مراحل وب کاوی
وب کاوی و زمینه های تحقیقاتی مرتبط
وب کاوی و داده کاوی
وب کاوی و بازیابی اطلاعات
وب کاوی و استخراج اطلاعات
وب کاوی و یادگیری ماشین
انواع وب کاوی
چالش های وب کاوی
مشکلات ومحدودیت های وب کاوی در سایت های فارسی زبان
محتوا کاوی وب
فصل چهارم: وب کاوی در صنعت
انواع وب کاوی در صنعت
وب کاوی در صنعت نفت، گاز و پتروشیمی
مهندسی مخازن/ اکتشاف
مهندسی بهره برداری
مهندسی حفاری
بخشهای مدیریتی
کاربرد های دانش داده کاوی در صنعت بیمه
کاربردهای دانش داده کاوی در مدیریت شهری
کاربردهای داده کاوی در صنعت بانکداری
بخش بندی مشتریان
پژوهش های کاربردی
نتیجه گیری
منابع و ماخذ فارسی
مراجع و ماخذ لاتین و سایتهای اینترنتی