چکیده
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیری از روشهایی همچون دادهکاوی برای استخراج دانش و اطلاعات نهفته در دادهها، امری غیرقابل اجتناب میباشد. بدلیل حجم بسیار بالای دادهها در بسیاری از کاربردها و اهمیت بیشتر دادههای جدید، ذخیرهسازی این دادهها امری مقرون به صرفه نیست، لذا دادههایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث دادهکاوی وجود دارد، بحث توزیع شدگی ذاتی دادهها است. معمولا پایگاههایی که این دادهها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.
با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر میرسد که بتوان از قابلیتهای آنها برای دادهکاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهرهگیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در دادهکاوی، بحث طبقهبندی جریان دادهها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای دادهکاوی در یک محیط پویا و توزیعشده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقهبندی جریان دادههای دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقهبندی جریان دادههای توزیعشده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایاننامه نشاندهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقهبندی و دادهکاوی در محیطهای پویا و توزیع شده میباشد.
تعداد صفحات 153 word
فهرست مطالب
فصل اول - معرفی و آشنایی با مفاهیم اولیه. 1
1-1- مقدمهای بر دادهکاوی.. 2
1-1-1- خوشهبندی.. 3
1-1-2- کشف قواعد وابستگی.. 4
1-1-3- طبقهبندی.. 4
1-1-3-1- طبقهبندی مبتنی بر قواعد. 5
1-2- دادهکاوی توزیعشده 7
1-3- عاملها و سیستمهای چندعامله. 8
1-3-1- عامل. 8
1-3-1-1- مقایسه عامل با شی.. 9
1-3-1-2- معماری عاملها 11
1-3-1-3- معماری BDI. 12
1-3-2- سیستمهای چندعامله. 14
1-3-2-1- مذاکره 17
1-4- بهرهگیری از عامل برای دادهکاوی.. 19
1-4-1- سیستمهای چندعامله، بستری برای دادهکاوی توزیع شده 19
1-5- جمعبندی.. 22
فصل دوم - دادهکاوی پویا 232-1- مقدمهای بر دادهکاوی پویا 24
2-2- جریان داده 25
2-3- طبقهبندی جریان داده 26
2-3-1- موضوعات پژوهشی.. 27
2-4- جمعبندی.. 31
فصل سوم - مروری بر کارهای انجام شده 33
3-1- مقدمه. 34
3-2- دادهکاوی توزیعشده ایستا 35
3-2-1- روشهای غیرمتمرکز. 36
3-2-2- روشهای مبتنی بر توزیع ذاتی دادهها 37
3-3- کارهای مهم انجام شده در زمینه دادهکاوی با استفاده از عامل. 38
3-4- کارهای انجام شده در زمینه طبقهبندی جریان دادهها 41
3-4-1- روشهای طبقهبندی Ensemble-based. 41
3-4-2- درختهای تصمیم بسیار سریع. 43
3-4-3- طبقهبندی On-Demand. 46
3-4-4- OLIN.. 48
3-4-5- الگوریتمهای LWClass. 49
3-4-6- الگوریتم ANNCAD.. 51
3-4-7- الگوریتم SCALLOP. 51
3-4-8- طبقهبندی جریان دادهها با استفاده از یک روش Rule-based. 53
3-5- جمعبندی.. 54
فصل چهارم - تعریف مساله. 55
4-1- مقدمه. 56
4-2- تعریف مساله برای فاز اول. 56
4-2-1- جریان داده 57
4-2-2- مفهوم یا مدل موجود در جریان داده 57
4-2-3- مساله طبقهبندی جریان دادههای دارای تغییر مفهوم. 57
4-3- تعریف مساله برای فاز دوم. 59
فصل پنجم - رویکردهای پیشنهادی.. 62
5-1- مقدمه. 63
5-2- رویکرد پیشنهادی برای فاز اول پروژه 63
5-2-1- عامل و ویژگیهای آن در این مساله. 64
5-2-2- عملکرد کلی عامل. 65
5-2-3- معماری عامل. 66
5-2-3-1- حسگرها 67
5-2-3-2- پایگاه دانش عامل. 68
5-2-3-3- تابع ارزیابی محیط.. 70
5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده 70
5-2-3-3-2- نحوه استخراج الگوهای recur 70
5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص... 74
5-2-3-4- تابع سودمندی.. 75
5-2-3-5- بخش تصمیمگیری و Planning. 79
5-2-3-5-1- بخش تصمیمگیری.. 79
5-2-3-5-2- Planning. 83
5-2-3-6- بخش Action. 86
5-3- رویکرد پیشنهادی برای فاز دوم مساله. 87
5-3-1- عاملهای مشتری.. 88
5-3-2- عامل صفحه زرد. 90
5-3-3- عاملهای دادهکاو. 91
5-3-3-1- معماری عاملهای دادهکاو. 92
5-3-3-1-1- تابع BRF. 94
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-3- تابع فیلتر. 95
5-3-3-1-4- بخش Actions. 96
5-3-3-1-5- Plan های عامل. 97
5-3-3-1-5- 1- Plan مربوط به طبقهبندی.. 97
5-3-3-1-5-2- Plan مربوط به تطبیق طبقهبند 98
5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره 101
5-4- جمعبندی.. 111
فصل ششم - آزمایشات و نتایج.. 113
6-1- مقدمه. 114
6-2- محیط عملیاتی.. 114
6-3- مجموعه دادههای مورد استفاده 116
6-3-1- مجموعه دادههای استاندارد. 116
6-3-2- مجموعه دادههای واقعی.. 117
6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه. 117
6-5- آزمایشات انجام شده 118
6-5-1- آزمایشات مربوط به فاز اول. 119
6-5-2- آزمایشات مربوط به فاز دوم. 128
6-6- جمعبندی.. 130
فصل هفتم- جمعبندی و نتیجهگیری.. 132
فهرست مراجع. 136
فهرست اشکال
شکل 1-1- معماری BDI در عامل. 15
شکل 3-1- درخت تحقیق مربوط به طبقهبندی در مبحث دادهکاوی.. 34
شکل 3-2- طبقهبندی مبتنی بر Ensemble. .44
شکل 3-3- چارچوب روش On-Demand. 47
شکل 3-4- نمایی از سیستم OLIN.. 49
شکل 3-5- پروسه SCALLOP 53
شکل 5-1- نمودار ترتیب عملکرد عامل پیشنهادی.. 66
شکل 5-2- معماری عامل پیشنهادی.. 67
شکل 5-3- پنجره نظاره بر روی جریان دادهها 68
شکل 5-4- گراف ایجاد شده از روی رشته مفهومها 71
شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهومها 73
شکل 5-6- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K.. 81
شکل 5-7- شبه کد Plan کلی عامل. 83
شکل 5-8- نسبت واریانس به حاصلضرب 50 متغیر دارای مجموع ثابت.. 85
شکل 5-9- وزن دهی چند داده مختلف... 86
شکل 5-10- نمایی کلی از سیستم چندعامله ایجاد شده 88
شکل 5-11- معماری BDI عامل دادهکاو. 93
شکل 5-12- بخشی از جریان داده و قواعد استخراج شده از آن. 99
شکل 5-13- بخشی از جریان داده و قواعد استخراج شده از آن. 101
شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka. 115
شکل 6-2- زمان لازم بر حسب میلی ثانیه برای دادههای Stagger 120
شکل 6-3- زمان مصرف شده برای تطبیق طبقهبند. 120
شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای HyperPlan 121
شکل 6-5- زمان مصرف شده برای تطبیق طبقهبند 121
شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای Nursery 122
شکل 6-7- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 122
شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124
شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 124
شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 125
شکل 6-11- زمان مصرف شده برای تطبیق طبقهبند برای دادههای HyperPlan 125
شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger 126
شکل 6-13- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Stagger 126
شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery 127
شکل 6-15- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 127
شکل 6-16- نمودار نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery 130
فهرست جدولها
جدول 1-1- ویژگیهای یک عامل 11
جدول 3-1- ماتریس حاصل از روش LWClass. 51
جدول 3-2- مقایسه تکنیکهای ذکر شده 54
جدول 5-1- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو. 69
جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی "CFDA". 75
جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل. 81
جدول 5-4- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده 105
جدول 6-1- دقت طبقهبندی روشهای مختلف... 128
جدول 6-2- نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف... 130