تحقیق درباره بررسی بازیابی کارا و موثر اطلاعات وب از طریق دستاوردهای یادگیری ماشین

تحقیق درباره  بررسی بازیابی کارا و موثر اطلاعات وب از طریق دستاوردهای یادگیری ماشین

فرمت فایل : word (قابل ویرایش) تعداد صفحات : 22 صفحه

 

 

 

 

 

 

چکیده

در این مقاله، دستاوردهای موتور جستجوی Cora بعنوان کاوشگر متمرکزی که از یادگیری تقویتی برای کاوش کارآی وب استفاده می کند، توسعه داده شده ­است. مهم­ترین دستاورد این پروژه، بهبود روش های کاوش Cora با توسعه و ارائه روشهای جدید برای محاسبه مقدار Q در کاوشگر بر پایه یادگیری تقویتی است. کاوشگرهای پیشنهاد شده در این پروژه صفحات هدف را سریع­تر می­یابند و نسبت به کاوشگرهای موجود (‍Cora، کاوشگر متمرکزی که پاداشهای آینده را مدل نمی­کند و نیز کاوشگر اول-سطح) به پاداش­های بیشتری در طی کاوش دست می­یابند. در این پروژه برای یادگیری متن در خلال کاوش متمرکز وب برای اولین بار از دسته­بندی کننده ماشین­های بردار پشتیبان (SVMs) استفاده شده است. در نیمه اول کاوش، کاوشگرهای یادگیری تقویتی بر پایه SVMs نسبت به کاوشگرهای یادگیری تقویتی بر پایه NB بسیار بهتر عمل می کنند و صفحات هدف را سریع تر می یابند. بستر آزمایش استفاده شده برای ارزیابی کاوشگرهای پیشنهادی و روش های موجود، چهار پایگاه وب بخش های علوم کامپیوتر چهار دانشگاه بوده که از وب کپی و بصورت خارج از خط در دسترس قرار گرفته­اند.

 

مقدمه

تعداد صفحات، سرویس دهنده­ها و حوزه های وب (مثلاً www.cisco.com) با سرعت بسیار زیادی در حال افزایش است. بزرگترین موتورهای جستجو، کارهای وسیعی برای توسعه دستاوردهایشان انجام داده‌اند؛ اما رشد وب فراتر از افزایش قدرت موتورهای جستجو بوده است ]1[.تعداد پرس‌وجوهایی که موتورهای جستجو باید پاسخ دهند نیز به صورت تصاعدی افزایش یافته است]2[. کاوشگرهای وب که Robot، Spider و Worm هم نامیده می‌شوند، دارای قدمتی به اندازه خود وب هستند ]3[.کلمه "کاوشگر" از آنجایی به این برنامه اطلاق می­شود که تمامی پیوندهای درون یک صفحه را برای ارجاعات بعدی استخراج می‌کند. کاوشگر وب همه منظوره تلاش می کند تا هر چقدر می‌تواند صفحات بیشتری را از مجموعه‌ای از پایگاه های وب جمع‌آوری کند. یک کاوشگر متمرکز به جای جمع آوری و شاخص بندی تمام اسناد وب، برای پاسخگویی به تمامی پرس و جوهای آینده، موضوع محدوده کاوش خود را تحلیل می کند تا پیوندهایی را بیابد که بیشترین ربط را به موضوع کاوش داشته باشند و از نواحی نامربوط وب احتراز کند. استفاده از این روش منجر به صرفه جویی قابل توجه در سخت­افزار، نرم­افزار و منابع شبکه می­شود و به میزان پوشش بالایی بر روی اسناد مرتبط موجود در وب دست می­یابد. یادگیری تقویتی ]4و5[ یکی از شاخه‌های یادگیری نیمه-نظارتی است و هدف آن یادگیری از طریق محاوره مستقیم با یک محیط پویا و استفاده از چهارچوب تنبیه و تشویق برای یادگیری است. استفاده از یادگیری تقویتی بهبود مناسبی را در کارآیی کاوشگر نسبت به کاوشگر اول-سطح و کاوشگر متمرکز موجود از خود نشان داده است ]6و7[. در این مقاله روشهای موجود کاوش وب با استفاده از یادگیری تقویتی توسعه های داده شده است. توسعه های اعمال شده در این کاوشگرها بهبود عملکرد این کاوشگرها نسبت به کاوشگرهای قبلی را نشان می دهد. 



خرید و دانلود تحقیق درباره  بررسی بازیابی کارا و موثر اطلاعات وب از طریق دستاوردهای یادگیری ماشین