فرمت فایل : word (قابل ویرایش) تعداد صفحات : 22 صفحه
چکیده
در این مقاله، دستاوردهای موتور جستجوی Cora بعنوان کاوشگر متمرکزی که از یادگیری تقویتی برای کاوش کارآی وب استفاده می کند، توسعه داده شده است. مهمترین دستاورد این پروژه، بهبود روش های کاوش Cora با توسعه و ارائه روشهای جدید برای محاسبه مقدار Q در کاوشگر بر پایه یادگیری تقویتی است. کاوشگرهای پیشنهاد شده در این پروژه صفحات هدف را سریعتر مییابند و نسبت به کاوشگرهای موجود (Cora، کاوشگر متمرکزی که پاداشهای آینده را مدل نمیکند و نیز کاوشگر اول-سطح) به پاداشهای بیشتری در طی کاوش دست مییابند. در این پروژه برای یادگیری متن در خلال کاوش متمرکز وب برای اولین بار از دستهبندی کننده ماشینهای بردار پشتیبان (SVMs) استفاده شده است. در نیمه اول کاوش، کاوشگرهای یادگیری تقویتی بر پایه SVMs نسبت به کاوشگرهای یادگیری تقویتی بر پایه NB بسیار بهتر عمل می کنند و صفحات هدف را سریع تر می یابند. بستر آزمایش استفاده شده برای ارزیابی کاوشگرهای پیشنهادی و روش های موجود، چهار پایگاه وب بخش های علوم کامپیوتر چهار دانشگاه بوده که از وب کپی و بصورت خارج از خط در دسترس قرار گرفتهاند.
مقدمه
تعداد صفحات، سرویس دهندهها و حوزه های وب (مثلاً www.cisco.com) با سرعت بسیار زیادی در حال افزایش است. بزرگترین موتورهای جستجو، کارهای وسیعی برای توسعه دستاوردهایشان انجام دادهاند؛ اما رشد وب فراتر از افزایش قدرت موتورهای جستجو بوده است ]1[.تعداد پرسوجوهایی که موتورهای جستجو باید پاسخ دهند نیز به صورت تصاعدی افزایش یافته است]2[. کاوشگرهای وب که Robot، Spider و Worm هم نامیده میشوند، دارای قدمتی به اندازه خود وب هستند ]3[.کلمه "کاوشگر" از آنجایی به این برنامه اطلاق میشود که تمامی پیوندهای درون یک صفحه را برای ارجاعات بعدی استخراج میکند. کاوشگر وب همه منظوره تلاش می کند تا هر چقدر میتواند صفحات بیشتری را از مجموعهای از پایگاه های وب جمعآوری کند. یک کاوشگر متمرکز به جای جمع آوری و شاخص بندی تمام اسناد وب، برای پاسخگویی به تمامی پرس و جوهای آینده، موضوع محدوده کاوش خود را تحلیل می کند تا پیوندهایی را بیابد که بیشترین ربط را به موضوع کاوش داشته باشند و از نواحی نامربوط وب احتراز کند. استفاده از این روش منجر به صرفه جویی قابل توجه در سختافزار، نرمافزار و منابع شبکه میشود و به میزان پوشش بالایی بر روی اسناد مرتبط موجود در وب دست مییابد. یادگیری تقویتی ]4و5[ یکی از شاخههای یادگیری نیمه-نظارتی است و هدف آن یادگیری از طریق محاوره مستقیم با یک محیط پویا و استفاده از چهارچوب تنبیه و تشویق برای یادگیری است. استفاده از یادگیری تقویتی بهبود مناسبی را در کارآیی کاوشگر نسبت به کاوشگر اول-سطح و کاوشگر متمرکز موجود از خود نشان داده است ]6و7[. در این مقاله روشهای موجود کاوش وب با استفاده از یادگیری تقویتی توسعه های داده شده است. توسعه های اعمال شده در این کاوشگرها بهبود عملکرد این کاوشگرها نسبت به کاوشگرهای قبلی را نشان می دهد.