The high-volume, low-latency world of network traffic presents significant obstacles for complex analysis techniques. The unique challenge of adapting powerful but high-latency models to realtime network streams is the basis of our cyber security project. In this paper we discuss our use of NoSQL databases in a framework that enables the application of computationally expensive models against a real-time network data stream. We describe how this approach transforms the highly constrained (and sometimes arcane) world of real-time network analysis into a more developer friendly model that relaxes many of the traditional constraints associated with streaming data. Our primary use of the system is for conducting streaming text analysis and classification activities on a network link receiving ~200,000 emails per day.
Keywords: NoSQL, database, network, streaming, analysis, informatics, email, real-time.
دانلود اصل مقاله
استفاده از پایگاه داده NoSQL برای جریان تجزیه و تحلیل شبکه
حجم بالا، زمان تاخیر کم ترافیک شبکه، موانع قابل توجهی را برای تکنیک های تجزیه و تحلیل جامع ارائه می دهد. چالش منحصر به فرد از تطبیق قدرتمند و در عین حال مدل تاخیر بالا برای بلادرنگ کردن جریان شبکه بر اساس امنیت سایبر پروژه است. در این مقاله استفاده از پایگاه های داده NoSQL در یک چارچوب ما را قادر می سازد که در مورد استفاده از مدل های محاسباتی گران قیمت در برابر زمان واقعی جریان اطلاعات شبکه بحث کنیم.
ما توصیف می کنیم که چگونه این روش بسیار محدود (و گاهی اوقات محرمانه) جهان از تجزیه و تحلیل شبکه در زمان واقعی تبدیل به یک توسعه دهنده مدل دوستانه تر می شود که شل بسیاری از محدودیت های سنتی در ارتباط با جریان داده ها است. استفاده اصلی ما از سیستم برای انجام تجزیه و تحلیل متن جریان و فعالیت های طبقه بندی در شبکه با لینک دریافت ~ ۲۰۰،۰۰۰ ایمیل در هر روز است.
Many database applications are written such that they require extensive and computationally-heavy analysis of the data stored; however, this can serve as a bottleneck in many cases. We examine the benets of converting a SQL database
to a NoSQL database for the implementation of an Apriori calculation to determine the most common askets” within a data set. After testing the system with BerkeleyDB, MongoDB, and CouchDB, using the original MySQL implementation as a baseline, we nd that all NoSQL implementations are faster than the RDBMS counterpart, and that the BerkeleyDB implementation runs orders of magnitude faster than all others.
دانلود اصل مقاله
ترجمه مقاله : محاسبه استقرایی در زمان واقعی با استفاده از پایگاههای داده nosql
چکیده
بسیاری از کاربردهای پایگاه داده به گونه ای نوشته شده اند که نیازمند آنالیزهای وسیع و دارای محاسبات سنگین روی داده ها هستند، اما این می تواند به عنوان یک تنگنا در بسیاری موارد عمل کند. ما فواید تبدیل یک پایگاه داده SQL به یک پایگاه داده NoSQL را برای اجرای محاسبه استقرایی جهت تعیین رایج ترین “سبدهای” درون یک مجموعه داده، مورد آزمایش قرار می دهیم. بعد از آزمایش سیستم با BerkeleyDB، MongoDB و CouchDB با استفاده از اجرای MySQL اصلی به عنوان مبنا، مشاهده کردیم که تمامی اجراهای NoSQL سریع تر از همتای RDBMS هستند و اجرای BerkeleyDB چندین مرتبه سریع تر از سایرین انجام می شود.