The high-volume, low-latency world of network traffic presents significant obstacles for complex analysis techniques. The unique challenge of adapting powerful but high-latency models to realtime network streams is the basis of our cyber security project. In this paper we discuss our use of NoSQL databases in a framework that enables the application of computationally expensive models against a real-time network data stream. We describe how this approach transforms the highly constrained (and sometimes arcane) world of real-time network analysis into a more developer friendly model that relaxes many of the traditional constraints associated with streaming data. Our primary use of the system is for conducting streaming text analysis and classification activities on a network link receiving ~200,000 emails per day.
Keywords: NoSQL, database, network, streaming, analysis, informatics, email, real-time.
دانلود اصل مقاله
استفاده از پایگاه داده NoSQL برای جریان تجزیه و تحلیل شبکه
حجم بالا، زمان تاخیر کم ترافیک شبکه، موانع قابل توجهی را برای تکنیک های تجزیه و تحلیل جامع ارائه می دهد. چالش منحصر به فرد از تطبیق قدرتمند و در عین حال مدل تاخیر بالا برای بلادرنگ کردن جریان شبکه بر اساس امنیت سایبر پروژه است. در این مقاله استفاده از پایگاه های داده NoSQL در یک چارچوب ما را قادر می سازد که در مورد استفاده از مدل های محاسباتی گران قیمت در برابر زمان واقعی جریان اطلاعات شبکه بحث کنیم.
ما توصیف می کنیم که چگونه این روش بسیار محدود (و گاهی اوقات محرمانه) جهان از تجزیه و تحلیل شبکه در زمان واقعی تبدیل به یک توسعه دهنده مدل دوستانه تر می شود که شل بسیاری از محدودیت های سنتی در ارتباط با جریان داده ها است. استفاده اصلی ما از سیستم برای انجام تجزیه و تحلیل متن جریان و فعالیت های طبقه بندی در شبکه با لینک دریافت ~ ۲۰۰،۰۰۰ ایمیل در هر روز است.