Big Data rendszerbe való adatbetöltés

Számos big data projektre érvényes a 80/20-as szabály, azaz az erőforrások 80%-át az adatok elemző eszközökbe való betöltésére fordítják, míg magára az elemzése mindössze 20% jut. A syslog-ng források széles köréből képes adatokat gyűjteni, majd továbbítani Hadoop-ba, Elasticsearch-be, MongoDB-be, Kafká-ba, és további eszközökre.

Kihívások

  • Változó adattípusok: A különböző rendszerekből, alkalmazásokból és eszközökből különböző formátumban érkező adat gyakran többféle speciális eszközt és integrációt igényel.
  • Nagy tömegű adat: A big data, egész egyszerűen SOK. Az ilyen adatforrások könnyedén túlterhelik az adatgyűjtő eszközöket.
  • Nehézkes adatelérés: A legtöbb big data rendszer komplex, elosztott környezetből szerzi az adatokat, gyakran több, távoli helyről, mely kapcsolódási és késleltetési problémákkal jár.
  • Hiányos adatok: A hiányos adatokon alapuló következtetések sokszor hibásak. Nagy környezetek esetében könnyű adatot veszteni a gyűjtés és a betöltés során.
  • Magas betöltési költségek: Az adatok adattárakba való betöltése gyakran a big data projektek legköltségesebb- és leginkább időigényesebb része.
  • Az adatfogyasztók eltérő igényei: A big data rendszerek gyakran több adatfelhasználót is kiszolgálnak, akiknek egyedi igényeik vannak.

Miért válassza a syslog-ng-t?

  • Széleskörű adatgyűjtés: A syslog-ng képes adatokat gyűjteni legacy rendszerekből, webszerverekről, SQL adatbázisokból, és minden olyan alkalmazásból és eszközről, amely JSON üzeneteket vagy szöveges fájlokat generál.
  • Adattovábbítás Hadoop-ra: A syslog-ng natív módon támogatja a Hadoop és MapR elosztott fájlrendszerébe való adattovábbítást. A Hortonworks és a MapR vállalatokkal való partneri viszonynak köszönhetően a syslog-ng könnyedén továbbít adatokat Hadoop clusterekbe.
  • Rugalmas adattovábbítás: Az adat felhasználóknak sokszor különféle igényeik vannak, ezért számos szervezet több adatkezelő és elemző rendszert is használ. A syslog-ng rugalmasan képes adatokat továbbítani X forrásból Y desztinációra.
  • Adattovábbítás Elastisearch-be: A syslog-ng a naplóadatokat közvetlenül az Elastisearch-nek, az egyik legnépszerűbb nagyvállalati keresőrendszernek is képes továbbítani. A syslog-ng kereshető JSON formátumban továbbítja az adatokat az Elastisearch-nek.
  • Valós idejű adat transzformáció: A syslog-ng Pattern Database-ének segítségével az adatokat valós időben lehet osztályozni, szűrni, parszolni, újraírni és kiegészíteni. Szöveges adatokat értékpárokká lehet alakítani több adattárhoz is.
  • Adattovábbítás MongoDB-re: A syslog-ng képes adatokat továbbítani MongoDB-re, amely egy népszerű NoSQL dokumentum adatbázis. Sémamentes, dokumentum orientált architektúrájának köszönhetően a MongoDB-t számos szolgáltatás és weblap használja backend-ként.
  • Megbízható Adattovábbítás: A TCP és RLTP protokollokon keresztül való adattovábbítás, a helyi lemezpufferelés, a kliens oldali failover és más funkcióknak köszönhetően a syslog-ng üzenetvesztés nélkül továbbítja az adatokat.
  • Adattovábbítás Apache Kafkába: A syslog-ng képes közvetlenül Apache Kafkába is adat üzeneteket küldeni. A Kafka egy olyan, üzenetküldő rendszer, amely nagy adattömeget képes alacsony késleltetési időkkel kezelni. A syslog-ng kipublikálja a napló üzeneteket a Kafkának, ahol az előfizetők hozzáférhetnek azokhoz.

Előnyök

  • Alacsonyabb bevezetési és üzemeltetési költségek
    A syslog-ng architektúrája lehetővé teszi, hogy ugyanazt a szoftvercsomagot telepítse több mint 50 különféle szerverplatformra.
  • Megbízható adatok
    A hiánytalan adatbetöltésnek köszönhetően az elemzési eredmények sokkal megbízhatóbbá válnak.
  • Adat, amikor csak kell
    A valós időben továbbított adatok révén gyorsabban tud reagálni és hamarabb megkapja a válaszokat kérdéseire.
  • Biztonságos adatok
    Az end-to-end titkosítással megelőzhető a nem kívánt külső felek hozzáférése.