Startseite » Business & Software » Softwareindustrie » ? Datadog 4x schneller + Datensicherheit ? Schnellstes ETL / Big Data Wrangling für Analytics und PII-Datenmaskierung ?

? Datadog 4x schneller + Datensicherheit ? Schnellstes ETL / Big Data Wrangling für Analytics und PII-Datenmaskierung ?

Was ist Datadog? Datadog ist eine Web-Anwendung zur Überwachung von Datenfeeds, zur Analyse von Trends, zur Erstellung analytischer Dashboard-Anzeigen und zum Senden von Warnmeldungen. Dieser Artikel ist der erste in einer vierteiligen Serie über die Fütterung der Datadog-Cloudanalyseplattform mit verschiedenen Arten von Daten. Weitere Artikel befassen sich mit der Vorbereitung von Daten und deren Einspeisung in Datadog; der Verwendung von Daten in Datadog-Visualisierungen und der Verwendung von PII-Suchergebnissen in Datadog zur Verbesserung der Datensicherheit.

In früheren Artikeln haben wir erklärt, wie Splunk mit Zieldaten für BI indiziert wird und wie Daten für SIEM-Analysen direkt aus IRI Voracity ETL/Wrangling und PII-Discovery-Aufträgen protokolliert werden. Splunk-Benutzer können mehrere speziell entwickelte IRI-Verbindungsoptionen nutzen, um ihre Informationsproduktion zu beschleunigen und die Datensicherheit zu verbessern. Aber was ist, wenn Sie Datadog verwenden?

Was frisst Datadog? Datadog kann mit Logdaten von Daten- und Datenbank-Profiling- und Discovery-Aufträgen in der grafischen IDE der IRI-Workbench für Voracity arbeiten, die auf Eclipse? basiert, sowie mit Datenzielen in ETL-, Migrations-, Datenbereinigungs-, Maskierungs- und Berichterstattungsaufträgen. Unabhängig von der Quelle oder der Art der Daten, mit denen Sie Datadog füttern, bezeichnet Datadog diese Daten als “Log” oder “Logs”.

Wie frisst Datadog? Daten-Feeds oder “Logs” von allen Voracity-unterstützten Operationen werden nicht an Datadog weitergeleitet, wie dies bei Splunk über eine Anwendung, ein Add-on oder einen Forwarder der Fall wäre. Stattdessen ruft Datadog automatisch und in Echtzeit Voracity-Ausgabedaten von einem Erfassungsagenten auf jeder Maschine ab, die die Daten erhält.

Braucht Datadog Voracity? In Fällen, in denen eine große Datenmenge offline vorbereitet werden muss, bevor die Daten ausgegeben werden und die Daten auf einer Infrastruktur außerhalb von Datadog verarbeitet werden können, kann Voracity für ein hochleistungsfähiges Daten-Wrangling sorgen. Dies ist vielleicht kein typischer Fall für Datadog, aber es ist hilfreich für Voracity-Anwender in ETL- und Data Lakes Umgebungen, die gemischte Ergebnisse zur weiteren Analyse und Anzeige an Datadog übergeben möchten.

Wir stellen fest, dass Datadog typischerweise Daten aufnimmt, die in Echtzeit von Anwendungen, Software-Tools, DB-Caches und anderen Log-Emittern fließen. Aber auch in dieser Situation verarbeitet Voracity eine ganze Reihe von Datenquellen vor, die für die Analyse in Datadog bestimmt sind. In einem späteren Artikel werden wir einen Anwendungsfall von Streaming-Fehler- und Audit-Protokollen sowie Betriebssicherheitsdaten von Voracity und die PII-Such- und Maskierungsergebnisse aus seinen Komponentenprodukten IRI DarkShield und CellShield EE vorstellen.

Datadog ist ein mit allen Funktionen ausgestatteter Überwachungs-, Dashboard- und Datenverarbeitungsdienst. Datadog nimmt Protokolldaten auf und verarbeitet sie, sobald sie eintreffen. Während die ersten Logs innerhalb von zehn Sekunden angezeigt werden, dauert es bei der Verarbeitung großer Datenmengen als Logs in Datadog länger, bis alle Logs angezeigt werden. Die genaue Zeit hängt sowohl vom Volumen als auch von der Verbindungsgeschwindigkeit ab. Selbst bei einer sehr schnellen Verbindung – wie z.B. einem 1GB/s Glasfaserkanal – benötigt Datadog zusätzliche Zeit für die Verarbeitung der Rohdaten, selbst wenn diese vollständig hochgeladen wurden. Die Daten sind im Datadog Log-Explorer zur Ansicht, Filterung, Visualisierung usw. erst sichtbar, wenn sie hochgeladen und verarbeitet wurden.

Während Datadog typischerweise verwendet wird, um kleinere Protokolldateien in nahezu Echtzeit zu verarbeiten, können Voracity-Benutzer sehr große Dateien in viel kleinere Teilmengen verarbeiten, um die Gesamtgröße der Daten zu verringern. Für eine ganze 2,1 GB große Datei dauert die Vorbereitung der Rohdaten in Datadog (eine erste Phase der Datenindizierung und -optimierung, damit die Protokolle für die spätere Filterung, Sortierung und Visualisierung im Datadog Log Explorer sichtbar sind) etwa 8 Minuten, zusätzlich zu den 30 Sekunden, die das Hochladen in Datadog dauert. Datadog verarbeitet die Daten so, wie sie kommen, so dass die ersten Logs aus der Datei fast sofort sichtbar sind. Es dauert etwa 8 Minuten, bis alle Daten aus der Datei verarbeitet und im Log-Explorer von Datadog sichtbar sind.

Datadog verarbeitet die Logs, während sie hochgeladen werden, so dass langsamere Geschwindigkeiten wie 500 MB/s oder sogar 200 MB/s keinen Unterschied in der gesamten Verarbeitungs-/Uploadzeit machen können. Ab einem bestimmten Schwellenwert, wahrscheinlich 100 MB/s oder langsamer, wird die gesamte Verarbeitungs-/Uploadzeit jedoch länger. Unabhängig von den Upload-Geschwindigkeiten kann Voracity jedoch alles beschleunigen, indem die Daten vor Datadog extern verarbeitet werden. Voracity kann Daten u.a. sortieren, zusammenführen, aggregieren, neu formatieren, filtern, bereinigen und maskieren. Voracity zeichnet sich auch dadurch aus, sehr große Dateien in Dateien zu zerlegen, die genau die Daten enthalten, die Sie wollen, in dem Format, das Sie benötigen (wie JSON oder XML für Datadog).

Voracity hat die Vielseitigkeit, Ihre Daten zu schützen und gleichzeitig den Realismus zu wahren! Damit kann Voracity Datenfelder erhalten, ohne sie vollständig zu entfernen oder vollständig zu maskieren. Dies kann den Anwendern helfen, sich eine Vorstellung davon zu machen, wie die Daten aussehen würden, oder Muster-Dashboards zu erstellen, ohne sensible Daten offen zu legen.

Voracity kann Daten auch bereinigen, indem es Daten entfernt oder verändert, die falsch, unvollständig, irrelevant, dupliziert oder falsch formatiert sind. Voracity-Jobs sind stapelbar und können nach einem Zeitplan ausgeführt werden, so dass in bestimmten Zeitintervallen geprüft wird, ob eine neue Datenquelldatei in ein Verzeichnis oder Verzeichnisse eingefügt wird und ein daraus resultierendes Skript generiert und ausgeführt wird. Die Ausgabedatei kann dann im Batch-Skript angegeben werden, um in ein Verzeichnis übertragen zu werden, das von Datadog überwacht wird. Dadurch passt sich Voracity sehr gut in den typischen Datenstrom von Datadog ein.

Wie hoch ist das Zeitersparnis? Die Vorverarbeitung großer Dateien in kleinere Dateien mit der bedingten Filterfähigkeit von Voracity kann die Gesamtzeit für die Erstellung einer Visualisierung in Datadog aus Rohdaten erheblich reduzieren.

Wir nutzten eine 2,1 GB große Datei mit Unternehmensdaten aus England als Benchmark. Es wurde Voracity verwendet, um nur nur die Felder zu filtern mit Datensätzen, bei denen das Herkunftsland des Unternehmens England ist, die Anzahl der ausstehenden Hypotheken größer als 1 ist und die Stadt nicht Cambridge ist. Daraus ergibt sich eine 84 MB große Datei. Es dauert etwa 100 Sekunden, bis Voracity dieses Skript ausführt, dann mehrere Sekunden bis die resultierende Datei bei Datadog angemeldet ist.

Vergleichen Sie dies mit der Protokollierung der gesamten 2,1 GB-Datei in Datadog, die etwa 38 Sekunden für den Upload und weitere 7 Minuten für die Verarbeitung durch Datadog benötigt, um dann auf die gleiche Weise wie mit Voracity gefiltert und sortiert zu werden! In diesem Beispiel wurden durch Voracity etwa 5 Minuten und 45 Sekunden eingespart, was einer Zeitersparnis von etwa 328,5 Prozent entspricht! Es können auch Fehler- und Audit-Protokolle direkt in Datadog protokolliert werden. Die einzige erforderliche Angabe ist ein API-Schlüssel, der in einer appsettings.json-Datei oder direkt über das CellShield-Protokollmenü bearbeitet werden kann.

Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.

Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.

JET-Software entwickelt und vertreibt seit 1986 Software für die Datenverarbeitung für gängige Betriebssysteme wie BS2000/OSD, z/OS, z/VSE, UNIX & Derivate, Linux und Windows. Benötigte Portierungen werden bei Bedarf realisiert.

Wir unterstützen weltweit über 20.000 Installationen. Zu unseren langjährigen Referenzen zählen deutsche Bundes- und Landesbehörden, Sozial- und Privatversicherungen, Landes-, Privat- und Großbanken, nationale und internationale Dienstleister, der Mittelstand sowie Großunternehmen.

Posted by on 23. Juni 2020. Filed under Softwareindustrie. You can follow any responses to this entry through the RSS 2.0. You can leave a response or trackback to this entry

Sie müssen angemeldet sein um Kommentare zu schreiben Anmelden


Blogverzeichnis - Blog Verzeichnis bloggerei.de Blog Top Liste - by TopBlogs.de Blogverzeichnis