Wenn Du deine Logfiles regelmäßig prüfen willst, dafür aber kein Geld ausgeben möchtest, ist KNIME genau das richtige Tool für dich.
In diesem Artikel erkläre ich dir, wie Du die Logfiles beschaffst, vorbereitest und die Rohdaten in Knime einliest. Möglicherweise hast Du deine Logs schon im csv oder Excel-Format vorliegen. In diesem Fall kannst Du direkt mit der Auswertung beginnen.
Nun kommt der Part, der ein wenig tricky ist, denn Du musst mittels der Feld-Kürzel das Log File Format definieren.
Für Strato und Ionos Logfiles kannst Du es mit den oben genannten Formaten testen. Auch die Logfiles anderer Hoster kannst Du damit testen, da es sich in vielen Fällen um Apache Webserver handelt, die (je nach Konfiguration) recht ähnliche Logfile Formate haben können.
Im Konfigurationsbereich des Knotens findest Du unter „Input Options“ zum einen die Möglichkeit, direkt eine Datei im Dateisystem (oder auf auf dem Server mittels sftp-Protokoll) auszuwählen. Du kannst aber auch nur ein Verzeichnis angeben und dann im Feld „Directory contents pattern“ per regulärem Ausdruck nach allen Logfiles suchen, die eingelesen werden sollen.
Im Feld „Log format“ musst Du nun das Format definierne. In der Knime Hilfe findest Du dazu die folgenden Felder:
%b – the size of the response in bytes
%h – the clients IP address or name
%{foo}i – the value of the request header foo
%l – the remote logname, if ident is used
%r – the request itself
%s – the HTTP status code
%t – the request’s timstamp
%u – the remote user, if authentication is used
%v – the virtual host this request was sent to
%0 – this special field can be used to process unknown fields
Wie gesagt, es ist ein bisschen kleinteilig, aber die Mühe lohnt sich definitiv. Denn hast Du einmal das Format definiert, hast Du nach dem Einlesen der Logfiles eine saubere Datentabelle in Knime, mit der Du wunderbar weiterarbeiten und gezielte Hits, zum Beispiel vom GoogleBot oder generelle Aufrufe von 404-Seiten auswerten kannst.
Und das beste dabei ist, dass das ganze komplett kostenlos ist. Einzig der Aufwand in das Finden des richtigen Formats entstehen dir. 🙂
Was Du dann alles mit den Daten der Logs machen kannst, zeige ich Dir in einem der nächsten Artikel.
Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Unbedingt notwendige Cookies
Unbedingt notwendige Cookies sollten jederzeit aktiviert sein, damit wir deine Einstellungen für die Cookie-Einstellungen speichern können.
Wenn du diesen Cookie deaktivierst, können wir die Einstellungen nicht speichern. Dies bedeutet, dass du jedes Mal, wenn du diese Website besuchst, die Cookies erneut aktivieren oder deaktivieren musst.
Drittanbieter-Cookies
Diese Website verwendet Matomo Analytics, um anonyme Informationen wie die Anzahl der Besucher der Website und die beliebtesten Seiten zu sammeln.
Diesen Cookie aktiviert zu lassen, hilft uns, unsere Website zu verbessern.
Bitte aktiviere zuerst die unbedingt notwendigen Cookies, damit wir deine Einstellungen speichern können!
Wenn Du deine Logfiles regelmäßig prüfen willst, dafür aber kein Geld ausgeben möchtest, ist KNIME genau das richtige Tool für dich.
In diesem Artikel erkläre ich dir, wie Du die Logfiles beschaffst, vorbereitest und die Rohdaten in Knime einliest. Möglicherweise hast Du deine Logs schon im csv oder Excel-Format vorliegen. In diesem Fall kannst Du direkt mit der Auswertung beginnen.
Logfiles vom Server laden
Logfile Formate einzelner Hosting Anbieter
Strato
Strato verwendet beim Schreiben der Logfiles das Apache Combined Log Format.
Wie man die Logfiles vom Server lädt, kannst Du hier nachlesen.
Ionos
Bei Ionos wird das Common Log Format (auch NCSA Common log format) verwendet. Es soll laut Ionos-Doku so aussehen:
Für das Auslesen mit KNIME musste ich die Log Format Angaben folgendermaßen anpassen, damit alles sauber eingelesen wurde.
Hier kannst Du lesen, wo Du die Logfiles in deinem Ionos Webspace findest.
Logfile mit dem KNIME Web Log Reader einlesen
Sofern Du deine Logfiles direkt vom Server Lädst und sie nicht durch eine andere Software z.B. als CSV Datei bereitgestellt werden, solltest Du dir den KNIME Web Log Reader installieren. Dieser ist im der KNIME Webanalytics Extension enthalten, die Du die via KNIME Hub runterladen kannst.
Nun kommt der Part, der ein wenig tricky ist, denn Du musst mittels der Feld-Kürzel das Log File Format definieren.
Für Strato und Ionos Logfiles kannst Du es mit den oben genannten Formaten testen. Auch die Logfiles anderer Hoster kannst Du damit testen, da es sich in vielen Fällen um Apache Webserver handelt, die (je nach Konfiguration) recht ähnliche Logfile Formate haben können.
Im Konfigurationsbereich des Knotens findest Du unter „Input Options“ zum einen die Möglichkeit, direkt eine Datei im Dateisystem (oder auf auf dem Server mittels sftp-Protokoll) auszuwählen. Du kannst aber auch nur ein Verzeichnis angeben und dann im Feld „Directory contents pattern“ per regulärem Ausdruck nach allen Logfiles suchen, die eingelesen werden sollen.
Im Feld „Log format“ musst Du nun das Format definierne. In der Knime Hilfe findest Du dazu die folgenden Felder:
%b – the size of the response in bytes
%h – the clients IP address or name
%{foo}i – the value of the request header foo
%l – the remote logname, if ident is used
%r – the request itself
%s – the HTTP status code
%t – the request’s timstamp
%u – the remote user, if authentication is used
%v – the virtual host this request was sent to
%0 – this special field can be used to process unknown fields
Weitere Felder bzw. deren Kürzel findest Du außerdem in der Apache Dokumentation für Log Formate.
Wie gesagt, es ist ein bisschen kleinteilig, aber die Mühe lohnt sich definitiv. Denn hast Du einmal das Format definiert, hast Du nach dem Einlesen der Logfiles eine saubere Datentabelle in Knime, mit der Du wunderbar weiterarbeiten und gezielte Hits, zum Beispiel vom GoogleBot oder generelle Aufrufe von 404-Seiten auswerten kannst.
Und das beste dabei ist, dass das ganze komplett kostenlos ist. Einzig der Aufwand in das Finden des richtigen Formats entstehen dir. 🙂
Was Du dann alles mit den Daten der Logs machen kannst, zeige ich Dir in einem der nächsten Artikel.