SEO mit KNIME

Logfiles mit KNIME auslesen

Logfliles mit KNIME auslesen

Wenn Du deine Logfiles regelmäßig prüfen willst, dafür aber kein Geld ausgeben möchtest, ist KNIME genau das richtige Tool für dich.

In diesem Artikel erkläre ich dir, wie Du die Logfiles beschaffst, vorbereitest und die Rohdaten in Knime einliest. Möglicherweise hast Du deine Logs schon im csv oder Excel-Format vorliegen. In diesem Fall kannst Du direkt mit der Auswertung beginnen.

Logfiles vom Server laden

Logfile Formate einzelner Hosting Anbieter

Strato

Strato verwendet beim Schreiben der Logfiles das Apache Combined Log Format.

"%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""

Wie man die Logfiles vom Server lädt, kannst Du hier nachlesen.

Ionos

Bei Ionos wird das Common Log Format (auch NCSA Common log format) verwendet. Es soll laut Ionos-Doku so aussehen:

%h %I %u %t "%r" %>s %b

Für das Auslesen mit KNIME musste ich die Log Format Angaben folgendermaßen anpassen, damit alles sauber eingelesen wurde.

%h %l %u %t "%r" %>s %b %v "%{Referer}i" "%{User-agent}i" %0

Hier kannst Du lesen, wo Du die Logfiles in deinem Ionos Webspace findest.

Logfile mit dem KNIME Web Log Reader einlesen

Sofern Du deine Logfiles direkt vom Server Lädst und sie nicht durch eine andere Software z.B. als CSV Datei bereitgestellt werden, solltest Du dir den KNIME Web Log Reader installieren. Dieser ist im der KNIME Webanalytics Extension enthalten, die Du die via KNIME Hub runterladen kannst.

KNIME Web Log Reader

Nun kommt der Part, der ein wenig tricky ist, denn Du musst mittels der Feld-Kürzel das Log File Format definieren.

Für Strato und Ionos Logfiles kannst Du es mit den oben genannten Formaten testen. Auch die Logfiles anderer Hoster kannst Du damit testen, da es sich in vielen Fällen um Apache Webserver handelt, die (je nach Konfiguration) recht ähnliche Logfile Formate haben können.

Im Konfigurationsbereich des Knotens findest Du unter „Input Options“ zum einen die Möglichkeit, direkt eine Datei im Dateisystem (oder auf auf dem Server mittels sftp-Protokoll) auszuwählen. Du kannst aber auch nur ein Verzeichnis angeben und dann im Feld „Directory contents pattern“ per regulärem Ausdruck nach allen Logfiles suchen, die eingelesen werden sollen.

Dialog zur Konfiguration des Web Log Reader Knotens

Im Feld „Log format“ musst Du nun das Format definierne. In der Knime Hilfe findest Du dazu die folgenden Felder:

%b – the size of the response in bytes

%h – the clients IP address or name

%{foo}i – the value of the request header foo

%l – the remote logname, if ident is used

%r – the request itself

%s – the HTTP status code

%t – the request’s timstamp

%u – the remote user, if authentication is used

%v – the virtual host this request was sent to

%0 – this special field can be used to process unknown fields

Weitere Felder bzw. deren Kürzel findest Du außerdem in der Apache Dokumentation für Log Formate.

Wie gesagt, es ist ein bisschen kleinteilig, aber die Mühe lohnt sich definitiv. Denn hast Du einmal das Format definiert, hast Du nach dem Einlesen der Logfiles eine saubere Datentabelle in Knime, mit der Du wunderbar weiterarbeiten und gezielte Hits, zum Beispiel vom GoogleBot oder generelle Aufrufe von 404-Seiten auswerten kannst.

Und das beste dabei ist, dass das ganze komplett kostenlos ist. Einzig der Aufwand in das Finden des richtigen Formats entstehen dir. 🙂

Was Du dann alles mit den Daten der Logs machen kannst, zeige ich Dir in einem der nächsten Artikel.

über

Seit 2011 beschäftigt sich Raphael mit Suchmaschinenoptimierung. Sein Wissen und seine Erfahrung hat er bereits in Agenturen, kleinen und großen Unternehmen gesammelt und eingebracht.