Logo

Communicatie.net

Bureau voor online communicatie

Wat is een logfile?

Een logfile is een tekstbestand waar de (web)server informatie over de bezoekers van uw website naar wegschrijft. Zo'n logfile bestaat doorgaans uit drie delen.

Logfile.

Deel 1

In dit deel staat informatie over de browser die uw bezoeker gebruikt. En omdat ook het besturingssysteem wordt weergegeven weet u tevens welke hardware de betreffende websurfer gebruikt. Een regel uit dit deel van het logfile ziet er zo uit:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56

Uit de bovenstaande tekst valt op te maken dat de bezoeker gebruik maakt van een desktop met daarop Windows 10 in combinatie met Edge versie 83.

De twee bezoekers hieronder daarentegen surfen met respectievelijk: Safari 13.1 op een Apple desktop met MacOS 10.15 en Chrome 83.0 op een Samsung Galaxy J4 smartphone met Android 9.0.

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/ 13.1.1 Safari/605.1.15

Mozilla/5.0 (Linux; Android 9; SM-J415FN) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Mobile Safari/537.36

Deel 2

Het tweede deel van het logfile is verreweg het meest interessant: hierin staat een compleet overzicht van alle bestanden die van uw site zijn opgevraagd. Een regel uit dit deel van het logfile ziet er zo uit:

st-a1543.chem.tue.nl - - [01/May/2020:13:16:05 +0200] "GET /exponentiele_groei.html HTTP/2.0" 200 15772

Wat zegt deze regel? Om te beginnen kunnen we zien waar iemand zich bevindt. In dit geval gaat het om een medewerker of student op de faculteit Scheikundige Technologie van de Technische Universiteit Eindhoven (TU/e). Hij of zij bekeek op 1 mei om 13:16 uur op Cijfers.net de webpagina over exponentiële groei.

HTTP/2.0 geeft aan welk protocol gebruikt werd voor het versturen van de pagina, namelijk: HyperText Transfer Protocol versie 2.0. De code 200 betekent dat het bestand goed is ontvangen door de browser van de gebruiker. Er kan ook een andere code staan: zo betekent 404 dat een pagina niet is ontvangen omdat deze niet (meer) op de website staat.

Het getal 15772 tenslotte geeft het aantal verzonden bytes weer. Dit getal komt (ongeveer) overeen met de omvang (uitgedrukt in bytes) van de betreffende webpagina.

Deel 3

Uit het laatste deel van het logfile kunt u opmaken waar uw bezoeker vandaan kwam vóórdat hij of zij uw website betrad. Om die reden wordt dit deel van het logfile "referer" genoemd. Hieronder een klein deel van het logfile van (opnieuw) Cijfers.net:

"GET / HTTP/2.0" 200 9493 "https://humor.startpagina.nl/"

"GET /bliksem_01.html HTTP/2.0" 200 5586 "https://weer.startpagina.nl/"

"GET /zon.html HTTP/2.0" 200 5642 "https://zonne-energie.startpagina.nl/"

Uit deze regels blijkt dat op Startpagina.nl meerdere hyperlinks naar Cijfers.net staan: naar de hoofdpagina (herkenbaar aan de schuine streep en de afwezigheid van een bestandsnaam), naar een pagina over onweer en naar een pagina over de zon.

Dit soort informatie is bijzonder nuttig, maar ook zeer privacygevoelig. Nuttig, omdat u bijvoorbeeld kunt zien wat er over uw site geschreven wordt. Gevoelig, omdat de gebruiker, vaak zonder het te weten, een deel van zijn of haar surfgedrag prijsgeeft. Als iemand rechtstreeks van een sekssite naar uw website komt kunt u dat in uw logfile zien! Overigens is daarmee natuurlijk nog niet de identiteit van die bezoeker bij uw bekend.

Tenslotte kunt u aan dit deel van het logfile ook zien in welke zoekprogramma's uw site staat en (soms, maar niet altijd) met behulp van welke zoekwoorden uw site gevonden wordt.

"GET /virussen.html HTTP/2.0" 200 6732 "https://www.google.nl/"

"GET /virussen.html HTTP/2.0" 200 6747 "https://www.bing.com/search?q=virussen+cijfers+&qs=n&form=QBRE&sp=-1&pq=virussen+cijfers+&sc=0-17&sk=&cvid=C84920B738674C4988E7110F41420012"

"GET /virussen.html HTTP/2.0" 200 6738 "https://duckduckgo.com/"

In de bovenstaande regels ziet u steeds het zoekprogramma (resp. Google, Bing en DuckDuckGo), de woorden waarop werd gezocht (virussen+cijfers) en het zoekresultaat (virussen.html op het domein cijfers.net).

Wat laat u slingeren?

En als u zich nu afvraagt wat ú allemaal op het internet laat 'rondslingeren'... Dit is één van de regels die u zojuist bij het bezoeken van deze site (ongemerkt) naar ons logfile heeft weggeschreven:

"CCBot/2.0 (https://commoncrawl.org/faq/)" 54.237.183.249 - - [29/Sep/2020:17:04:30 +0200] "GET /logfiles.html HTTP/1.1" 200 16K "(none)"