Wat is een logfile?
Een logfile is een tekstbestand waar de (web)server informatie over de bezoekers van uw website naar wegschrijft. Zo'n logfile bestaat doorgaans uit drie delen.

Deel 1
In dit deel staat informatie over de browser die uw bezoeker gebruikt. En omdat ook het besturingssysteem wordt weergegeven weet u tevens welke hardware de betreffende websurfer gebruikt. Een regel uit dit deel van het logfile ziet er zo uit:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56
Uit de bovenstaande tekst valt op te maken dat de bezoeker gebruik maakt van een desktop met daarop Windows 10 in combinatie met Edge versie 83.
De twee bezoekers hieronder daarentegen surfen met respectievelijk: Safari 13.1 op een Apple desktop met MacOS 10.15 en Chrome 83.0 op een Samsung Galaxy J4 smartphone met Android 9.0.
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/ 13.1.1 Safari/605.1.15
Mozilla/5.0 (Linux; Android 9; SM-J415FN) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Mobile Safari/537.36
Deel 2
Het tweede deel van het logfile is verreweg het meest interessant: hierin staat een compleet overzicht van alle bestanden die van uw site zijn opgevraagd. Een regel uit dit deel van het logfile ziet er zo uit:
st-a1543.chem.tue.nl - - [01/May/2020:13:16:05 +0200] "GET /exponentiele_groei.html HTTP/2.0" 200 15772
Wat zegt deze regel? Om te beginnen kunnen we zien waar iemand zich bevindt. In dit geval gaat het om een medewerker of student op de faculteit Scheikundige Technologie van de Technische Universiteit Eindhoven (TU/e). Hij of zij bekeek op 1 mei om 13:16 uur op Cijfers.net de webpagina over exponentiële groei.
Servers en browsers communiceren met elkaar door middel van zgn. HTTP-statuscodes. 100, 101 en 102 zijn mededelingen. 200 t/m 207 staan voor: goed gevolg (zie de code 200 hierboven). 300 t/m 308 geven aan dat er sprake is van een omleiding. HTTP-statuscodes in de 400 range staan voor aanvraagfouten door de browser (zie de code 404 hierboven). En de codes 500 t/m 511 staan voor serverfouten.Het getal 15772 tenslotte geeft het aantal verzonden bytes weer. Dit getal komt (ongeveer) overeen met de omvang (uitgedrukt in bytes) van de betreffende webpagina.
Deel 3
Uit het laatste deel van het logfile kunt u opmaken waar uw bezoeker vandaan kwam vóórdat hij of zij uw website betrad. Om die reden wordt dit deel van het logfile "referer" genoemd. Hieronder een klein deel van het logfile van (opnieuw) Cijfers.net:
"GET / HTTP/2.0" 200 9493 "https://humor.startpagina.nl/"
"GET /bliksem_01.html HTTP/2.0" 200 5586 "https://weer.startpagina.nl/"
"GET /zon.html HTTP/2.0" 200 5642 "https://zonne-energie.startpagina.nl/"
Uit deze regels blijkt dat op Startpagina.nl meerdere hyperlinks naar Cijfers.net staan: naar de hoofdpagina (herkenbaar aan de schuine streep en de afwezigheid van een bestandsnaam), naar een pagina over onweer en naar een pagina over de zon.
Dit soort informatie is bijzonder nuttig, maar ook zeer privacygevoelig. Nuttig, omdat u bijvoorbeeld kunt zien wat er over uw site geschreven wordt. Gevoelig, omdat de gebruiker, vaak zonder het te weten, een deel van zijn of haar surfgedrag prijsgeeft. Als iemand rechtstreeks van een sekssite naar uw website komt kunt u dat in uw logfile zien! Overigens is daarmee natuurlijk nog niet de identiteit van die bezoeker bij uw bekend.
Tenslotte kunt u aan dit deel van het logfile ook zien in welke zoekprogramma's uw site staat en (soms, maar niet altijd) met behulp van welke zoekwoorden uw site gevonden wordt.
"GET /virussen.html HTTP/2.0" 200 6732 "https://www.google.nl/"
"GET /virussen.html HTTP/2.0" 200 6747 "https://www.bing.com/search?q=virussen+cijfers+&qs=n&form=QBRE&sp=-1&pq=virussen+cijfers+&sc=0-17&sk=&cvid=C84920B738674C4988E7110F41420012"
"GET /virussen.html HTTP/2.0" 200 6738 "https://duckduckgo.com/"
In de bovenstaande regels ziet u steeds het zoekprogramma (resp. Google, Bing en DuckDuckGo), de woorden waarop werd gezocht (virussen+cijfers) en het zoekresultaat (virussen.html op het domein cijfers.net).
Wat laat u slingeren?
En als u zich nu afvraagt wat ú allemaal op het internet laat 'rondslingeren'... Dit is één van de regels die u zojuist bij het bezoeken van deze site (ongemerkt) naar ons logfile heeft weggeschreven:
"CCBot/2.0 (https://commoncrawl.org/faq/)" 3.239.129.52 - - [28/May/2023:22:33:13 +0200] "GET /logfiles.html HTTP/1.1" 200 12K "(none)"