Hoe en waarom de Google zoekrobot ontwijken?

Gisteren schreef CNet dat er productinformatie van Dell's nieuwste laptop via Google gelekt was. Gevoelige informatie die het computerbedrijf liever geheim had gehouden. Dell heeft het hardleers mogen ondervinden dat je dingen die je geheim wil houden beter niet op het internet kan plaatsen. Niet erg praktisch als je een content management systeem gebruikt voor al je document beheer. Beter is dan om de Googlebot te blokkeren op sommige delen van je website. Als je gevoelige informatie op je webserver hebt staan is het robot.txt bestand de beste oplossing, dit bestand geeft instructies aan de zoekmachine spiders.
Zo doen we het:
- Maak met kladbok het bestand robot.txt aan
- In het bestand moet je twee dingen plaatsen: “User-agent” en “Disallow”. “User-agent” is om aan te duiden welke zoekrobot je wil buiten houden en “Disallow” vertelt die spider welke mappen hij niet niet mag indexeren. Hieronder een paar voorbeelden van robot.txt bestanden.
Alle spiders de toegang blokkeren tot alle mappen:User-agent: *
Disallow: /En hier zien een vb. hoe we alle zoekrobotten uit de pictures map houden:
User-agent: *
Disallow: /pictures/Ook meerdere instructies geven is mogelijk:
User-agent: *
Disallow: /forum/
Disallow: /images/ - Sla het robot.txt bestand op en laadt het op in de root van de webserver.




