Robots.txt

Hvad er Robots.txt

Robots.txt er en tekstfil, der placeres i roden af et website (fx www.eksempel.dk/robots.txt) for at instruere søgemaskinernes crawlere (også kaldet “bots”) om, hvilke dele af sitet de må eller ikke må tilgå og indeksere.

Formål

Formålet med robots.txt er at styre og begrænse, hvordan automatiserede systemer som fx Googlebot eller Bingbot gennemgår et website. Det kan fx være ønskværdigt at forhindre indeksering af: Admin-områder, midlertidige sider, interne søgesider og duplicate content.

Struktur og syntaks

En robots.txt-fil består typisk af regler angivet med følgende elementer:

  • User-agent: Angiver hvilken bot reglen gælder for (fx User-agent: * gælder for alle bots).
  • Disallow: Angiver stier, botten ikke må crawle.
  • Allow: (kun relevant for visse bots, som Googlebot) Angiver undtagelser, hvor crawling alligevel er tilladt.

Eksempel:

User-agent: *
Disallow: /admin/
Allow: /public/

Robots.txt er en høflig anmodning – bots er ikke tvunget til at følge reglerne. Den beskytter ikke mod adgang for uvedkommende; følsomme data bør sikres med adgangskontrol.

Selvom robots.txt kan bruges til at styre crawl-budget og undgå indeksering af uønsket indhold, bør man bruge den med omtanke. Forkert konfiguration kan føre til, at vigtige sider uforvarende udelukkes fra søgemaskineresultaterne.

Tilbage til ordbog