Ansvarlig redaktør og daglig leder for OnNet AS. Utdannet Diplom økonom og -markedsfører fra NMH/BI, med mellomfag i markedskommunikasjon. Hva er Robots.txt, og hvordan skrive din Robots.txt?
Den ene metoden er å lage en "robots.txt" fil som legges på root-katalogen til nettstedet. Så snart roboten kommer til nettstedet vil den spørre etter filen. Eksisterer denne filen vil roboten følge de instruksene som er angitt her. Filen skal ha et spesielt format, bestående av records. Hver record skal bestå av to felt; en User-agent linje og en eller flere Disallow: linjer.
Lag filen i et program som lager en ren tekst fil. Ikke bruk en HTML editor.
User-agent:
User-agent linjen forteller hvilke roboter recorden gjelder for. For eksempel:
User-agent: googlebot
Du kan også bruke "wildcard". F.eks. "*" for å angi alle robotene:
User-agent: *
Disallow:
Den andre delen av record settet inneholder en Disallow: linje som spesifiserer hvilke filer og/eller kataloger som roboten ikke skal indeksere. F.eks., forteller denne instruksen at roboten ikke skal indeksere email.htm:
Du kan også spesifisere kataloger:
Disallow: /cgi-bin/Denne linjen gjør at innholdet i katalogen cgi-bin ikke blir indeksert.
Examples:
Denne angivelsen tillater alle roboter å besøke alle filer:
User-agent: *Disallow:Denne holder alle robotene borte:
User-agent: *Disallow: /Denne holder robotene borte fra katalogene cgi-bin og images:
User-agent: *Disallow: /cgi-bin/Disallow: /images/Denne gjør at googlebot ikke får ta i filen cheese.htm:
User-agent: googlebotDisallow: cheese.htm
| - utelater du Robots taggen gjelder standarden ALL |
ALL Nettsiden indekseres og søkeroboten følger linker til andre nettsider.
NONE ingenting registreres av søkeroboten
INDEX siden indekseres på søketjenesten.
FOLLOW linker på websiden din følges og indekseres.
NOINDEX siden skal ikke indekseres
NOFOLLOW linker på websiden skal ikke følges/indekseres.
Du kan kombinere Robots på følgende vis:
INDEX, NOFOLLOW = siden indekseres men linker skal ikke følges/indekseres
NOINDEX, FOLLOW = websiden skal ikke indekseres men linker følges/indekseres.
Sider som om oss
, bruker policy
og så videre, inneholder sjelden informasjon folk flest er spesielt interessert i å få vite. Dessuten vil slike sider ofte være linket til fra alle sidene på nettstedet ditt, og følgelig kan søkemotorene komme frem til at de er viktige. Det virker mot sin hensikt.
Note: Mange blokkerer kontakt oss
, men dette skal du være forsiktig med. Hvis folk er ute etter telefonnummeret eller besøksadressen til firmaet ditt, så kan det godt hende de søker etter dette.
Tenk nøye gjennom hvilke sider dine besøkende vil betegne som lite viktige, og bruk robots.txt til å fortelle søkemotorene at du ikke ønsker dem indeksert.
Flere sider med likt innhold er drepen for SEO. Dersom du har mange duplikater på nettstedet ditt, så kan du også bruke robots.txt for å nekte indeksering av disse. Uten å bli for teknisk, så er det slik at mange bruker URL rewriting. Da må du enten sørge for at crawlerne ikke indekserer URL'ene med query string (spørrestreng), eller videresende dem (med 301 redirect) til de omskrevne URL'ene.
En enkel robots.txt generator finner du under. Den genererer de vanligste taggene til din robots.txt fil.
Robots.txt generator
| |||||||||||||||
Andre, litt mer avanserte generatorer er: