Como evitar que o Google rastreie determinadas páginas do site
Esta é uma pergunta comum e existem algumas maneiras de resolver este problema:
1 - Arquivo robots.txt
Criar um arquivo chamado robots.txt e colocá-lo na raiz do site.
Neste arquivo devem ser colocadas as regras desejadas para que o Google não rastreie:
User-agent: o robô que vai receber a regra seguinte
Disallow: as páginas que você deseja bloquear
Exemplos:
a) Bloqueia o diretório cadastro da indexação:
User-agent: Googlebot
Disallow: /cadastro
b) Bloqueia a indexação de arquivos PDF
User-agent: Googlebot
Disallow: /*.pdf$
c) Bloqueia o arquivo funcionarios.html no diretório /cadastro
User-agent: Googlebot
Disallow: /cadastro/funcionarios.html
Veja mais em:
http://www.robotstxt.org/robotstxt.html
http://www.google.com/support/webmasters/bin/answer.py?answer=35303
2 - Usando META TAGs para bloquear conteúdo
Outra maneira de bloquear conteúdo é incluir a seguinte linha entre as tags
do site:Veja mais em:
http://www.robotstxt.org/meta.html
16 de Maio de 2008 @ 17:15
No item 2 ficou faltando a linha de exemplo. Faltou a informação (se correta) de que o Google não rastreia páginas que não tem link para ela.