Пользуемся файлом robots.txt

Пятница, 24 июня 2011 г.
Рубрика: Архив Itword.net (2007-10) -> SEO -> Познавательное
Метки: |
Просмотров: 5748
Подписаться на комментарии по RSS

Тоже из старенького :)

Допустим у вас есть свой веб-сайт. Пойдем дальше. Допустим вы захотели добавить его в базу данных поисковых машин Google, Yahoo, Yandex, Rambler... Существует много разных методов это сделать. Это целое направление которое получило название SOE (search engine optimization) . Если вы хотите серьезно этим заняться, то вам следует на это потратить намного больше времени, чем требуется для прочтения одной статьи.

Здесь я всего этого касаться не буду. Итак. Считаем что вы уже зарегестрировали свой сайт в поисковых машинах, Google,Yahoo,Yandex,Ramble

Теперь по крайней мере 4 поисковых машины знают о вашем сайте (но все равно вам придется подождать иногда и пару месяцев, пока они проиндексируют сайт). Вот здесь и возникает проблема. Допустим у меня есть сайт. Например http://www.moysait.ru/ на котором есть одна страничка, например http://www.moysait.ru/data/loads.php, которая содержит мою приватную информацию. Доступ на нее имеют только определенные пользователи. Но роботы поисковых машин этого не понимают, пока им это не укажешь. Для этого и существует файл robots.txt, который нужно поместить в корень вашего сайта.

Формат файла robots.txt file указан стандартами Robot Exclusion Standard.

Файл robots.txt состоит из записей. Каждая запись состоит как минимум из двух строк: строки с названием клиентского приложения - User-agent, и одной или нескольких строк, начинающихся с директивы Disallow. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, имеющие разные строки User-agent.

Приведу некоторые примеры:

Роботам всех поисковых машин разрешена индексация всех страниц сайта:

User-agent: *
Disallow:

Роботам всех поисковых машин разрешена индексация всех страниц сайта:

User-agent: *
Disallow:/

Запретить роботу Google индексировать поддиректории, начинающиеся с private :

User-agent: googlebot
Disallow:/private*/

Запретить доступ ко всем страницам, содержащим знак ? :

User-agent: *
Disallow:/*?*

С помощью знака $ вы можете указывать на конец файла. Например блокировать все файлы, заканчивающиеся на .php :

User-agent: *
Disallow:/*.php$

Помимо директивы Disallow, можна еще использовать и Allow или их комбинацию.

Например :

User-agent: *
Alloew: /*?$
Disallow:/*?

Т.е. Disallow:/*? будет блокировать все URLs заключающие в себе знак ?, но опция Alloew: /*?$ разрешит URLs, которые заканчиваются на ?.

Ну и пример, про который я говорил в самом начале.

# No index my file downloads.php
User-agent: *
Disallow: /data/loads.php

(знак # служит для включения коментариев).

Чтобы протестировать что у вас получилось, советую воспользоваться утилитой для вебмастеров, которая доступна всем, имеющим учетную запись Google.

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru myspace.com pikabu.ru blogger.com liveinternet.ru livejournal.ru memori.ru google.com bobrdobr.ru mister-wong.ru yahoo.com

Оставьте комментарий!

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Имя и сайт используются только при регистрации

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email. При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д., а также подписку на новые комментарии.

(обязательно)