Разработка сайтов, создание сайтов

Файл robots.txt

Абсолютно все поисковые боты при посещении сайта первым делом проверяют наличие в корневой директории файла robots.txt. Если он присутствует то бот следует инструкциям прописанным в нем. Что же это за файл? Далеко не все вебмастера знают как им пользоваться и потому не создают файл robots.txt совсем. Часто на форумах можно услышать вопрос «как составить robots.txt». Что ж уделим немного внимания этому нужному элементу оптимизации сайта.

Файл robots.txt – это текстовый файл содержащий инструкции для ботов поисковых систем. Файл обязательно должен находиться в корневой директории сайта. Правильная настройка robots.txt поможет избежать многих проблем с индексацией, зазеркаливанием и попаданием в индекс не нужных (служебных) страниц вашего сайта.

Создание robots.txt

Создать robots.txt очень просто, необходимо просто открыть блокнот который идет в комплекте с Windows и прописать в нем нужные директивы. После этого сохраняем файл с названием «robots» и расширением «txt» и закачиваем в корневую директорию сайта. Для одного сайта вы можете создать только один файл robots.txt. Формат robots.txt подразумевает написание инструкций для всех поисковых систем. Т.е. не надо делать такой файл под каждую поисковую систему.

Формат файла robots.txt

В файле robots.txt всегда должны быть как минимум две следующие директивы:

User-agent: - определяет для какого бота какой поисковой системы будут следующие инструкции
Disallow: - указывает какую директорию сайта (конкретную страницу) не индексировать.

Можно задать одинаковые директивы для всех поисковых систем, для этого нужно в User-agent поставить «звездочку»:

User-agent: *

В общем случае синтаксис файла robots.txt выглядит так:

User-agent: *
Disallow: /file.html
Disallow: /papka/

Где, * - указывает что инструкции для всех поисковых систем
Disallow: /file.html – запрещает индексацию файла file.html
Disallow: /papka/ - запрещает индексацию всех файлов папки «papka»

Если вам не надо запрещать к индексации ни каких страниц сайта, то ваш правильный robots.txt будет выглядеть так:

User-agent: *
Disallow:

Robots.txt для Яндекса (Yandex)

Всегда нужно указывать в файле robots.txt для Яндекса директиву «Host». Директива host в robots.txt указывает поисковой системе Яндекс как нужно индексировать сайт: с «www» или без «www». Применение директивы «Host» позволит избежать проблем с зеркалом сайта. Лучше сразу все сделать правильно. Пример robots.txt для Яндекса:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

На приведенном примере robots.txt указано что бы Yandex индексировал сайт с www. А на следующем примере без него:

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru

Часто новички задают вопрос: «как лучше с www или без?». Отвечу: принципиальной разницы ни какой нету. Сайт будет абсолютно одинаково работать и так и так. НО вам надо обязательно определиться с этим и прописать в Host. Если вы этого не сделаете то в индексе Яндекса появятся дубли страниц. Будут страницы и с www и без. Это негативно скажется на продвижении сайта.

Важный момент, директиву host понимает только Yandex поэтому для него и для других поисковых систем нужно разделять директивы. Содержание файла robots.txt будет следующим:

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru

User-agent: *
Disallow: /cgi-bin

Где отдельные директивы для Яндекса и отдельные для всех прочих ПС. Думаю этих данных должно вам хватить для правильного составления файла robots.txt.


Источник: ya-super-gsm.narod2.ru
текущее:

НОВОСТИ

2011 г., «VisMech.ru»