Разработка сайтов, создание сайтов
главная / Яндекс / Файл robots.txt для Яндекса и других

Файл robots.txt для Яндекса и других

Файл robots.txt для Яндекса и другихЗдравствуйте друзья! Недавно я столкнулся с такой проблемой, что страницы моего блога индексировались по разным адресам и разделам. Всё дело в том, что я использую ЧПУ (Человеко Понятый Урл). ЧПУ позволяет сделать страницы в формате .html, что очень удобно для посетителей и поисковиков!

Я решил, что нужно сделать robots.txt максимально совместимый с ЧПУ на WordPress! Я зашел в статистику майл.ру, раздел Страницы и посмотрел, какие страницы моего сайта в поиске и ужаснулся...

Файл robots.txt для Яндекса и других

Эти разделы я не хочу видеть в поисковой выдаче, потому, что они дублируются со страницами ЧПУ. После анализа страниц и разделов, я составил robots.txt который хорошо подходит для движка WordPress с использованием ЧПУ:

    User-agent: *
    Disallow: /redirect/
    Disallow: /tag
    Disallow: */tag/
    Disallow: /?tag
    Disallow: /tag/*/page
    Disallow: /?p
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/hyper-cache
    Disallow: /wp-content/themes
    Disallow: /trackback/
    Disallow: /archives/
    Disallow: /category/
    Disallow: /category/*/*
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: /*feed
    Disallow: /feed
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: */comments
    Disallow: /*comment-page-*
    Disallow: /*?*
    Disallow: /*?
    Disallow: /?*
    Disallow: /xmlrpc.php
    Disallow: /2010/Host: whitik.ru
    Sitemap: http://whitik.ru/sitemap.xml

Вот так выглядит мой файл robots.txt для Яндекса . По прошествии некоторого времени из Яндекса «отвалились» не нужные страницы, можете сами проверить: http://yandex.ru/yandsearch?site=whitik.ru&text=&ras=1&lr=194

Можно конечно поспорить, стоит ли исключать ненужные страницы из поиска или нет? Многие говорят, что дублированный контент ничего хорошего не дает и что поисковики за это могу пессимизировать!

Генератор robots.txt

Если же у Вас возникли сложности при составлении роботса, могу посоветовать хороший сервис, по генерации robots: http://htmlweb.ru/analiz/robots.php

Файл robots.txt для Яндекса и других

В данном сервисе всё просто! Вам нужно всего лишь узнать какие файлы и папки Вы хотите исключить из поиска и добавить их в «Disallows /».

Помните, что для закрытия папки от индекса нужно писать: Disallow: /papka - (Все файлы в папке не будут индексироваться).

А для закрытия от индекса файла типа file.php, нужно писать: Disallow: /file.php

Если Вам нужно закрыть от индекса всего один файл в папке, то это можно сделать так: Disallow: /papka/file.php

Ещё раз

Disallow: /wp-admin/ — запрещает индексировать файлы из директории wp-admin, но не запретит индексировать файлы из директорий, вложенных в wp-admin!

Disallow: /wp-admin — запрещает индексировать всё, что находится в папке и в подпапках!



Источник: whitik.ru
текущее:

НОВОСТИ

2011 г., «VisMech.ru»