Дублированный контент в Гугле.На последней конференции “Стратегии поисковых систем” в Чикаго было много вопросов о дублирующемся контенте. Мы признаем что есть много тонкостей и узких мест ( наших ошибок ) по работе с таким контентом, поэтому я бы хотел прояснить некоторые моменты:Почему Гугль заботится об оригинальности контента? Наши пользователи обычно хотят видеть подборку различных сайтов ( или статей ) по своему запросу. Представляете каково будет разочарование если введя свой запрос человек увидит 10 одинаковых статей на разных сайтах на первой странице серпа? А вэбмастера еще ругают нас за то что страница вида example.com/contentredir?value=shorty-george〈=en может оказаться выше чем example.com/en/shorty-george.htm Что гугль делает с дублированным контентом ? В процессе индексации и ранжирования сайтов мы стараемся выбирать страницы с оригинальной информацией. Эти фильтры означают что если ваша статья на сайте есть в двух вариантах - “обычный” и “для печати” и один из них не заблокирован через robots.txt или через noindex то сохранен в индексе будет только один вариант статьи. В редких случаях, когда мы видим что дублирующийся контент находится на сайте с целью манипулировать результатами поиска - мы можем исключить такой сайт из серпа. Однако мы предпочитаем заниматься именно фильтрацией вместо удаления сайтов с дублированым контентом из выдачи. Поэтому в большинстве случаев худшее что может случиться с вашим сайтом это “более низкое” место в серпе. Как лучше распределять дублированный текст ? - Вместо того что бы предоставлять нашему роботу какую из копий текста выбрать ( т.е. обычную или “для принтера” и т.п. ). Блокируйте лишние копии через файл роботс - используйте 301 редирект если вы изменили структуру сайта ( с помощью .htaccess ). - Используйте полные ссылки, а не /page/ или /page или /page/index.htm - Используйте домены а не субдомены, также не забывайте что при ранжировании активно используется определение страны ( т.е. русскоязычным пользователям в первую очередь будут показаны домены .ru и т.п. ) - Используйте RSS аккуратно, всегда следите что бы сайты которые импортируют ваши статьи ссылались на ваш сайт в КАЖДОЙ статье - Если на ваш сайт ссылаются как на site.ru так и на www.site.ru указываете КАКУЮ ИМЕННО версию сайта индексировать. - Минимизируйте повторяющиеся блоки текста на страницах, например если внизу или вверху каждой статьи вы в нескольких предложениях расписали запреты на копирование контента и т.п. , то лучшим решением будет вынести такой текст в отдельную страницу и поставить на нее ссылку во всех статьях. - Избегайте опубликования по алфавиту или например по странам в том случае если кликнув по одной из ссылок пользователь увидит пустой шаблон ( т.е. например нет у вас статей на букву Я, но ссылка на “Я” есть ). Пользователи не любят такие шутки, а мы работаем для пользователей. - Будьте “на ты” с вашей CMS , постарайтесь узнать все способы которыми дублируется контент ( например версия для печати, версия для мобильных, и т.п.) - “Не парься, будь счастлив” :) Не слишком беспокойтесь о дублировании или воровстве контента с вашего сайта, как правило гугль справляется с такими воришками без проблем. Если уж вас совсем достал какой-нибудь “ксерокс” обратитесь в http://www.google.com/dmca.html - они отправят нам запрос на удаление его из индекса. Источник: senw.ru |
КОНТАКТЫ
г. Екатеринбург info@vismech.ru |
текущее: НОВОСТИ 05.12.2013 - Уход за флэш-накопителем 05.12.2013 - Компьютер самопроизвольно выключается 05.12.2013 - Почему не запускается компьютер? 27.11.2013 - Canon Legria HF R406 - Описание видеокамеры 27.11.2013 - TravelMate P645 новый лэптоп бизнес-класса от Acer |