Признаки для парсинга сайтовКаждый человек хоть раз занимающийся продвижением или наращиванием пузомерок сайтов сталкивался с проблемой отсутствия хороших баз каталогов, сайтов и т.д. в свободном доступе. Многие покупают базы, я, обычно, собираю сам.Что для этого нужно: - Хелп по языку запросов для поиска в яндексе http://help.yandex.ru/search/?id=481939 - Тоже самое для поиска в гугле http://www.google.ru/help/operators.html - Какой нибудь парсер Allsubmitter, Hrefer, AGGRESS Parser Я ограничился двумя ПС, можно использовать яху, бинг, мэил… Начнем, для примера попытаемся вытащить как можно больше DLE сайтов. Заходим на любой сайт на этом движке, и ищем характерные особенности, т.е. то что есть на каждом сайте. Что есть у каждого DLE сайта? - страница регистрации расположенная по адресу http://домен.ру/index.php?do=register - страница с формой обратной связи http://домен.ру/index.php?do=feedback - страница статистики http://домен.ру/index.php?do=stats - страница с правилами при регистрации ( не у всех, появилась в последних версиях ) http://домен.ру/index.php?do=rules В гугле есть полезный оператор для поиска страниц содержащих в своем адресе нужный текст, называется он inurl. Т.е. для поиска всех страниц регистрации, мы ищем в гугле inurl:”index.php?do=register”, для поиска страниц обратной связи inurl:”index.php?do=feedback”, и т.д. Пробуем найти inurl:”index.php?do=register”, найдено: 1 330 000, но есть проблема. Для каждого запроса гугль и яндекс выдают только тысячу результатов, поэтому нужно как можно больше признаков, пока есть 4, дальше “разбавляем” каждый признак какими нибудь словами которые встречаются на странице которую мы ищем, к примеру, из признака inurl:”index.php?do=register”, мы сделаем следующие: - inurl:”index.php?do=register” “регистрация” - inurl:”index.php?do=register” “пароль” - inurl:”index.php?do=register” “повторите пароль” - inurl:”index.php?do=register” “Код безопасности” - inurl:”index.php?do=register” “Введите код” - inurl:”index.php?do=register” “Подтверждение кода безопасности” Все слова стандартные, так же сюда можно добавить английский, украинские и прочие варианты этих же слов, если вам нужна база не только русскоязычных сайтов. В яндексе все аналогично, только немного немного отличается оператор inurl, смотрите в хелпе. Пока мы рассматривали оператор для поиска по адресу страницы, рассмотрим еще один вариант парсинга: поиск по заголовку страницы: intitle – в гугле и title – в яндексе. Попробуем поискать заголовок страницы регистрации: intitle:»Регистрация посетителя», появилось немного мусора, сайты работающие не на dle, нам не нужны, отсеить их не трудно, сделаем так же как при поиске по адресу страницы, добавим слово для более точного поиска: intitle:»Регистрация посетителя» “Код безопасности”, теперь только DLE и ни какого мусора. Поиск в яндексе по заголовку страницы осуществляется практически так же. Для парсинга я пользуюсь allsubmitter’ом, приятно и легко использовать, добавляем все признаки в него, естественно сначало берем гуливские, и парсим гугль, затем парсим яндекс. Напарсил 12к сайтов пройдясь по четверти признаков, после удаления дублей осталось 3, 5к дле сайтов. Вроде все, самое трудное найти в движках то что заставит яндекс или гугль вывести вам нужный список сайтов, к примеру в easybook – это адрес страницы для чтения, добавления записей, кроме обычного адреса можно попробовать поискать ЧПУ адреса нужных страниц. В друпале, например, записи имеют адрес /node/номер_записи… Это самый простой способ поиска нужных сайтов, существуют и другие… Источник: seo13.ru |
КОНТАКТЫ
г. Екатеринбург info@vismech.ru |
текущее: НОВОСТИ 05.12.2013 - Уход за флэш-накопителем 05.12.2013 - Компьютер самопроизвольно выключается 05.12.2013 - Почему не запускается компьютер? 27.11.2013 - Canon Legria HF R406 - Описание видеокамеры 27.11.2013 - TravelMate P645 новый лэптоп бизнес-класса от Acer |