3. Понятия и определения
Перед началом анализа нам необходимо ввести некоторые определения, что бы исключить разногласия в толковании результатов. Задача не из легких, поскольку Интернет общественность так и не пришла к единому мнению, что считать качественным сайтом, а что считать поисковым спамом.
Начнем с поискового спама (дорвеев). Определений данной технологии давалось очень много. Вот одно из них:
Дорвей (англ. doorway) - технология, часто используемая как метод поискового спама. Страница сайта, оптимизированная под одну или несколько поисковых фраз с целью попадания на высокие места в результатах поиска. Автоматически созданный дорвей содержит случайный текст, в котором периодически встречается нужная поисковая фраза, и потому не приносит посетителю никакой пользы. Созданный вручную дорвей может быть осмысленной страницей по узкой теме, полезной и нужной пользователю.
Подобные определения не дают четких данных для выявления дорвеев. А более однозначных определений, увы, нет. Кроме того, с развитием технологий искусственно созданные сайты приобретают все более осмысленный вид. Порой, отличить качественный дорвей от нормального, контентного сайта под силу только профессионалу.
С определением качественных контентных сайтов дело обстоит еще сложнее. Порой обычная HTML страница с текстом обладает большим весом, чем сайт над которым трудятся солидные компании.
Исходя из этого, можно утверждать, что человек, который поставил себе целью выявить в результатах поиска дорвеи, будет руководствоваться скорее субъективными, чем объективными ощущениями.
Однако для поисковых машин такие оценки не уместны. Поисковые машины отделяют поисковый спам от контентных сайтов по множеству признаков. Набор этих признаков и их вес в принятии решения является тайной. Кроме того, технологии определения спама постоянно эволюционируют, используются новые методы оценки.
В силу вышеперечисленных обстоятельств, будет уместно абстрагироваться от популярных определений "белых" и "черных" сайтов. Для нашего анализа будет гораздо удобнее воспользоваться результатами выдачи Google и ввести новые определения с некоторыми допущениями.
"Белыми" сайтами мы будем считать сайты, которые находятся в поисковой выдаче Google значительное время по отношению к времени эксперимента (от 18 дней).
Поисковым спамом (дорвеями) будем называть сайты, которые находились в выдаче короткий промежуток времени (меньше недели).
Данные определения стоит воспринимать скорее как "вероятностные". Очевидно, что вероятность обнаружить дорвеи в первой группе гораздо ниже, чем во второй.
Однако, надо понимать, что эти определения не дают 100% однозначности определения "белых" сайтов и поискового спама. Возможны ситуации, когда в результате изменения результатов выдачи качественные сайты пропадают из поиска. Примером могут служить новостные сайты, которые публикуют материалы по рассматриваемым тематикам. После того, как содержимое страниц изменяется, страницы сайтов, со временем, пропадают из результатов поиска по данным запросам. Так же, среди сайтов, которые находятся в выдаче достаточно давно, можно обнаружить искусно подготовленный поисковый спам.
Однако можно смело утверждать, что влияние этих сайтов на картину в целом не так значительно. Кроме этого, надо учитывать, что при анализе нескольких сотен тысяч запросов невозможно подойти к рассмотрению каждого сайта индивидуально.