4. Постановка задачи и исходные данные
Для исследования поведения Google в различных тематиках нами были взяты 6 ниш.
- Gambling (Казино, азартные игры)
- Pills (таблетки, стимуляторы и тд)
- Dating (знакомства, чаты)
- Adult (запросы эротического содержания)
- Cars (автомобильная тематика)
- Gifts (подарки, сувениры)
Для каждой ниши была сформирована база одно-, двух- и трех сложных запросов (источник - wordtracker.com)
Общее количество запросов в каждой базе - 30.000
Общая база для анализа 30.000 х 6 = 180.000 запросов.
Ежедневно сохраняются и анализируются первые 20 результатов поисковой выдачи по каждому запросу.
Дата начала эксперимента: 12 июля
Дата окончания: 19 августа
Цель эксперимента:
- выявление основных игроков в каждой тематике
- выявление "дорвеев"
- выявление типичных механизмов продвижения
- сбор и анализ статистических данных
5. Программы и сервисы, используемые для обработки данных
Анализ результатов выдачи производился с помощью сервисов: Seodigger.com, Serparchive.org и Seoquake.com.
Seodigger.com - сервис, который позволяет исследовать по каким ключевым словам и фразам сайты находятся в поисковой системе Google.
Принцип работы: Сервис сохраняет первые 20 результатов выдачи Google по 44 миллионам популярных запросов. После сбора данных строятся соответствия:
- URL -> запросы, по которым он присутствует в выдаче Google
- Сайт (включая все внутренние страницы) -> запросы, по которым страницы сайта присутствуют в выдаче Google
Serparchive.org - сервис, который ежедневно сохраняет первые 100 результатов выдачи по указанным запросам в различных поисковых системах. Позволяет следить за историей позиций сайтов в поисковых системах.
Seoquake.com - расширение для браузера FireFox. Предназначен для быстрого просмотра параметров сайтов в результатах поиска ведущих поисковых систем , а также на любых других страницах (документах).
6. Краевые эффекты
Для того, что бы наш анализ был до конца корректным, нам необходимо учесть "краевые" эффекты.
- "белый" сайт появляется в поисковой выдаче в конце периода наблюдения. В этом случае срок его присутствия в выдаче может быть меньше 2-х недель. Учесть такие сайты в рамках данного эксперимента невозможно. Однако, доля таких сайтов по нашим наблюдениям не велика, и не окажет существенного влияния на общую картину.
- Поскольку сервис Seodigger.com работает с первыми 20 результатами выдачи, статистику могут портить "белые" сайты, которые находятся на последних местах двадцатки результатов. Если во время исследования позиция сайта колеблется, он может быть причислен к разряду поискового спама, несмотря на то, что является "белым" ресурсом. Для исключения этого краевого эффекта, были построены две базы. Первая база - основная, состоит из сайтов находящихся на 1-15 позициях поисковой выдачи за весь период рассмотрения. Вторая база - дополнительная. Состоит из сайтов, находящихся за весь период наблюдения на 15-20 позициях. Поисковый спам, обнаруженный по нашей методике в первой базе, будет проверятся на принадлежность к добросовестным сайтом во второй базе. Если мы увидим, что сайт во второй базе находится достаточно долго, он будет исключен из списка поискового спама. Далее в докладе используются данные с учетом этого краевого эффекта.
7. Исходная информация, полученная в результате эксперимента
Длительность эксперимента составила 36 дней. За этот период для каждой ключевой фразы с помощью сервиса Serparchive.org ежедневно сохранялись результаты поисковой выдачи Google. Сервис Seodigger.com вычислял, по каким запросам страница находится в результатах поиска.
Все нижеприведенные материалы и анализы будет не что иное, как статистическая обработка полученных данных.