База представляет собой запросы реальных пользователей. Не перепродаю, из первых рук. Ничего общего с базой вордтрекера и баз, которыми барыжат на юмаксфоруме не имеет. Незаменима в первую очередь для тех, кто массово работает по низкочастотным запросам, так как в базе, разумеется, преобладают именно они. Запросы с частотой от 10 до 9995 раз составляют лишь около 1% всего количества записей. От 10 раз и ниже - уникальные низкочастотные запросы, что называется на любой вкус и цвет - много мисспеллингов, запросов на итальянском, французском, испанском и т.д. языках, но преобладают конечно англоязычные. Присутствуют как многословные запросы (некоторые более 10 слов), так и состоящие из одного слова. Тематики как таковой само собой нет, все запросы разносторонние, даже очень разносторонние, например: "buy condom in malaysia"
Целостность базы по возможности оставлена нетронутой, удалены только китайские кракозяблики. Остальное только перевели для удобства в нижний регистр. Поэтому если вам
не нужны запросы содержащие любые символы не-английского алфавита, а также запросы вида "link:www.site.com" и подобные - вам нужно будет отфильтровать их самостоятельно. Большого труда это не представляет, а парсить базу все равно перед использованием вам будет нужно, так как данные в базе хранятся в виде КОЛВО_ЗАПРОСОВ:ЗАПРОС. Если для кого-то это составит сложность (хотя сомневаюсь) - помогу сделать простой скрипт раскладывающий данные в любом нужном виде.
Теперь собс-но характеристики:
поисковики: google msn yahoo
количество уникальных запросов: 2 543 748
количество пользователей: 633 646
период статистики: с 1.03.2005 по 28.03.2005
самый частый запрос встречается 9995 раз
из базы по возможности удалены китайские кракозяблики
все запросы переведены в нижний регистр и удалены все пробелы, повторяющиеся подряд
более 1-го раза
структура базы - текстовый файл, каждая строка в формате "колво_запросов:запрос"
запросы отсортированы по частоте
если нужно - есть список стран с указанием кол-ва запросов из каждой страны.
топ10 стран: us es fr de pl br gb ca it tr
размер файла базы: 56 МБ
Цена этого 56-мегабайтного файла (24мб в архиве) - 400$. Изначально цена была больше, и многие, кто интересовался базой до создания этого топика считали ее чересчур высокой. Поэтому решил снизить. Если для кого-то и эта цена будет высока - можно обдумать варианты разделения базы на несколько частей (если будут такие пожелания). Берете одну часть - работаете - нравится - берете следующую и т.д.
Ася - 163 8 2 79 56 (могу быть в Invisible), днем буду часов с 17 МСК.