- Новости
- Статьи
- Поисковые системы
- Дизайн и Юзабилити
- Законы / Финансы
- Маркетинг
- Порно контент
- Ниши и психология
- Партнерские Программы
- Траффик-Менеджмент
- Сервисы
- Программинг
- Софт и Скрипты
- Хостинг / Железо
- Интервью
- Веб камеры
- Путешествия
- История секса
- Форум
- FAQ
- Каталог
- Опросы
- Участники
|
CТАТЬИ
Раздел: Поисковые системы
Патент Google: Определение спам-документов, основанное на фразах. Часть 2
Упомянутая выше организация хранения позволяет хранить значительно больше записей в пересчете на единицу дискового пространства чем общепринятые способы. Во-первых, избавление от информации о положении термина по каждой фразе в каждом документе предоставляет приблизительно 50% уменьшение в количестве места, необходимого для хранения данного набора документов. Во-вторых, разбиение постинг-списков на разделы между первичным и вторичным индексами, а также хранение информации о релевантности только в первичном индексе, предоставляет еще большие возможности для экономии дискового пространства. Многие фразы насчитывают более 100 000, и даже миллионы документов в своих посинг-списках. Хранение информации о релевантности только для ограниченного набора записей в первичном индексе избавляет от хранения информации о документах, которые вряд ли будут возвращаться в результатах поиска. Это дает примерно десятикратное увеличение количества документов, которые могут быть сохранены. И, наконец, экономия (примерно 25-50% уменьшение требуемого места) достигается за счет выборочного хранения менее релевантной информации в первичном индексе 150 для менее релевантных (ранжированных ниже) документов в каждом постинг-списке 214.
B) Определение тем документа
Индексирование документов по фразам и использование кластерной информации предоставляет еще одно преимущество для системы индексирования 110, а именно возможность определять темы, о которых идет речь в документе - на основании информации о соотнесенных фразах.
Предположим, что для данной хорошей фразы gj и данного документа d, существует следующая запись в постинг-списке:
gj: document d: related phrase counts:={3,4,3,0,0,2,1,1,0} [0146] related phrase bits vector:={11 11 10 00 00 10 10 10 01}
где бит-вектор соотнесенной фразы представлен двух-битовыми парами.
Судя по бит-вектору соотнесенной фразы, мы можем определить первичную и вторичную темы для документа d. Первичная тема определяется бит-парой (1,1), а вторичная тема определяется бит-парой (1,0). Бит-пара соотнесенной фразы (1,1) показывает, что соотнесенная фраза gk для этой бит-пары присутствует в документе d, равно как и вторичная соотнесенная фраза gl. Это можно понимать следующим образом: автор документа d использовал при составлении документа одновременно несколько соотнесенных фраз gj, gk и gl . Бит-пара (1,0) свидетельствует, что присутствуют как gj, так и gk однако вторичные соотнесенные фразы по gk отсутствуют – значит эта тема менее существенна.
С) Индексирование образцов документов для архивного доступа
Еще одна реализация данного изобретения позволяет хранить и поддерживать в индексах исторические документы, обеспечивая таким образом архивное получение отдельных страниц или документов, версии которых зависят от даты. Эта возможность имеет различные области применения – пользователь может осуществлять поиск по документам в пределах заданного временного диапазона, поисковая система 120 может использовать дату или релевантную информацию в зависимости от даты, при оценке документов в ответ на поисковый запрос и для организации выдачи результатов.
22.02.07
Источник: gool. Автор: Google. Перевод: .
|