С) Ранжирование документов по релевантности временному промежутку
Поисковая система 120 может различным образом использовать информацию о временном интервале во время поиска и ранжирования.
Во-первых, поисковая система 120 может воспользоваться временным промежутком как явным ограничителем поиска. Например, можно включить в запрос термины и фразы, наряду с датой: "United States Patent and Trademark Office 12/04/04" Поисковая система 120 идентифицирует значение даты, и затем отбирает документы, которые содержат нужную фразу и были проиндексированы в течение промежутка времени, указанного в запросе. Из выбранных документов поисковая система 120 может получить значения релевантности по каждому документу, с использованием проиндексированных данных о релевантности, ассоциированных с временным диапазоном. Может быть возвращен более старый или предыдущий вариант документа, если он будет считаться более релевантным поисковому запросу, чем текущий вариант. Это особенно важно для документов и страниц, которые часто обновляются.
Во-вторых, если в поисковый запрос не включено значение даты, поисковая система 120 может использовать информацию о датах, полученную во время ранжирования по релевантности. Показатели релевантности документа оцениваются исходя из их возраста. Показатели релевантности для более старых документов будут понижаться (или новые документы будут ранжироваться выше). Однако в некоторых случаях более старые версии документа считаются более релевантными теме запроса, чем последняя версия документа. К примеру, новости, созданные во время какого-то события, скорее всего будут более релевантными запросу об этом событии, чем новости об этом же событии, созданные недавно. В таком случае, поисковая система 120 может поднять в ранкинге более старые документы, если показатели релевантности документа повышаются в районе какой-то даты, и потом уменьшаются с течением времени.
Если в поисковом запросе встречается один или более временных значений, показатели релевантности документов могут быть уменьшены, в соответствии с разницей между запрошенной датой и интервалом дат документа. Более старые документы, по сравнению с запрошенным диапазоном дат (привязка может идти как ко времени открытия, так и к времени закрытия), или более новые документы получат уменьшение их показателей релевантности. Напротив, если временной диапазон документа находится ближе к желаемой дате, его релевантность будет увеличена.
В-третьих, поисковая система 120 может использовать информацию о временном диапазоне как первичный или вторичный фактор при упорядочивании результатов поиска. Пример: документы могут быть сгруппированы в обратном хронологическом порядке (т.е., подборки по месяцам), а внутри каждой группы документы можно отсортировать в порядке их релевантности поисковому запросу.
Еще один способ применения информации о временном интервале – ранжирование документов на основании частоты их обновления. Поисковая система 120 может определять количество вариантов данного документа (т.е., количество определенных временных диапазонов) в течение какого-либо интервала времени (эти данные сохраняются в течение индексирования). Количество вариантов затем используется для того, чтобы поднять ранкинги документов, обновляемых чаще.
IV. Определение спам-документов
Одна из целей патента – предоставление системы и методов для определения спам-документов, во время их индексирования и во время обработки запросов. Как описывалось ранее, согласно
рис. 5, после индексации документов с учетом фраз и соотнесенных фраз, для каждого документа d будет доступна следующая информация:
- каждая хорошая фраза gj в документе d;
- по каждой хорошей фразе gj - какие из соотнесенных с ней фраз gk встречаются в документе
- по каждой соотнесенной фразе gk встречающейся в документе d, какие из соотнесенных фраз gl (вторичные соотнесенные фразы с gj), также присутствуют в документе
Из этого можно вывести количество соотнесенных фраз, присутствующих в данном документе. Обычный, не спамовый документ, обычно содержит относительно небольшое количество соотнесенных фраз, где-то в районе 8-20 – в зависимости от типа коллекции документов.
Спам-документ, напротив, будет содержать чрезмерное количество соотнесенных фраз, например, в диапазоне от 100 до 1000 соотнесенных фраз. Таким образом, настоящее изобретение использует полученные данные для определения в качестве спам-документов те, в которых встречается статистически значительное отклонение от нормы содержащихся соотнесенных фраз – по сравнению с ожидаемым количеством соотнесенных фраз для документов данной коллекции.