Как отмечалось ранее, соответствующий первый бит g
k-1 в бит-карте соотнесенной фразы устанавливается на основании значений счетчика. Если g
k > 0, то бит устанавливается в 1, если значение счетчика равно 0, то бит устанавливается в 0.
Далее, второй бит g
k-2 устанавливается путем проверки на соотнесенную фразу g
k в индексе 150, присутствует ли в постинг-листе g
k для документа d, и дальнейшей проверки счетчика вторичной соотнесенной фразы (или битов) для g
k по любой из ее соотнесенных фраз. Если любой из этих счетчиков/битов вторичных соотнесенных фраз установлен, то это свидетельствует о том, что вторичные соотнесенные фразы g
j также присутствуют в документе d.
После того, как документ d будет полностью обработан, система индексирования 110 определит следующее:
- каждую хорошую фразу gj в документе d;
- для каждой хорошей фразы gj - какие из ее соотнесенных фраз gk присутствуют в документе d;
- для каждой соотнесенной фразы gk, присутствующей в документе d, какая из ее соотнесенных фраз gl (вторичные соотнесенные фразы для gj) также присутствует в документе d.
А) Посекторное индексирование
Каждой фразе в индексе 150 присваивается номер фразы, на основании частоты ее появления в собрании. Чем чаще встречается фраза, тем более низкий номер она получает в индексе. Система индексирования 110 затем сортирует 504 все постинг-списки 214 в первичном индексе 150 в нисходящем порядке, в соответствии с количеством документов, внесенных в каждый постинг-список. Наиболее часто встречающиеся фразы получают наименьшие номера фраз, и находятся в начале списка в первичном индексе 150. Как отмечалось ранее, первичный индекс 150 распределяется между первичными серверами M1 . Для уменьшения вероятности спорных ситуаций между дисками, фразы распределяются между машинами с помощью хеш-функции, т.е. phase_number MOD M1.
Для значительного увеличения количества документов, которые могут быть проиндексированы системой, первичный индекс 150 обрабатывается с целью выборочного разделения каждого из постинг-списков 214. Как отмечалось ранее, постинг-список для каждой фразы содержит список документов. Каждый документ в постинг-списке получает оценку 506 по типу получения информации, в зависимости от фразы. Независимо от способа вычисления этой оценки, документы в постинг-списке затем ранжируются по убыванию на основании этой оценки – документы с наивысшими оценками помещаются в начало постинг-списка. Это пре-ранжирование документов особо ценно для улучшения работы системы при получении документов в ответ на поисковый запрос.
Алгоритм оценки для пре-ранжирования документов может быть таким же, как алгоритм оценки релевантности , используемый в поисковой системе 120 для генерации оценки релевантности. В данной реализации, оценка IR основывается на алгоритме page rank, как описывается в патенте № 6285999. В качестве альтернативы или дополнения, может использоваться статистика для количества IR-релевантных атрибутов документа, таких как количество входящих ссылок, исходящих ссылок, длины документа. Она может храниться и использоваться самостоятельно, или в сочетании с другими средствами, чтобы ранжировать документы. К примеру, документы могут ранжироваться в нисходящем порядке, в соответствии с количеством входящих ссылок. Чтобы облегчить и ускорить получение информации из первичного индекса 150, записи в каждом постинг-списке 214 физически хранятся на подходящем первичном сервере, в порядке ранжирования, заданном оценкой IR.