Кроме того, обновляется матрица совместного появления 212, этот процесс объясняется ниже. В самый первый проход, хороший и плохой списки будут пустыми, поэтому большинство фраз будут иметь тенденцию попадания в список возможных фраз 206.
Если фраза-кандидат не находится в списке хороших фраз 208, то она добавляется в список возможных фраз 206, если она там еще не находится. Каждая запись p в списке возможных фраз 206 обладает тремя ассоциированными характеристиками.
P(p): Количество документов, в которых появлялась возможная фраза
S(p): Количество всех появлений возможной фразы, и
M(p): Количество интересных появлений возможной фразы. Появление возможной фразы считается «интересным», если возможная фраза выделена из окружающего контента в документе грамматическими маркерами или форматированием, например, жирным шрифтом, подчеркиванием, анкор-текстом гиперссылки, или в кавычках. Эти (и другие) случаи выделения определяются по различным HTML-тэгам и грамматическими маркерами. Эта статистика для фразы сохранится, если она будет перемещена в список хороших фраз 208.
Кроме различных списков, поддерживается также матрица совместного появления 212 (G) для хороших фраз. Матрица G имеет размерность m * m, где m - количество хороших фраз. Каждая запись G (j,k) в матрице представляет собой пару хороших фраз (g
j, g
k). Матрица совместного появления 212 логически (но не обязательно физически) поддерживает три отдельных параметра для каждой пары (g
j, g
k) хороших фраз, в соответствии со вторичным окном 304, которое отцентрировано по текущему слову I, и распространяется на +/- h слов. В данной реализации, которая показана на
Рис 3, вторичное окно 304 состоит из 30 слов. Матрица совместного появления, таким образом, поддерживает:
R(j,k): Обычный подсчет количества совместных появлений. Количество раз, когда фраза g
j или фраза g
j появлялась в качестве отдельного текста во вторичном окне,
D(j,k): Подсчет совместного «интересного» появления: количество раз, когда обе фразы g
j и g
k появлялись совместно в качестве выделенного текста во вторичном окне. Использование подсчета совместного интересного появления особенно ценно для того, чтобы избежать тех случаев, когда фраза (напр., знак копирайта) часто появляется на полях, в верхней или нижней части страницы, и фактически не является предсказательной для какого-то другого текста.
По отношению к примеру на
Рис 3 предполагается, что "stock dogs" находится в списке хороших фраз 208, равно как и фразы "Australian Shepherd" и "Australian Shepard Club of America". Обе последние фразы появляются во вторичном окне 304, с привязкой к текущей фразе "stock dogs". Однако фраза "Australian Shepherd Club of America" является анкор-текстом для гиперссылки на сайт (отмечена подчеркиванием). Таким образом, показатель совместного появления пары {"stock dogs", "Australian Shepherd"} увеличивается, равно как и показатели появления фраз {"stock dogs", "Australian Shepherd Club of America"}и их раздельные показатели интереса – поскольку последняя фраза появляется в качестве выделенного текста.
Процесс траверсирования документа окном 302 и вторичным окном 304 повторяется для каждого документа в разделе.
После того, как документы в разделе прошли траверсирование, наступает следующая стадия операции индексирования – обновление 202 списка хороших фраз 208 из списка возможных фраз 206. Возможная фраза p из списка возможных фраз 206 перемещается в список хороших фраз 208, если частота появления фразы и количество документов, в которых появляется фраза, свидетельствуют о ее достаточно частом использовании в качестве семантически значимой фразы.
В данной реализации, это тестируется следующим образом. Возможная фраза p удаляется из списка возможных фраз 206, и помещается в список хороших фраз 208, если:
а) P(p) > 10 и S(p) > 20 (количество документов, содержащих фразу p больше 10, а количество появлений фразы p больше 20), или
б) M(p) > 5 (количество интересных появлений фразы p больше 5)
Эти параметры определяются количеством документов в разделе. К примеру, если в разделе содержится 2000000 документов, эти параметры увеличиваются примерно вдвое. Мастера жанра, конечно же, оценят, что определенные значения параметров могут изменяться, наряду с адаптивной логикой их тестирования.
Если фраза не попадает в список хороших фраз 208, то она проверяется как потенциальная плохая. Фраза p считается плохой, если: