Реклама на сайте Advertise with us
Новости
Статьи
Поисковые системы
Дизайн и Юзабилити
Законы / Финансы
Маркетинг
Порно контент
Ниши и психология
Партнерские Программы
Траффик-Менеджмент
Сервисы
Программинг
Софт и Скрипты
Хостинг / Железо
Интервью
Веб камеры
Путешествия
История секса
Форум
FAQ
Каталог
Опросы
Участники

CТАТЬИ Статьи

Раздел: Поисковые системы

Версия для печати

Плотность ключевого слова нонсенс

Взвешивание

Вес термина в документе состоит из трех различных типов взвешивания термина: локального, глобального и нормализации. Вес термина описывается в уравнении 2.



Уравнение 2.

где Li, j - локальный вес термина i в документе j, Gi- глобальный вес термина i, а Nj - фактор нормализации для документа j. Локальные веса - это функции того, как часто каждый термин встречается в документе, глобальные веса - это функции того, как часто документы, содержащие каждый термин, встречаются в подборке документов, а фактор нормализации корректирует несоответствия, возникающие из-за разной длины документов.

В классической модели Пространственного Вектора Термина



Уравнения 3, 4 и 5

что сводится к хорошо известной схеме взвешивания if*IDF, описанной в уравнении 6



Уравнение 6.

где log(D/di) - инверсная частота документа (Inverse Document Frequency - IDF), D - количество документов в подборке (размер базы данных), а di - количество документов, содержащих термин i.

Уравнение 6 - только один из многих вариантов взвешивания терминов, которые можно найти в литературе, посвященной векторам терминов. В зависимости от того, как определены L, N и G , для документов и запросов могут быть предложены различные схемы взвешивания.

Значения KD как оценка веса терминов?

Значения KD могут быть соотнесены с весом терминов только так, как описано в уравнении 7:



Уравнение 7.

это при условии, что глобальный вес игнорируется, а фактор нормализации переопределяется в зависимости от длины документов, описанной в уравнении 8



Уравнение 8.

Однако, Gi = IDF = 1 ограничивает размер подборки D десятикратным количеством документов, содержащих термин (D = 10 * d), а Nj = 1 / lj не предусматривает фильтрацию стоп-слов. Эти условия не учитываются в коммерческих поисковых системах.

Использование вероятностной схемы вектора термина, в которой IDF определяется согласно уравнению 9,



Уравнение 9.

тоже не помогает, так как условие Gi = IDF = 1 подразумевает, что D = 11 * d. Дополнительные неосуществимые ограничения можно вывести для других схем взвешивания, когда Gi = 1.

Подытоживая вышесказанное, хочется отметить следующее. Предположение, что значения KD можно использовать для оценки веса терминов, или что эти значения можно использовать в целях оптимизации, приводит нас к определению "плотности ключевого слова нонсенс".

Список документов:
  • The Fractal Geometry of Nature, Benoit B. Mandelbrot, Chapter 38, W. H. Freeman, 1983.
  • From Complexity to Creativity: Computational Models of Evolutionary, Autopoietic and Cognitive Dynamics , Ben Goertzel, Plenum Press (1997).
  • Fractals and Sentence Production, Ben Goertzel, Ref 2, Chapter 9, Plenum Press (1997).
  • The Algorithmic Beauty of Plants, P. Prusinkiewicz and A. Lindenmayer, Springer-Verlag, New York, 1990.
  • Topic Analysis Using a Finite Mixture Model, Hang Li and Kenji Yamanish.
  • Improving the Effectiveness of Information Retrieval with Local Context Analysis, Jinxi Xu, W. Bruce Croft.

  • 10.01.06
    Источник: e-marketing-news.
    Автор: Dr. E. Garcia. Перевод: Seva.

    Спонсор раздела Стань спонсором этого раздела!

    Реклама на сайте Advertise with us