20 вопросов Гари Флэйку, руководителю исследовательских лабораторий Yahoo!, страница 3 > Поисковые системы

Новости
Статьи: Поисковые системы; Дизайн и Юзабилити; Законы / Финансы; Маркетинг; Порно контент; Ниши и психология; Партнерские Программы; Траффик-Менеджмент; Сервисы; Программинг; Софт и Скрипты; Хостинг / Железо; Интервью; Веб камеры; Путешествия; История секса
Форум
FAQ
Каталог
Опросы
Участники

CТАТЬИ

Раздел: Поисковые системы

20 вопросов Гари Флэйку, руководителю исследовательских лабораторий Yahoo!

GF: Самое лучшее в реляционной базе данных то, что ее структура говорит о том, какая информация важна. Дизайнеры баз данных весьма преуспели в оптимизации этих баз (как в организации информации, так и в алгоритмах) для того, чтобы использовать систематичность лучшим способом. Когда вы переходите к неоднородным базам, многие известные пути уже не работают.

Композиция двух типов, не совершенная, но добавляющая много полезного, превращает структурированную базу в полуструктурированную. Сегодня мы используем документы как большой набор слов и индексируем эти слова. При этом полуструктурированном подходе, мы берем структурированную информацию (скажем, содержимое определенных полей) и синтезируем слова, которые представляют факт "документ X с полем Y, которое содержит данные Z". Понятно, что я не могу создать SQL-запрос по этому представлению, в крайнем случае я могу искать документы с определенным набором поле:содержимое.

Я бы хотел отметить, что мы сможем создать неструктурированную базу данных, такую же мощную, как структурированная, но в данном случае это не так важно. Однако, слияние структурированных и неструктурированных данных и способов работы с ними окажется полезным большинству пользователей.

Параллельно с решением вышеперечисленных проблем, мы попробовали подойти к вопросу с другой стороны и запустили Программу Получения Контента (Content Acquisition Program), работая с такими партнерами как NPR и Library of Congress (Библиотека Конгресса), а также с университетами, например, Northwestern, UCLA или Университет Мичигана. Так что скоро мы сможем предоставить их структурированные данные большой аудитории.

RS: Много ли потенциальных данных остается неиспользованными сегодня?

GF: Я бы сказал, что неявной информации в Сети больше, чем "сырой" информации, и что мы используем только малую ее часть. Сегодня все SE дерутся за некоторые простые формы неявных данных: язык, географическое расположение и т. п. Что выпадает из списка, так это практически беспредельная коллекция отношений, которые очевидны большинству людей, но которые крайне трудно обозначить в отдельном документе. Причиной, по которой такие данные так трудно идентифицировать, является то, что они, в совокупности формируют наше коллективное культурное сознание. Разрешите мне пояснить это на примере:

Я могу читать очень сложный технический документ о свертываемости белка, что является увлекательной областью молекулярной биологии. Этот документ может ссылаться на цепи аминокислот в химической формуле. Формула вообще написана на другом языке, используемом химиками для описания молекул, однако спецификации на язык в документе нет; подразумевается, что читатель должен знать этот язык. Это очевидный пример, но встречаются и еще более тонкие отношения.

Внутри этого же документа мы можем заметить много других форм неявных данных и информации. Например, документ о свертываемости белка может не использовать слово «биология», однако очевидно, что текст попадает в этот тематический раздел. Люди, читающие его, могут прийти к очевидному заключению: "Это написано для специалистов", "это относится к профессиональной медицине", и пр. Эксперты смогут открыть вам еще больше неявных фактов: "статья может быть устаревшей к настоящему моменту", "автор считается авторитетом в данной области", или "ожидается, что болезни будут излечены, если все будет идти успешно".

В сумме, все потенциальные данные складываются в то, что мы держим у себя в голове, но не собираемся записывать, хотя эти факторы крайне необходимы для понимания. Люди десятилетиями пытаются систематизировать эти данные (в различных формах, от онтологии до баз данных здравого смысла). Мы начинаем познавать веб через эти тонкие отношения. Ключ для понимания в том, что недостаточно глядеть на слова, концепции и документы; вам следует также взглянуть на то, как все эти вещи связаны между собой.

Продолжение следует

09.11.04
Источник: resourceshelf.
Автор: Gary Flake. Перевод: e-baka..

проголосовать (2.67)

обсудить (0)

Страницы: « первая <1 23

Спонсор раздела