+ + +
Yahooею
С нами с 15.02.06
Сообщения: 811
Рейтинг: 245
|
Добавлено: 17/07/06 в 22:37 |
по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация.
|
|
|
|
продаю базы адалт кейвордов
С нами с 09.11.02
Сообщения: 9045
Рейтинг: 3772
|
Добавлено: 17/07/06 в 23:19 |
берешь каждое предложение длиной 7-10 слов из своего текста,
и ищещь его в гугле, по цельной фразе ( в кавычках ). Если гугль нашел чего-то кроме тебя, значит у тебя уже не уникально.
|
|
сдам подпись, стучите в личку
|
0
|
|
|
+ + +
Yahooею
С нами с 15.02.06
Сообщения: 811
Рейтинг: 245
|
Добавлено: 17/07/06 в 23:27 |
а если у меня 10-20 кейвордов и 500 килобайт текста для смешивания: 1 кейворд на 3-5 слов из текста? хочу узнать именно по каким параметрам определяется эдентичность контента у гугля чтобы использовать для скрипта-генератора.
|
|
|
|
С нами с 19.03.06
Сообщения: 17
Рейтинг: 6
|
Добавлено: 18/07/06 в 01:20 |
А с чего ты взял, что такие параметры есть? И что они на что то влияют?
|
|
|
|
С нами с 22.06.06
Сообщения: 155
Рейтинг: 157
|
Добавлено: 18/07/06 в 01:37 |
ags писал: | по каким параметрам определяется эдентичность контента у гугля?
разбивка страницы? текст(от скольки одинаковых слов стоящих в одном и том же порядке в одном предложении)?
полезна любая информация. |
Этот вопрос напрямую связан с наукой криптографией или в контексте СЕ это прозвучит так - как содержать информацию в БД не храня весь её обьём. Можешь мне поверить, эта задача решается уже лет 50 на уровне докторов и академиков, но идеального алго не существуют. Множество методик разработано для этой цели и сказать, какую их них использует гугл невозможно. Некоторое время назад появилась замечательная статья сотрудника Яндекса И. Сегаловича о шинглах. Шинглами называются многословия определённой длины, для каждого из которых рассчитывается md5 хеш, который хранится в БД. Сравнивая хеши можно уверенно определять дубли. Длина шингла предложена в статье в размере 10 слов, если не ошибаюсь.
Одним из методов определения авторства основывается на формальной модели последовательности букв на основе цепей Маркова. Для текстов рассчитывается матрица частот употребеления элементов текста (букв, слова, грамм. классов) и на её основе вычисляется вероятность принадлежности. По разным оченкам можно ожидать точность до 70%.
Другой метод называется квантитативным. Заключается в исследовании структурных классоя естественного языка.
Ещё один метод - инвертированный индекс документа или цифровая подпись. Вычисляется вектор каждого документа по частотный индексам каждого слова. Индекс является бинарным и может принимать 0 или 1, в зависимости от того, превышает или нет его величина предельную частоту для каждого слова документа.
Каждый метод имеет свои недостатки и преимущества.
Но к слову сказать, в настоящее время задача поисковиков по этому вопросу формулируется (и, соответственно, имеет решение) проще - определить МАШИННЫЙ текст, а не только уникальный. А вот это решается намного проще.
|
|
DVD-NETWORK НОВОГО ПОКОЛЕНИЯ
Уникальная система конвертации поискового адалт траффика. ICQ 237295387
|
3
|
|
|
+ + +
Yahooею
С нами с 15.02.06
Сообщения: 811
Рейтинг: 245
|
Добавлено: 18/07/06 в 01:40 |
гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь?
|
|
|
|
+ + +
Yahooею
С нами с 15.02.06
Сообщения: 811
Рейтинг: 245
|
Добавлено: 18/07/06 в 01:44 |
ICOOGLE Project
спасибо, а есть ссылки по теме?
|
|
|
|
С нами с 22.06.06
Сообщения: 155
Рейтинг: 157
|
Добавлено: 18/07/06 в 02:14 |
ags писал: | гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь? |
Практика - единственный верный критерий истины. Пробуй и делай выводы.
Только лишь за дублированный текст не забанит, но дело в том, что сайт, использующий неуникальный или машинный текст, надёрганные снипеты и т.д. обладает массой других признаков дорвея, что приводит к бану или понижению в выдаче. Таким образом сказать, что за неуникальный текст банят - не верно, он лишь является одним из многих параметров, по которым можно вынести вердикт. Отсюда следует вывод №2 - зачем делать хороший текст, если всё равно забанят. Однако можно аргументировать тем, что уделив некоторое внимание (разумное по временным затратам на изготовление дорвея) тексту, бекам, хосту можно существенно продлить ему жизнь.
Сегалович
http://www.smotrite.ru/s28.shtml
Инвертированный индекс
http://www.siteman.ru/articles_18.html
Хмелёв (авторство по формальной модели Маркова)
http://www.philol.msu.ru/~lex/articles/grco_r.htm
|
|
DVD-NETWORK НОВОГО ПОКОЛЕНИЯ
Уникальная система конвертации поискового адалт траффика. ICQ 237295387
|
3
|
|
|
c++,php кодинг
С нами с 22.10.05
Сообщения: 1098
Рейтинг: 558
|
Добавлено: 18/07/06 в 03:38 |
ags писал: | гугл банит сайты с одинаковым контентом или понижает в рейтинге выдачи это можно найти на сэошных форумах или сайтах.
или я в чем-то ошибаюсь? |
Гугл не показывает дубли в серпе как яндекс.
|
|
|
|