Мир принадлежит тебе...
С нами с 09.10.05
Сообщения: 1858
Рейтинг: 1104
|
Добавлено: 22/02/06 в 22:41 |
Synchro писал: | Большой кусок текста берешь и ищешь... Кто на первом месте в выдаче, тот и первоисточник. |
Не факт...
|
|
Chili Media - глобальная система конвертации траффика.Coming soon...
|
0
|
|
|
С нами с 15.10.02
Сообщения: 2469
Рейтинг: 923
|
Добавлено: 22/02/06 в 23:01 |
Synchro писал: | Большой кусок текста берешь и ищешь... Кто на первом месте в выдаче, тот и первоисточник. |
сенкс
Оффтопик: думал есть ещё какие методы хитрые
|
|
|
|
Злостный выхухоль
С нами с 07.04.03
Сообщения: 4636
Рейтинг: 3207
|
Добавлено: 22/02/06 в 23:29 |
Tony Montana писал: | Не факт... |
Единственное, что можно сказать про гугл со 100%-ой вероятностью, что это сайт, который ищет что-то в интернете. Все остальное - "не факт".
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 23/02/06 в 01:14 |
А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему?
|
|
|
|
Мир принадлежит тебе...
С нами с 09.10.05
Сообщения: 1858
Рейтинг: 1104
|
Добавлено: 23/02/06 в 01:28 |
kit писал: | А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему? |
Чем длиннее и уникальнее, тем лучше.
2Synchro
На самом деле фактических вещей о гугле гораздо больше, чем ты указал...
|
|
Chili Media - глобальная система конвертации траффика.Coming soon...
|
0
|
|
|
+ + +
С нами с 20.03.03
Сообщения: 966
Рейтинг: 175
|
Добавлено: 23/02/06 в 01:50 |
kit писал: | А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему? |
Это наверно только Маузер да БоГ знают... знают но не скажут
|
|
|
|
С нами с 28.07.03
Сообщения: 930
Рейтинг: 462
|
Добавлено: 24/02/06 в 15:42 |
kit писал: | А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему? |
я тоже интересовался этим вопросом. у Маузера спрашивал. Он тоже точно сказать не может как определяеться уникальность. Но вроде по тому что я читал 80% совпадений считаеться уже не уникальным тесктом. Те ткто копируют контент проставляют свои тексты сверху и снизу тоже определяеться не уникальность.
|
|
|
|
С нами с 18.11.04
Сообщения: 7
Рейтинг: 2
|
Добавлено: 06/03/06 в 01:31 |
kit писал: | А вот в тему вопрос:
Какой размер должен быть у фрагмента текста, что-бы гугль наложил применил фильтры, и какова должны быть доля этого фрагмента в коде страницы?
Еть какая-то информация на эту тему? |
Есть - шинглы.
|
|
|
|
С нами с 16.05.03
Сообщения: 10
Рейтинг: 21
|
Добавлено: 11/03/07 в 22:30 |
Классная статья ;)
Пошел копировать ее на свой сайт
Шютка.
|
|
|
|
С нами с 22.06.06
Сообщения: 155
Рейтинг: 157
|
Добавлено: 12/03/07 в 13:56 |
Back Door Man писал: | Есть - шинглы. |
Шинглы закончились вместе с баянистой статьёй Сегловича о них 5-летней давности. Я для своих целей их использовал, преимущество метода в его простоте, можно небольшими усилиями находить точные вхождения.. но с ростом базы для проверки это становится ерундой полнейшей. Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент. Вот это очень хороший способ, там я думаю определится даже при 50% разбавлении чужим текстом независимо от того, в какое место он был вставлен, т.к. берутся же связки фраз... куда его не подмешивай, грамматика не меняется. Вот для этого нужно структуру авторскую поломать. кстати это уже давно есть ;)
Но самое главное для всех способов фрагменты должны быть большими, чтобы корректно определять дубли. Поэтому и анализируется весь сайт как единое целое по тексту. Таких же не было случаев в последнее время, чтобы именно понижали страницы за дубликаты? (или были? шото я не слежу). Вот собсвенно и речь о том, что не столько важно отношение в коде страницы, сколько отношение самих страниц на сайте.
|
|
|
|
С нами с 26.02.07
Сообщения: 9
|
Добавлено: 28/03/07 в 03:58 |
ICOOGLE Project писал: | Есть намного более эффективные способы определения авторства, напр. по n-граммам, причём в их роли могут же выступать не только элементарные единицы речи (пары букв, пары слов), а пары фраз, о которых последний патент. |
И как происходит сравнение таких пар для разных сайтов?
Разве при таком методе требуется значительно меньше ресурсов для анализа чем при шинглах?
|
|
|
|