С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 25/10/05 в 00:31 |
Хочется обсудить следующую проблему:
В последнее время всё больше и больше проявляются тенденции к агрегации чужого контента, фактически c любого сайта, где есть кнопка "RSS" (да и вообще с любого), можно оперативно брать контент, и публиковать его на своём сайте. В таком случае, внешний наблюдатель (Google), видит два сайта, на которых почти одновременно, появляется один и тот-же контент.
Проблема:
1) кого считать первоисточником?
2) кого считат ь более релевантным поисковому запросу?
С первым вопросом есть гипотеза, что поисковики обязаны начинать отслеживать источники, где искомый текст (возможно даже одно предложение), появились первыми. Далее, если фрагмент встречается ещё где-то, то это уже не первоисточник, а просто тот кто цитирует. Но задача усложняется тем, что цитирующий может быть проиндексирован раньше, и тогда он уже превращается как-бы в хозяина.
Ещё более сложный вопрос: кого считать более релевантным запросу? Источник контента, или агрегатор?
Я бы хотел услышать равёрнутое мнение других участников форума на эту интересную тему.
Последний раз редактировалось: kit (07/11/05 в 15:22), всего редактировалось 1 раз
|
|
|
|
изготовление контента
С нами с 08.06.05
Сообщения: 807
Рейтинг: 270
|
Добавлено: 25/10/05 в 01:20 |
я конечно не все понимаю . а доки тогда зачем и , что нельзя написать в гугл , там ведь тоже работают обычные люди
|
|
|
|
С нами с 09.02.05
Сообщения: 1482
Рейтинг: 1558
|
Добавлено: 25/10/05 в 01:36 |
насколько я понял, Кит имеет виду прежде всего текстовый контент...а не фото...
|
|
|
|
С нами с 18.12.03
Сообщения: 3677
Рейтинг: 1216
|
Добавлено: 25/10/05 в 01:44 |
imho тут уже идет вопрос в значимости информации и его ценности первоисточником щитать трудно кого либо ! отчасти свобода слова поэтому это не должно быть особо незаконно .
|
|
Traffic Vendor – Новый траффик брокер! Лей на нас и гарантировано получишь больше чем с других бирж!
|
0
|
|
|
С нами с 23.10.03
Сообщения: 2428
Рейтинг: 1719
|
Добавлено: 25/10/05 в 02:14 |
kit писал: |
2) кого считат ь более релевантным поисковому запросу?
Ещё более сложный вопрос: кого считать более релевантным запросу? Источник контента, или агрегатор?
Я бы хотел услышать равёрнутое мнение других участников форума на эту интересную тему. |
ну... так того, кто более релевантен и считать. то есть если агрегатор перетащил к себе контент по заданной теме с десятка доменов - он, на мой взгляд, будет более релевантен запросу просто потому, что информации у него по этому запросу больше. если же говорить о стопроцентно идентичном контенте - то более релевантен должен быть первоисточник - 'first come - first served'.
|
|
|
|
root
С нами с 04.04.04
Сообщения: 888
Рейтинг: 242
|
Добавлено: 25/10/05 в 10:06 |
первоисточником считается тот, который гугл увидел первым, даже если он им не считается реально
тоже самое с зеркалами, зеркала склеит, а первоисточник тот, который проиндексирован первым
|
|
|
|
1К13!
С нами с 07.05.04
Сообщения: 7721
Рейтинг: 2428
|
Добавлено: 25/10/05 в 11:08 |
Т.е. достаточно сделать так, чтоб на доре гуглбот крутился чаще, чем на контентном сайте? Надо эксперимент провести ) Никто рсс фидов по фентермину не знает? )
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 25/10/05 в 11:39 |
мои эксперименты показали что в данных случаях, перефразируя классика: кто крупнее, того и тапки.
|
|
|
|
С нами с 09.02.05
Сообщения: 1482
Рейтинг: 1558
|
Добавлено: 25/10/05 в 13:11 |
а тапки ему достаются за счет того, что к нему бот чаще ходит и соотв. контент индексируется раньше?
или же даже в том случае, когда этот контент уже был проиндексирован на другом ресе?
поясни плз, если не трудно...
|
|
|
|
Монстр
С нами с 16.10.02
Сообщения: 1052
Рейтинг: 198
|
Добавлено: 25/10/05 в 13:22 |
Если интересно, стукни в аську объясню.
|
|
|
|
С нами с 26.11.04
Сообщения: 119
Рейтинг: 145
|
Добавлено: 25/10/05 в 16:26 |
Для Гугла первоисточником будет тот у кого LinkPopularity(PR) больше.
|
|
|
|
С нами с 05.05.03
Сообщения: 333
Рейтинг: 257
|
Добавлено: 27/10/05 в 18:20 |
Думаю что первоисточником будет тот, у кого бот первый побывает и контент проиндексирует.
Как известно одним из немаловажних факторов в СЕО являетя переодическое обновление контента - такие ресурсы боты посещают чаще.
Я проаналезировал посещение крупных ботов на одном крупном ресурсе на котором разного рода контент обновляется ежедневно и ПР ресурса = 5, и вот что я получил
Googlebot - приходит приблизительно каждые 10 часов
Google AdSense - шарится каждый час
MSNBot - каждые 2-3 часа
Inktomi Slurp(Yahoo) - каждые 1-2 часа
Вот туту как раз играет фактор Цитата: | оперативно брать контент |
. Насколько оперативно?
Естественно с помощью скриптов(rss риадеров или парселок страниц) можно красть контент так сказать на лету, но все же если ресурс крупный то частота посещений ботов должна обеспечить первичное индексирование, хотя в моем случае гуглбот не так уж активен как яха и мсн.Но хотя не одним гуглом мир живет. Хотя по статистике посещений гугл в 3 раза всех обстовляет. Приведенная статистика не претендует на звание супер посещения ботов и приведена просто для примера. Более того мне хотелось бы узнать как у кого обстоит дело с частатой посещений ботов?
Из вышесказанного вытекает именно, что Цитата: | кто крупнее, того и тапки. |
Ну и мне кажется, что теденция кражи контента более мелкими ресурсами с более крупных, более частое явление, чем наоборот. Следовательно и спраедливость не нарушается. Так что вывод: надо рости и все будет ОК
|
|
|
|
С нами с 22.10.03
Сообщения: 598
Рейтинг: 706
|
Добавлено: 29/10/05 в 09:11 |
Есть еще один маленький нюанс:
существует пусть и спорное, но достаточно устойчивое мнение, что сайт с дубликатом контента ( достаточно одного абзаца, по некоторым сведениям), пенализируется. Т.е. Сайт с бОльшим ПР, взявший контент с первоисточника, его-же и опускает в выдаче.
Цитата: | Следовательно и спраедливость не нарушается. |
Ага, крупным и воровать значит можно?
|
|
|
|
С нами с 12.06.04
Сообщения: 267
Рейтинг: 246
|
Добавлено: 30/10/05 в 00:36 |
при 302 hijacking кто победитель?
прально, у кого пр выше.
следовательно так же и тут, имхо.
|
|
|
|
С нами с 28.05.04
Сообщения: 48
Рейтинг: 49
|
Добавлено: 01/11/05 в 14:47 |
razmishleniya k voprosu o dublicate content . Set' sodergit milioni saytov i desyatki miliardov stranichek to bish zadacha analizatora teksta svoditsya k proverke napolneniya stranichek kak vnutri sayta tak i sravnenie kagdoy stranichki sayta skagdoy stranichkoy saytov vne ego i neprosto sravneniya a tut skazali chto dostatochno abzaca. po moemu mneniyu nesushestvuet kompyuternoy sistemi kotoraya sposobna proanalizirovat odin abzac stranichki dage so vsemi stranichkami pohogey tematiki. Otsyda vivod chto znachenie doblecat content silno preuvilicheno i smesheno skoree v storonu domaynov zaregistrirovannih na krupnie novostnie i gosudarstvennie organizacii i proverku samogo napolneniya sayta na dublyag. V podtvergdenie etoy teorii mogu privesti primer s LL. V sushnosti u vseh krupnih LL +/- odni i te ge zagolovki i deski na kagdiy frishnik to est vse katigorii na krupnih link listah po samomu skromnomu podshetu dubliruyut drug druga procentov na 10-20 eto mnogo bolshe chem abzac. otsyuda mogno zdelat vivod chto samoe logichnoe pokazivat bolee prolinkovannuyu stranicu na bolee prolinkovannom sayte to bish dage esli predpologit chto delaetsya totalnaya proverka na dublyag to bolee logichno pokazivat stranichku natom sayte na kotorom ona bolee prolinkovana. Ya ne pritenduyu na istenu prosto razmishleniya
|
|
|
|
С нами с 22.10.03
Сообщения: 598
Рейтинг: 706
|
Добавлено: 01/11/05 в 15:32 |
Цитата: | po moemu mneniyu nesushestvuet kompyuternoy sistemi kotoraya sposobna proanalizirovat odin abzac stranichki dage so vsemi stranichkami pohogey tematiki. |
Я был-бы более осторожен по отношению к Гуглю, поиск информации в массиве из 15 триллионов страниц и ранжирование более 10 миллионов за 0,12 секунд мне как недоучившемуся физику вообще волшебством кажется. Даже если считать ВСЕ серпы заранее просчитанными.
Цитата: | V sushnosti u vseh krupnih LL +/- odni i te ge zagolovki i deski na kagdiy frishnik to est vse katigorii na krupnih link listah po samomu skromnomu podshetu dubliruyut drug druga procentov na 10-20 eto mnogo bolshe chem abzac. |
Вообще-то если бы не было пенальти (не обязательно за дублирование) ИМХО, процентов 90 выдачи по адалтным кейвордом занимали-бы линклисты.
|
|
|
|
С нами с 28.05.04
Сообщения: 48
Рейтинг: 49
|
Добавлено: 01/11/05 в 16:00 |
Eshe primer po povodu LL ne pomnyu toli gremlin to li Fabulus vobshem ktoto iz eliti deski sam pishet na ves listing no nelzya skazat chto on kakto djeya ili gringaya kak to po osobomu obhodit
a po povodu raschetov i vidachi kak pochti fizik zadumaysya pochemu u google neskolko data centrov i serch po domaynu na keyvords tolko opredilynnie v novoy page ego on delaet tolko v pridelah 1000 saytov i posmotri skolko eto realno vremeni zanimaet. ;)
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 01/11/05 в 17:45 |
pashtet писал: | Я был-бы более осторожен по отношению к Гуглю, поиск информации в массиве из 15 триллионов страниц и ранжирование более 10 миллионов за 0,12 секунд мне как недоучившемуся физику вообще волшебством кажется. Даже если считать ВСЕ серпы заранее просчитанными.
|
Гугль может всё. К такой мысли я уже почти привык. В течении года-двух, он предложит что-то типа GooglePrint, только для телевизионных программ: Архив всех телевизионных шоу по запросу, начиная с первых телевизионных трансляций в 30-ых годах и заканчивая выпуском новостей пять минут назад.
|
|
|
|
С нами с 28.05.04
Сообщения: 48
Рейтинг: 49
|
Добавлено: 02/11/05 в 01:06 |
nu ya bolee pissimestichno k etomu otnoshush. Takie obyomi informacii mogno obrabativat tolko razdelno poetomu resknu vidvinut eshe odno predpologenie, a imenno chto dage esli vse nastoko seryozno to proverka na dublikate kontent moget sushistvovat tolko v pridelah dopustom 1000 saytov vilazyashih na gruppu slov opredilyonnoy tematiki imeyushie bolee menie odinakovuyu prolinkovku i optimizaciyu. Resknu eshe vidat temu dlya razmishleniya. Dapustim chto kosaetsya porno to vprincipe slovarniy nabor etoy tematiki ne tak velik ya uge ne govoryu o virageniyah tipa "click here for free porn movies and pictures" i uchitivaya koll saytov stranic na etih saytah i teksta na etih stranicah to veroyatnost neproizvolnogo dublyaga dage celih abzacev ochen velika. Matematiki kotorie pisali algoritm ya dumayu eto prekrasno ponimali. Google orientirovan na polzovatelya a polzovatelyu net raznici videt odnu i tu ge informaciyu na tom ili drugom sayte sledovatelno pochemu bi ne pokazat etu str na bolee polnom po obyomu i prolinkovannom sayte tem samim sokrativ neveroyatnie vicheslitelnie moshnosti. Povtoryus chto eto chisto subektivnoe mnenie i ne stoit otnositsya ochen kriticheski.
|
|
|
|
С нами с 19.11.03
Сообщения: 3973
Рейтинг: 2362
|
Добавлено: 02/11/05 в 04:43 |
Ребята, спуститесь с небес на Землю , некак , т.к. всегда можно сэмитировать ситуацию когда клон будет "крупнее" , при правильной постановке вопроса.Опять чисто из логики проще наложить очередной фильтр или "забанить" обоих.
Вы скажите, так что если я щас сделаю зеркало microsoft.com , так они завтра выпадут из СЕРП нет конечно , такие сайты имхо "вручную" прописаны ,т.е. они как константа , при появлении любого сайта на данную тему , такой сайт является эталоном,и при дубляже контента он не может быть забанен не при каких условиях , все просто , оно и должно быть просто , потому что по другому быть не может.
Это вообщем , тут конечно можно брать в оценку и ПР и релевантные линки на другие сайты , но в основе своей это простые "действенные" алгоритмы и параметры , которые делают "невыгодным" полный или частичный дубляж в комплексе.
По поводу мощностей думаю и так ясно что СЕРПы там уже готовые лежат , зачем их пересчитывать каждый раз?
Просто с усложнением жизни для СЕ , алгоритмы ботов почти не меняются , имхо боты лишь собирают , но практически не обабатывают данные.
Т.к. это по времени очень долго выходит(сокеты у них ведь не волшебные, и каждый мало мальский понимающий в теме знает сколько тратится времени на этот процесс) ,а обработка уже происходит потом по каким-то контрольным суммам , и наложением фильтров.
Гугль очень мощен , но каждый лишний запрос и алгоритм это для них просто ебаническая нагрузка.
п.с.
Да и вообще что считать дубляжом ? Это ведь тоже понятие очень отностительное ;-) если бы слуществовали алгоритмы и реально проблема, в бан бы ушли тясячи сайтов которые всего лишь цитируют содержание без "злого" умысла.И с другой стороны сама "модель" цитаты может служить той основой по которой различаются источник и агрегатор , т.е. если на паге имеется дубляж и ссылка на сайт с аналогичным контентом то с высокой вероятностью можно узнать кто источник, а кто агрегатор.
Последний раз редактировалось: xreload (02/11/05 в 06:28), всего редактировалось 8 раз(а)
|
|
|
|
С нами с 28.05.04
Сообщения: 48
Рейтинг: 49
|
Добавлено: 02/11/05 в 04:47 |
Vot i ya o tom ge ;)
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/11/05 в 22:23 |
xreload писал: |
если бы слуществовали алгоритмы и реально проблема, в бан бы ушли тясячи сайтов которые всего лишь цитируют содержание без "злого" умысла. И с другой стороны сама "модель" цитаты может служить той основой по которой различаются источник и агрегатор |
Всё правильно, но возникает несколько "но":
1) Агрегатор может оказаться выше источника в серпах.
2) Источники контента активно используются чёрными оптимизаторами для пополнения своих бескрайних полей дорвеев.
PS. 2 nikola12, пишешь прикольно, вот бы хорошо на русском, а то латиницу тяжело читать :-(
|
|
|
|
Генератор случайных букв
С нами с 01.02.04
Сообщения: 1014
Рейтинг: 455
|
Добавлено: 03/11/05 в 01:11 |
Вообще-то я в последнее время начал побаиваться гугла. Наверное Коуэна перечитался в детстве. Пугают меня, на подсознательном уровне, возможности гугла и его щупальца расползающиеся во все стороны интернета. Спутниковая съемка, данные о пользователе через IP, попытки внедрить свои прокси-впн, платежные системы. Контекстная реклама в гмейле. В будующем свой браузер, а возможно и офис и ОС. Гигантские вычислительные мощности. Да и кто запретит ему в свой фриварный браузер / офис / тулбары встроить легальные кусочки системы распределенных вычислений? Если это будет подано в термзах как плата за "free"?
Вообще... "Чем больше я узнаю о Гугле, тем сильнее привязываюсь к Майкрософту". Более того. Одним из оправданий своего дорвеестроительства, я действительно считаю некую партизанщину
|
|
|
|
С нами с 19.11.03
Сообщения: 3973
Рейтинг: 2362
|
Добавлено: 05/11/05 в 12:12 |
kit писал: | Всё правильно, но возникает несколько "но":
1) Агрегатор может оказаться выше источника в серпах.
2) Источники контента активно используются чёрными оптимизаторами для пополнения своих бескрайних полей дорвеев.
PS. 2 nikola12, пишешь прикольно, вот бы хорошо на русском, а то латиницу тяжело читать :-( |
По поводу первого пункта , изложенная мною мысль лишь один из возможно десятков других не менее эффективных методов , но сама по себе идея имхо, столь же утопическая как и борьба СЕ с дорами.
И думаю в разрезе текущей проблемы, СЕ учитывают только полный дубляж контента , т.к. это наиболее простой и эффективный метод и некоторые доп.параметры(у гугля ПР например ,может быть).
Да и не забываем что контент это не все , а лишь довольно таки небольшой процент от обшей оценки паги , поэтому даже если например гугль не будет иметь в своем арсенале сколь небудь эффективные алгоритмы для борьбы с дубляжом контента , то остальные параметры просто не позволять вылезти высоко со схожим контентом.
И взвешивая все "ЗА" и "ПРОТИВ" - имхо проблема надумана и игра не стоит свечь.
п.с.
Я опять же повторяю что не нужно выдумывать что-то сложное если все можно сделать просто , за контентом следить некто не будет , это ресурсоемкое дело , все можно сделать намного проще , уже на базе имеющихся элементов.
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 05/11/05 в 14:27 |
1. Вспоминаем о милиардах разных вариантов запросов, о персонализации поиска, о зависимости результатов от географии\ ип \языка пользователя, о динамическом обновлении индекса и забываем о предрасчитанных результатах в том виде котором это здесь описывалось.
2. Идем на copyscape.com берем страницу с популярным рекламным блоком, вводим адрес. получаем список сайтов на которых используется тот же рекламный текст. Читаем о том что все это делается через гугл АПИ, и не имеет отношению к самому гуглу, думаем о возможностях самого гугла в данном вопросе.
3. Идем на гугл и ищем информацию об их конкурсах проводившихся за последние несколько лет. То что вас интересует будет находится в работах победителе и называться чемто типа "Обнаружение источников цитирования в научных работах". Внимательно читаем и долго думаем.
|
|
|
|