php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 03/09/10 в 10:10 |
не знаю как и описать. вопщем может кто нить ссылочками поделиться или подскажет как реализовать грамотно следующее: есть сайт с очень насыщенным контентом. какая то блядь каждый день включает свой парсер и берет оттуда уник статьи. приходится по логам айпи вычислять и в файре блочить. руками заебало. ипы постоянно разные (каждый день но парсят с одного)
есть ли какая нить система или решение которое банит от парсинга? скажем если в течение 10 секунд 10 кликов то сразу посылаем нахуй. на пыхапе реализуемо и через файр тоже НО могут попасть яндекс и гугл. как то бы чтобы на них это не распространялось. просветите кто в теме, всем рейтинг по максимуму.
|
|
|
|
С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010
|
Добавлено: 03/09/10 в 10:28 |
яндекс и гугл ограничиваются директивой Crawl-delay: 5 в robots.txt
и можешь делать запрет на быстрые запросы большого кол-ва страниц
P.S. если не жалко поделись потом рнр скриптом
|
|
|
|
С нами с 19.11.03
Сообщения: 3973
Рейтинг: 2362
|
Добавлено: 04/09/10 в 01:11 |
Для начала проще всего попробывать ставить куки, например, бол-во простых граберов их не хавают в принципе.
Проверяешь куки, если кук нет, то отдаешь любую левую страницу или страницу но с ссылками на свои сайты в тексте.
|
|
|
|
С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010
|
Добавлено: 04/09/10 в 01:34 |
кстати без кук поисковые боты очень туго и неохотно кушают контент, проверял 4 года назад на дорах, не знаю как сейчас
|
|
|
|
С нами с 20.04.06
Сообщения: 296
Рейтинг: 71
|
Добавлено: 04/09/10 в 02:25 |
Зависит от того, что тебя конкретно беспокоит. Если тебя беспокоит исключительно возможность появления копий статей, то это уже не проблема в наше время. Google очень чётко отслеживает, кто публикует первый, а кто ворует. Даже если украдено через 10 мин после опубликования.
Я уже давно перестал бегать за такими IP и чувствую себя сухо и комфортно )
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 04/09/10 в 07:52 |
понятно что отслеживает но все равно не приятно.
про куки спасибо, всем поставил жирный +
кто еще что предложит?
|
|
|
|
Самый добрый бегемот
С нами с 24.06.03
Сообщения: 954
Рейтинг: 574
|
Добавлено: 04/09/10 в 11:16 |
geoip поставить и там смотреть кто пришел гугл или яндекс. если не поисковик пришел, то нах посылать быстрые запросы, а можно вместо обычного 403 генеренный бред выдавать =)
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 04/09/10 в 12:52 |
Реально, никак нельзя защититься. Если захотят, в любом случае спарсят. Методов иммитации браузера/юзера очень много. А если еще и прокси подвязать, то вообще забудь про защиту.
Могу посоветовать только забанить прова, с которого он парсит или всю его подсеть, если он без прокси конечно работает.
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 04/09/10 в 12:54 |
wopseo: ну да щас, приехали, все реально
atrius: а что в гео айпи пишется гугл это или нет?
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 04/09/10 в 13:11 |
_s_[sov] писал: | wopseo: ну да щас, приехали, все реально |
Смотри тогда не перемудри, это расценится как клоакинг
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 04/09/10 в 13:17 |
я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений?
|
|
|
|
С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010
|
Добавлено: 04/09/10 в 14:00 |
не понятно, что тебе не нравится ограничивать поисковики через Crawl-delay в robots.txt?
я сам использую эту директиву на крупных сайтах, индексируются нормально
|
|
|
|
С нами с 20.04.06
Сообщения: 296
Рейтинг: 71
|
Добавлено: 04/09/10 в 14:50 |
Тут ещё такой момент присутствует ...
Многие сейчас парсят только несколько первых предложений из твоего текста, а дальше дают линк на тебя. Линк нормальный, без rel="nofollow".
Это типа такой обмен по умолчанию - ты на них не пишешь DMCA абузу Googly, они тебе линков пачку.
Если ты программно отсечешь их, то кучи линков недополучишь точно. Можно конечно сейчас начать рассуждать о полезности подобных линков, но я для себя давно решил - любой односторонний линк хорош.
|
|
|
|
С нами с 01.03.07
Сообщения: 304
Рейтинг: 223
|
Добавлено: 04/09/10 в 19:59 |
_s_[sov] писал: | я боюсь просто чтобы не получилось так что система или скрипт забанил поисковик... эксперимент чета блять неохота проводить, неужто нет готовых решений? |
Методами php нету решений . Имитировать браузер можно за 15 минут Он тебе и куки схавает и через прокси будет ходить и сделает задержку секунд в 50. Все что может увидеть пользователь ВСЕ можно стырить. Если начнешь пускать по User - agent поисковики то тебе за клоакинг забанят. Есть решение товарищей из сео области вот этих но оно по баблу затратное шибко будет
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 04/09/10 в 20:08 |
leroy_17: да ну? вроде есть
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 04/09/10 в 21:29 |
Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера.
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 05/09/10 в 08:17 |
wopseo: я и спрашиваю как грамотно реализовать.
|
|
|
|
С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010
|
Добавлено: 05/09/10 в 10:26 |
wopseo писал: | Ну так делай раз "вроде есть". Тебе ж сказали, чтоб ты не придумал вся твоя защита рухнет в 10 мин в руках нормального кодера. |
да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 05/09/10 в 12:33 |
ibiz писал: | да ладно?
есть много вариантов защиты, которую не любой кодер "возьмет", например выдавать контент в защищенном pdf |
А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? ))
|
|
|
|
С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010
|
Добавлено: 05/09/10 в 13:04 |
wopseo писал: | А контент высылать гугл-ботам почтой в ДЦ с просьбой в хеш не ставить? )) |
либо одно либо другое
любая защита от парсинга будет негативно влиять на сео
любую защиту от парсинга можно обойти
панацеи не существует
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 05/09/10 в 13:06 |
ТС, есть один простой вариант, но нужно пробовать.
Большинство парсеров воруют контент со страницы обычным вырезанием от "признак1" до "признак2".
Так вот, можешь поместить свой контент внутри <div id='[random]'>контент</div>
И на пхп сделать так чтоб [random] был постоянно разным как по длине так и по значению.
Но тут надо пробовать.
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 05/09/10 в 13:07 |
wopseo: обойти можно по длине текста между дивами
|
|
|
|
С нами с 04.09.10
Сообщения: 17
|
Добавлено: 05/09/10 в 13:11 |
_s_[sov] писал: | wopseo: обойти можно по длине текста между дивами |
Делать рандомную длину. Пробелами забить.
|
|
|
|
php
С нами с 09.10.06
Сообщения: 3706
Рейтинг: 2410
|
Добавлено: 05/09/10 в 13:17 |
кароче ладно, хватит холиварить и перебирать варианты. по сути я так понял ничего не может никто сказать дельного, жаль
можно закрывать топик, буду банить руками
|
|
|
|
С нами с 01.03.07
Сообщения: 304
Рейтинг: 223
|
Добавлено: 05/09/10 в 16:47 |
просто если кто то сможет сделать отдачу контента которую будет видно юзерам но которую не смогу я спарсить отдам ему 100$. Но такого нельзя будет сделать хоть ты в pdf хоть ты в чем отдавай. Если видно браузером пользователю то и сграбить всегда можно. Тут бан только по IP поможет и больше никак. Бань сетки ip. И зарубежные кроме USA, чтоб гугл незадеть.
|
|
|
|