Реклама на сайте Advertise with us

Проблемы больших сайтов с роботами

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 30/11/05 в 20:31       Ответить с цитатойцитата 

Недавно был топик на webmasterworld.com :

WebmasterWorld Now Requires Cookie Support

Цитата:
Summary:
WebmasterWorld is one of the largest sites on the web with easily crawlable flat or static html content. All of the robotic download programs (aka: site rippers) available on Tucows can download our entire 1m+ pages of the site. Those same bots can not download the majority of other content rich sites (such as forums or auction sites) on the web. This makes WebmasterWorld one of the most attractive targets on the web for site ripping. The problem has grown to critical proportions over the years.

Therefore, WebmasterWorld has taken the strong proactive action of requiring login cookies for all visitors.



В краце проблема такова: Слишком много развелось всяких разных ботов, которые приходят и "долбят" сайт до посинения. Если сайт большой, это превращается в катастрофу. Из-за этого большим контентнымсайтам приходится закрываться от неавторизованных запросов снаружи.

Мы с этим столкнулись на PornInspector.com , запросы с десятков адресов, какие-то хотлинки, и т.д. Всё вроде грамотно разруливается, но запросы прут иногда в ТАКИХ количествах, что серверу по любому становится не очень хорошо.

Хочется подискутировать на эту тему. Насколько серьёзной видится проблема и к чему всё идёт?

Последний раз редактировалось: kit (08/12/05 в 20:37), всего редактировалось 1 раз

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 
+ + +


С нами с 02.08.04
Сообщения: 39
Рейтинг: 49

Ссылка на сообщениеДобавлено: 30/11/05 в 22:03       Ответить с цитатойцитата 

Проблема реально серьезная... hqhost уже 2 раза меня предупреждал за перегруз системы из-за поисковых ботов которые пошли перебирать страницы сайта...
А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен?

5
 

Снимаю. Порчу.

С нами с 25.12.99
Сообщения: 1234
Рейтинг: 786

Ссылка на сообщениеДобавлено: 01/12/05 в 00:35       Ответить с цитатойцитата 

teller писал:
..А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен?

прописать ты там можешь что захочешь, хоть привет дяде Феде .. вопрос поможет ли..

Свободу Анжеле Дэвис!

5
 



С нами с 05.07.05
Сообщения: 439
Рейтинг: 331

Ссылка на сообщениеДобавлено: 01/12/05 в 00:38       Ответить с цитатойцитата 

Ну как альтернатива трафик шейпинг на ботов,
т.е. если поставить ограгичение на кол-во и на скорость трафика,
то, имхо, проблема будет решена.

5
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 01/12/05 в 00:56       Ответить с цитатойцитата 

А в чем проблема, если разруливаете? И как именно разруливаете?

5
 



С нами с 23.03.03
Сообщения: 390
Рейтинг: 254

Ссылка на сообщениеДобавлено: 01/12/05 в 17:34       Ответить с цитатойцитата 

пускай только нужных ботов, как вариант...
остальным или дизаллоу в роботах или 301 редирект на морду. пусть думают что у тебя одна страница

nferno Solutions: Выделенные серверы и VDS по самым низким ценам (от 20$)

5
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 01/12/05 в 19:21       Ответить с цитатойцитата 

teller писал:
А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен?

Такая опция есть у Yahoo. У других крупных ботов пока нету, но они-то как раз не создают проблемы. У них проблема плавной индексации более менее решена.

Gatos писал:
Ну как альтернатива трафик шейпинг на ботов,
т.е. если поставить ограгичение на кол-во и на скорость трафика,
то, имхо, проблема будет решена.

Это не решит проблему количества входящих запросов, а только увеличит количество процессов на сервере, что черевато неэффективным использование ресурсов.

И кроме этого, скорость отдачи сайта является видимо одним из параметров при ранжировании в результатах поиска.

samlowry писал:
А в чем проблема, если разруливаете? И как именно разруливаете?

Ну, редиректим кое-куда, иногда просто обрываем коннекцию. Это не решает проблемы нагрузки. Разве что весь сайт спрятать за авторизацией, что не является выходом.

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 01/12/05 в 21:59       Ответить с цитатойцитата 

Кит: а на что нагрузка-то? На апач? Так запрещайте на уровне фаявола по айпям.

5
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 02/12/05 в 01:03       Ответить с цитатойцитата 

вариантов много, но самый грамотный - делать так, чтоб сайты нормально держали огромный трафик который могут создавать кривые боты. Правда если я правильно понял скрытый смысл ВВ, они борются не с кол-вом ботов, а с тем что у них контент тырят ;)

если стандартные способы:
бан массового скачивания на уровне модулей апача.
бот трепинг, с последующим анализом и баном ИП.

и то и другое обходиться к примеру моими ботами.., но спасет от многих других которые реально могут завалить сервак.

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

10
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 02/12/05 в 20:37       Ответить с цитатойцитата 

Ребята, вы меня не очень видимо поняли.
Я говорю об явлении вообще, как об нарастающей проблеме. Пять лет назад, её вообще не было, сейчас крупные поисковики борятся за быструю индексацию. Помимо этого, щас каждый второй юзер сидит на толстом канале и может нагрузить почти любой сервер запросами.

Далее, берём ботов, сканирующих сайты на предмет уязвимостей. Вы все наверное в логах видели эти запросы.

Далее, умножаем это еще многократно и получаем то, что будет через пару лет.

Любому крупному сайту прийдётся банить тысячи адресов (движок сайта это дело не потянет без существенного замедления работы). Видимо оптимально это делать на роутере, но это тоже не каждый себе может позволить. И главное, это нужно будет делать периодически ,потому что адреса с которых происходит сканирование меняются.

Вопровство и установление авторства контента - отдельная тема. Я думаю, одна из задач Google Base именно такая, но я бы не хотел в этом топике углубляться в эту тему.

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 02/12/05 в 20:46       Ответить с цитатойцитата 

kit: проблемы роутер vs. движок нет: в софтовом фаяволе сервера банятся адреса, и усе, движок нагрузки не имеет. Проблема есть, я пока не изучал, есть ли открытые базы всяких плохих сервисов-сканеров, но - наверное есть они.

P. S. Изучать скоро буду - у меня уже почит дос на сервере.

3
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 02/12/05 в 21:09       Ответить с цитатойцитата 

samlowry писал:
у меня уже почти дос на сервере.

вот и я об этом.
Фаерволы решают ситуацию с десятками и сотнями адресов. Если каждый запрос сверять с таблицев в несколько тысяч записей, то как бы быстро это не происходило, на большом трафику любому серверу будет плохо.

Ответ на вопрос в принципе есть:
Нужно делать кластер из нескольких серверов, и применять специальное железо. Так что, всем большим сайтам теперь нужно делать именно так?

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 02/12/05 в 21:21       Ответить с цитатойцитата 

Кит: вообще есть более простые способы, можно просто распределять равномерно траффик по нескольким серверам, т. е. если не надо каких-то мега-наворотов - то этот способ можно попробовать.
Способы реализации описаны тут:
http://httpd.apache.org/docs/1.3/misc/rewriteguide.html - раздел Load Balancing

4
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 02/12/05 в 22:07       Ответить с цитатойцитата 

Это не для динамических проектов.
По крайней мере нужно базу на отдельный сервер выносить.

Я же говорю, технически это решаемо масштабированием проекта, но вопрос в том, к чему идёт ситуация. К тому, что это масштабирование нужно будет делать в обязательном порядке всем владельцам сайтов с сотней тысяч страниц?

Последний раз редактировалось: kit (02/12/05 в 22:17), всего редактировалось 1 раз

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 02/12/05 в 22:13       Ответить с цитатойцитата 

Спроси у владельцев гугла ^___^
Эта: а у тебя ж белые прожекты, ты пробовал промежуточный мини-вебсервер юзать, ентот, который в рамблере юзается? Он статику на себя берет, а что не разрешено ему - передает как прокси апачу.
Вообще - оптимизировать можно очень сильно все, есть большой запас прочности.

3
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 02/12/05 в 22:18       Ответить с цитатойцитата 

А где про рамблер почитать можно?
Дай ссылки на матералы.

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 02/12/05 в 22:26       Ответить с цитатойцитата 

http://sysoev.ru/nginx/ - т. е. вся байда, типа картинок, стилей, что там еще у тебя неподвижное (статическое) - все отдает nginx.
Кстати, конфиг Мускула у вас оптимизирован? Кеши увеличены?

4
 



С нами с 18.11.99
Сообщения: 14226

Ссылка на сообщениеДобавлено: 03/12/05 в 00:28       Ответить с цитатойцитата 

Всё оптимизировано, правда дисковая система не радует.
Кстати, что лучше ngnix или lighthttp ?
Недавно перевели отдачи статики на lighthttp, сразу стало легче.

Участник!
Покупаем CJ-tube и галлерный трафик + 100$ за регистрацию

0
 



С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513

Ссылка на сообщениеДобавлено: 03/12/05 в 00:45       Ответить с цитатойцитата 

Не знаю, я подробно не изучал их, но знаю только, что у nginx есть возможность быть посредником между апачем и клиентом, т. е. извращаться с выделением картинок на другие домены не надо.

5
 



С нами с 15.06.04
Сообщения: 30
Рейтинг: 38

Ссылка на сообщениеДобавлено: 03/12/05 в 04:03       Ответить с цитатойцитата 

Проблема очень серьезная.
Меня гугл валит примерно раз в сутки.
Яха полегче, но она просто тормозит icon_smile.gif
Китайский один поисковик выжирал по 40 гигов в сутки пока я его не забанил.

Раньше доры банили а теперь их доссят (с) Кто-то с умаксфорума

5
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 03/12/05 в 16:54       Ответить с цитатойцитата 

У меня тоже раньше боты сервера валили.., - переписал код, оптимизировал кое какие вещи и проблемы больше нет.

Для ключевых сайтов у меня чтото типа кластера. Т.е. в случае падения одного сервера траф идет на другой.
Для отдачи контента на крупных динамических сайтах написал собственный движок обработки запросов схожий по идеологии с зенд оптимайзером.

Наиболее еб---нутые боты у меня забанены по юзерагенту. Дешево и сердито.

Кит, тут ведь ситуация какая.., вначале тебе надо отличить бота от реального посетителя (уже не реально).., а потом еще плохой бот от хорошего. Как сократить кол-во плохих ботов - я тебе уже написал.
Полностью решить эту проблему не удастся, так как технологии развития ботов сейчас на порядок опережают технологии развития интернет серверов. Так что имхо единственный вариант улучшать серверную часть.

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

10
 



С нами с 05.07.05
Сообщения: 439
Рейтинг: 331

Ссылка на сообщениеДобавлено: 03/12/05 в 23:25       Ответить с цитатойцитата 

kit писал:
Всё оптимизировано, правда дисковая система не радует.
Кстати, что лучше ngnix или lighthttp ?
Недавно перевели отдачи статики на lighthttp, сразу стало легче.


для статики я бы, наверное, поставил nginx

5
 



С нами с 15.06.04
Сообщения: 30
Рейтинг: 38

Ссылка на сообщениеДобавлено: 04/12/05 в 02:16       Ответить с цитатойцитата 

bog писал:

Для ключевых сайтов у меня чтото типа кластера. Т.е. в случае падения одного сервера траф идет на другой.


а подробнее можешь рассказть? .
я просто как раз кластер буду собирать на неделе.

5
 

пенсионер

С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166

Ссылка на сообщениеДобавлено: 04/12/05 в 18:21       Ответить с цитатойцитата 

ну поподробней расказать несмогу ибо я делал только софт который синхронизирует данные по всем сервакам.
а вот настройки днс, неймсерверов и прочим шаманством занимался другой человек и я честно говоря до сих пор несовсем понимаю как это все функционирует.

Здесь ищу и даю работу^так делаю деньги
тут читаю инфу^веду блог, а вы?

5
 



С нами с 05.07.05
Сообщения: 439
Рейтинг: 331

Ссылка на сообщениеДобавлено: 04/12/05 в 19:04       Ответить с цитатойцитата 

Вот это вроде как то что вам надо,
дёшево и сердито

http://siag.nu/pen/

5
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »