С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 20:31 |
Недавно был топик на webmasterworld.com :
WebmasterWorld Now Requires Cookie Support
Цитата: | Summary:
WebmasterWorld is one of the largest sites on the web with easily crawlable flat or static html content. All of the robotic download programs (aka: site rippers) available on Tucows can download our entire 1m+ pages of the site. Those same bots can not download the majority of other content rich sites (such as forums or auction sites) on the web. This makes WebmasterWorld one of the most attractive targets on the web for site ripping. The problem has grown to critical proportions over the years.
Therefore, WebmasterWorld has taken the strong proactive action of requiring login cookies for all visitors. |
В краце проблема такова: Слишком много развелось всяких разных ботов, которые приходят и "долбят" сайт до посинения. Если сайт большой, это превращается в катастрофу. Из-за этого большим контентнымсайтам приходится закрываться от неавторизованных запросов снаружи.
Мы с этим столкнулись на PornInspector.com , запросы с десятков адресов, какие-то хотлинки, и т.д. Всё вроде грамотно разруливается, но запросы прут иногда в ТАКИХ количествах, что серверу по любому становится не очень хорошо.
Хочется подискутировать на эту тему. Насколько серьёзной видится проблема и к чему всё идёт?
Последний раз редактировалось: kit (08/12/05 в 20:37), всего редактировалось 1 раз
|
|
|
|
+ + +
С нами с 02.08.04
Сообщения: 39
Рейтинг: 49
|
Добавлено: 30/11/05 в 22:03 |
Проблема реально серьезная... hqhost уже 2 раза меня предупреждал за перегруз системы из-за поисковых ботов которые пошли перебирать страницы сайта...
А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен?
|
|
|
|
Снимаю. Порчу.
С нами с 25.12.99
Сообщения: 1234
Рейтинг: 786
|
Добавлено: 01/12/05 в 00:35 |
teller писал: | ..А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен? |
прописать ты там можешь что захочешь, хоть привет дяде Феде .. вопрос поможет ли..
|
|
|
|
С нами с 05.07.05
Сообщения: 439
Рейтинг: 331
|
Добавлено: 01/12/05 в 00:38 |
Ну как альтернатива трафик шейпинг на ботов,
т.е. если поставить ограгичение на кол-во и на скорость трафика,
то, имхо, проблема будет решена.
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 01/12/05 в 00:56 |
А в чем проблема, если разруливаете? И как именно разруливаете?
|
|
|
|
С нами с 23.03.03
Сообщения: 390
Рейтинг: 254
|
Добавлено: 01/12/05 в 17:34 |
пускай только нужных ботов, как вариант...
остальным или дизаллоу в роботах или 301 редирект на морду. пусть думают что у тебя одна страница
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 01/12/05 в 19:21 |
teller писал: | А никто не видел в robots.txt нет возможности прописать количество страниц индексируемых поисковым ботом за один заход на домен? |
Такая опция есть у Yahoo. У других крупных ботов пока нету, но они-то как раз не создают проблемы. У них проблема плавной индексации более менее решена.
Gatos писал: | Ну как альтернатива трафик шейпинг на ботов,
т.е. если поставить ограгичение на кол-во и на скорость трафика,
то, имхо, проблема будет решена. |
Это не решит проблему количества входящих запросов, а только увеличит количество процессов на сервере, что черевато неэффективным использование ресурсов.
И кроме этого, скорость отдачи сайта является видимо одним из параметров при ранжировании в результатах поиска.
samlowry писал: | А в чем проблема, если разруливаете? И как именно разруливаете? |
Ну, редиректим кое-куда, иногда просто обрываем коннекцию. Это не решает проблемы нагрузки. Разве что весь сайт спрятать за авторизацией, что не является выходом.
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 01/12/05 в 21:59 |
Кит: а на что нагрузка-то? На апач? Так запрещайте на уровне фаявола по айпям.
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 02/12/05 в 01:03 |
вариантов много, но самый грамотный - делать так, чтоб сайты нормально держали огромный трафик который могут создавать кривые боты. Правда если я правильно понял скрытый смысл ВВ, они борются не с кол-вом ботов, а с тем что у них контент тырят ;)
если стандартные способы:
бан массового скачивания на уровне модулей апача.
бот трепинг, с последующим анализом и баном ИП.
и то и другое обходиться к примеру моими ботами.., но спасет от многих других которые реально могут завалить сервак.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/12/05 в 20:37 |
Ребята, вы меня не очень видимо поняли.
Я говорю об явлении вообще, как об нарастающей проблеме. Пять лет назад, её вообще не было, сейчас крупные поисковики борятся за быструю индексацию. Помимо этого, щас каждый второй юзер сидит на толстом канале и может нагрузить почти любой сервер запросами.
Далее, берём ботов, сканирующих сайты на предмет уязвимостей. Вы все наверное в логах видели эти запросы.
Далее, умножаем это еще многократно и получаем то, что будет через пару лет.
Любому крупному сайту прийдётся банить тысячи адресов (движок сайта это дело не потянет без существенного замедления работы). Видимо оптимально это делать на роутере, но это тоже не каждый себе может позволить. И главное, это нужно будет делать периодически ,потому что адреса с которых происходит сканирование меняются.
Вопровство и установление авторства контента - отдельная тема. Я думаю, одна из задач Google Base именно такая, но я бы не хотел в этом топике углубляться в эту тему.
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 02/12/05 в 20:46 |
kit: проблемы роутер vs. движок нет: в софтовом фаяволе сервера банятся адреса, и усе, движок нагрузки не имеет. Проблема есть, я пока не изучал, есть ли открытые базы всяких плохих сервисов-сканеров, но - наверное есть они.
P. S. Изучать скоро буду - у меня уже почит дос на сервере.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/12/05 в 21:09 |
samlowry писал: | у меня уже почти дос на сервере. |
вот и я об этом.
Фаерволы решают ситуацию с десятками и сотнями адресов. Если каждый запрос сверять с таблицев в несколько тысяч записей, то как бы быстро это не происходило, на большом трафику любому серверу будет плохо.
Ответ на вопрос в принципе есть:
Нужно делать кластер из нескольких серверов, и применять специальное железо. Так что, всем большим сайтам теперь нужно делать именно так?
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 02/12/05 в 21:21 |
Кит: вообще есть более простые способы, можно просто распределять равномерно траффик по нескольким серверам, т. е. если не надо каких-то мега-наворотов - то этот способ можно попробовать.
Способы реализации описаны тут:
http://httpd.apache.org/docs/1.3/misc/rewriteguide.html - раздел Load Balancing
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/12/05 в 22:07 |
Это не для динамических проектов.
По крайней мере нужно базу на отдельный сервер выносить.
Я же говорю, технически это решаемо масштабированием проекта, но вопрос в том, к чему идёт ситуация. К тому, что это масштабирование нужно будет делать в обязательном порядке всем владельцам сайтов с сотней тысяч страниц?
Последний раз редактировалось: kit (02/12/05 в 22:17), всего редактировалось 1 раз
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 02/12/05 в 22:13 |
Спроси у владельцев гугла ^___^
Эта: а у тебя ж белые прожекты, ты пробовал промежуточный мини-вебсервер юзать, ентот, который в рамблере юзается? Он статику на себя берет, а что не разрешено ему - передает как прокси апачу.
Вообще - оптимизировать можно очень сильно все, есть большой запас прочности.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/12/05 в 22:18 |
А где про рамблер почитать можно?
Дай ссылки на матералы.
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 02/12/05 в 22:26 |
http://sysoev.ru/nginx/ - т. е. вся байда, типа картинок, стилей, что там еще у тебя неподвижное (статическое) - все отдает nginx.
Кстати, конфиг Мускула у вас оптимизирован? Кеши увеличены?
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 03/12/05 в 00:28 |
Всё оптимизировано, правда дисковая система не радует.
Кстати, что лучше ngnix или lighthttp ?
Недавно перевели отдачи статики на lighthttp, сразу стало легче.
|
|
|
|
С нами с 10.09.03
Сообщения: 1313
Рейтинг: 513
|
Добавлено: 03/12/05 в 00:45 |
Не знаю, я подробно не изучал их, но знаю только, что у nginx есть возможность быть посредником между апачем и клиентом, т. е. извращаться с выделением картинок на другие домены не надо.
|
|
|
|
С нами с 15.06.04
Сообщения: 30
Рейтинг: 38
|
Добавлено: 03/12/05 в 04:03 |
Проблема очень серьезная.
Меня гугл валит примерно раз в сутки.
Яха полегче, но она просто тормозит
Китайский один поисковик выжирал по 40 гигов в сутки пока я его не забанил.
Раньше доры банили а теперь их доссят (с) Кто-то с умаксфорума
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 03/12/05 в 16:54 |
У меня тоже раньше боты сервера валили.., - переписал код, оптимизировал кое какие вещи и проблемы больше нет.
Для ключевых сайтов у меня чтото типа кластера. Т.е. в случае падения одного сервера траф идет на другой.
Для отдачи контента на крупных динамических сайтах написал собственный движок обработки запросов схожий по идеологии с зенд оптимайзером.
Наиболее еб---нутые боты у меня забанены по юзерагенту. Дешево и сердито.
Кит, тут ведь ситуация какая.., вначале тебе надо отличить бота от реального посетителя (уже не реально).., а потом еще плохой бот от хорошего. Как сократить кол-во плохих ботов - я тебе уже написал.
Полностью решить эту проблему не удастся, так как технологии развития ботов сейчас на порядок опережают технологии развития интернет серверов. Так что имхо единственный вариант улучшать серверную часть.
|
|
|
|
С нами с 05.07.05
Сообщения: 439
Рейтинг: 331
|
Добавлено: 03/12/05 в 23:25 |
kit писал: | Всё оптимизировано, правда дисковая система не радует.
Кстати, что лучше ngnix или lighthttp ?
Недавно перевели отдачи статики на lighthttp, сразу стало легче. |
для статики я бы, наверное, поставил nginx
|
|
|
|
С нами с 15.06.04
Сообщения: 30
Рейтинг: 38
|
Добавлено: 04/12/05 в 02:16 |
bog писал: |
Для ключевых сайтов у меня чтото типа кластера. Т.е. в случае падения одного сервера траф идет на другой.
|
а подробнее можешь рассказть? .
я просто как раз кластер буду собирать на неделе.
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 04/12/05 в 18:21 |
ну поподробней расказать несмогу ибо я делал только софт который синхронизирует данные по всем сервакам.
а вот настройки днс, неймсерверов и прочим шаманством занимался другой человек и я честно говоря до сих пор несовсем понимаю как это все функционирует.
|
|
|
|
С нами с 05.07.05
Сообщения: 439
Рейтинг: 331
|
Добавлено: 04/12/05 в 19:04 |
|
|
|
|