Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 22/06/10 в 13:07 |
кто что юзает толковое, подскажите плз
|
|
|
|
Чингачгук, вождь красноглазых
С нами с 14.05.04
Сообщения: 4744
Рейтинг: 1824
|
Добавлено: 22/06/10 в 13:34 |
Кто ж пишет спайдеры на PHP? Это как сайты делать на голом C++, только наоборот ))
Удачи в поисках, конечно, но что я видел хорошее - оно либо на C, либо на Java. PHP там уже упирается в свои ограничения очень быстро.
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 22/06/10 в 14:10 |
потерто
Последний раз редактировалось: FXIX (22/06/10 в 15:44), всего редактировалось 1 раз
|
|
|
|
С нами с 19.05.08
Сообщения: 1894
Рейтинг: 3625
|
Добавлено: 22/06/10 в 14:15 |
А можете вообще подсказать что спайдер делает? Это просто утилитка ползающая и что-то сканящая? если да то конечно на PHP не стоит такое писать, хотя если только для тренировки. Я бы смотрел в сторону Java
|
|
(!)Внимание Ero Advertising дополнительный Еврики от продажи рекламы. Особенно попандеров и мобилок.
|
0
|
|
|
С нами с 01.03.07
Сообщения: 304
Рейтинг: 223
|
Добавлено: 22/06/10 в 14:16 |
чет мне кажется что такого нету на php или у кого есть тот врятли даст , такой функционал скорее всего во всяких оффлайн explorer и прочих подобных прогах. На php такое только под заказ
|
|
|
|
Чингачгук, вождь красноглазых
С нами с 14.05.04
Сообщения: 4744
Рейтинг: 1824
|
Добавлено: 22/06/10 в 14:26 |
FXIX писал: | На дедике CLI ни во что ни упирается вроде. |
Конечно, ни во что - кроме объема доступной памяти и производительности CPU ))
Спайдер - тяжелая по определению задача, много потоков, рекурсивный разбор. Почему, скажем, игры на PHP не пишут?
Почитай статью
http://en.wikipedia.org/wiki/Web_crawler
Там и список софта есть. На PHP не найдешь. Человек, который способен спайдер написать хороший, PHP себя ограничивать не станет, а это было бы единственным аргументом - "больше я ничего не знаю".
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 22/06/10 в 15:18 |
потерто
Последний раз редактировалось: FXIX (22/06/10 в 15:44), всего редактировалось 1 раз
|
|
|
|
www.phpdevs.com
С нами с 24.10.02
Сообщения: 16633
Рейтинг: 16105
|
Добавлено: 22/06/10 в 15:31 |
А в чем вообще проблема использовать wget и далее с пхп парсить уже полученный результат.
|
|
Пишу на php/mysql/django за вменяемые деньги.
Обращаться в личку.
|
4
|
|
|
С нами с 19.05.08
Сообщения: 1894
Рейтинг: 3625
|
Добавлено: 22/06/10 в 15:34 |
Как небольшое решение мот подойдёт: попробуй на сайты постучать по такому адресу:
http://site.com/sitemap.xml Я думаю что в достаточно большом проценте случаев тебя ждёт удача ;-)
|
|
(!)Внимание Ero Advertising дополнительный Еврики от продажи рекламы. Особенно попандеров и мобилок.
|
4
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 22/06/10 в 15:44 |
xp-ViT: угу, предварительно чекнуть на наличие сайтмапа. если нет то вгет пускать. настроить только ума бы хватило .
всем спасибо пацаны . репу въебал по полной
|
|
|
|
Чингачгук, вождь красноглазых
С нами с 14.05.04
Сообщения: 4744
Рейтинг: 1824
|
Добавлено: 22/06/10 в 15:44 |
Да возьми нормального спайдера - тот же htdig, прочти документацию, поищи по гуглу "htdig php", сразу кучу всего найдешь, как их совместно использовать. Зачем велосипед изобретать? Зачем тебе обязательно, чтобы сам енджин был на PHP? То, что сам PHP на C написан - тебя же не смущает, надеюсь?
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 22/06/10 в 15:55 |
пасиб. посмотрю
|
|
|
|