С нами с 02.04.09
Сообщения: 72
Рейтинг: 11
|
Добавлено: 07/01/10 в 11:47 |
Простой.
ICQ: 597299116
|
|
|
|
С нами с 26.09.07
Сообщения: 4
Рейтинг: 3
|
Добавлено: 07/01/10 в 13:01 |
Парсинг результатов поиска?
Есть расширение под firefox для выдачи позиции сайта в поисковике. Интересует?
|
|
|
|
С нами с 02.04.09
Сообщения: 72
Рейтинг: 11
|
Добавлено: 07/01/10 в 13:38 |
Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от 0 до 10"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот.
|
|
|
|
>100 сайтов вебкам. ссылки.
С нами с 31.03.08
Сообщения: 2372
Рейтинг: 3463
|
Добавлено: 07/01/10 в 14:41 |
another hornet, сразу могу тебе сказать, что такой парсер будет работать медленно. если проверять пр разных страниц, не делая между проверками определенные паузы, гугл в течение нескольких минут забанит твой IP на 2-3 часа.
имей это в виду, когда будешь составлять ТЗ для прогера.
|
|
|
|
С нами с 02.04.09
Сообщения: 72
Рейтинг: 11
|
Добавлено: 07/01/10 в 15:00 |
Спасибо, я учту.
|
|
|
|
С нами с 01.09.09
Сообщения: 132
Рейтинг: 100
|
Добавлено: 07/01/10 в 15:10 |
sergio21 писал: | гугл в течение нескольких минут забанит твой IP на 2-3 часа. |
В подписи можно выделенные ip купить за недорого
|
|
|
|
С нами с 03.12.09
Сообщения: 18
Рейтинг: 8
|
Добавлено: 07/01/10 в 17:27 |
попробую угадать ТЗ
используются стандартные компоненты C++/C#/Builder/Dephi/etc
грабинг гугля, парсинг -> результаты -> проверка с базой (нет ли недавно проверяшегося) -> обращение к датацентру гугла через колдунство с формулой ch - > сохранение результата в базу -> сверка -> вывод на экран/файл с определенной маской
и все это многопоточно или
а) на списке проксей загружаемых из какого либо источника в сети/локального файла (настраиваемо)
б) через грабинг и отбор рабочих с ряда сайтов (настраиваемо)
с отображением хода процесса и кол-вом рабочих проксей.
база текстовая
на выходе
исходники включая дистрибутивы компонентов + standalone билд без зависимостей от компонентов/библиотек
|
|
|
|
С нами с 26.10.02
Сообщения: 151
Рейтинг: 148
|
Добавлено: 09/01/10 в 19:38 |
another hornet писал: | Скрипт следующий. Я забиваю в парсер запрос, парсер проходит по первой тысяче результатов выдачи и собирает страницы с нужным мне PR. В скрипте должна быть строчка типа: "Собрать страницы с PR от 0 до 10"
0 и 10 это выпадающие ячейки, как рейтинг на мастере, где я мог бы выбрать нужный мне диапазон ПР. Допустим 0-2 или 3-5. Потом нужные мне страницы парсер должен сохранять в блокнот. |
ну тысячу результатов гугль фиг кому покажет, но если начать вариации разные и т.д. - то можно приблизиться - только кучу проксей нужно будет для многопоточного парсера, или дофига времени - чтобы гугль не банил ипшки. То же самое и с проверкой на ПР.
если эти нюансы понятны - то можешь в ПМ отписать поговорим о ТЗ и о цене.
|
|
|
|
С нами с 02.04.09
Сообщения: 72
Рейтинг: 11
|
Добавлено: 09/01/10 в 19:54 |
Спасибо, мне уже написали.
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |