Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 06/10/15 в 11:21 |
Вчера потребовалось спарсить название одной категории товаров. Исключительно название товаров. Яндекс маркет разрешает папсить только 9-10 страниц, затем (302) снова примерно через 30 минут можно начать парсить, но вот если перезапускаю роутер (IP при этом остается), можно снова спарсить.
Возник вопрос, что именно может удаляться и тем самым позволяет снова парсить?
Код: [развернуть] |
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $linkToContent);
curl_setopt($ch, CURLOPT_REFERER, $urlReferer);
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
//curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:'));
curl_setopt($ch, CURLOPT_COOKIE, 'тут прописаны данные из кукисов браузера');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIEJAR, 'COOKIE.txt');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt');
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST,0);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER,0);
|
И еще один вопросик
Код: | curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt'); |
как можно получить содержимое 'COOKIE.txt' ?
|
|
|
|
С нами с 20.09.15
Сообщения: 79
Рейтинг: 48
|
Добавлено: 06/10/15 в 12:43 |
unlink? перезапуск php скрипта?
|
|
|
|
С нами с 06.07.15
Сообщения: 110
Рейтинг: 171
|
Добавлено: 06/10/15 в 14:15 |
А куда редиректит 302 ? что в Location ?
сколько парсил, капчами замучил но точно не банил.
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 06/10/15 в 17:55 |
gcc писал: | А куда редиректит 302 ? что в Location ?
сколько парсил, капчами замучил но точно не банил. |
Спасибо за наводку
Я тупанул, и не глянул в Location, а там вот это:
Получается он просит у ввести капчу.
|
|
|
|
С нами с 11.10.12
Сообщения: 428
Рейтинг: 1032
|
Добавлено: 07/10/15 в 01:12 |
Lexikon писал: |
И еще один вопросик
Код: | curl_setopt($ch, CURLOPT_COOKIEFILE, 'COOKIE.txt'); |
как можно получить содержимое 'COOKIE.txt' ? |
COOKIE.txt по настройкам (CURLOPT_COOKIEJAR,CURLOPT_COOKIEFILE) лежит в рабочем каталоге скрипта.
CURLOPT_COOKIEFILE = откуда читать куки
CURLOPT_COOKIEJAR = куда писать куки
|
|
apache, bash, css, elasticsearch, ffmpeg, html, js, mysql, mongo, nginx, php; *nix only
|
0
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |