Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 19/07/06 в 23:18 |
Потребовалось выдрать из хтмл строчку накидал скриптик как мог, в пхп ньюб
Код: |
<?
$page=file_get_contents('http://siteA.com');
if (preg_match_all("~<code>(.*?)</code>~si",$page,$ok)){
for($i=0;$i<count($ok[0]);$i++){
echo "<br> <textarea cols=70 rows=30>".htmlspecialchars($ok[0][$i])."</textarea><p>";
}
}else{
echo "нихуя нет";
}
?>
|
Трабла в том, что нужно парсить большое количество страниц, эдак под 1к.
Вопрос, как замутить file_get_contents, чтобы можно было вводить под 1k урлов.
С меня рейтинг по макс.
|
|
|
|
www.phpdevs.com
С нами с 24.10.02
Сообщения: 16633
Рейтинг: 16105
|
Добавлено: 19/07/06 в 23:23 |
|
|
Пишу на php/mysql/django за вменяемые деньги.
Обращаться в личку.
|
5
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 19/07/06 в 23:26 |
Только оттуда, ничего не нашёл, наверное плохо искал
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 19/07/06 в 23:29 |
кури flush, file, for
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 19/07/06 в 23:30 |
и ищо set_time_limit(0)
|
|
|
|
эксклюзивщик
С нами с 08.03.05
Сообщения: 1013
Рейтинг: 512
|
Добавлено: 19/07/06 в 23:43 |
а еще строку
for($i=0;$i<count($ok[0]);$i++)
корректнее заменить на
foreach($ok[0] as $k)
|
|
уникальные предложения по съемке контента гомосексуального харрактера
|
5
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 19/07/06 в 23:53 |
мда руки кривые, нихера не работает
Всем сенкс за посты
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 19/07/06 в 23:56 |
напиши в начале error_reporting (E_ALL);
и посмотри что пишет
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 00:05 |
Да ничего не пишет скрипт исполняетса в приведённом варианте, а вот как сделать завязку скажем чтобы брал урлы из файла и парсил незнаю немогу никак не ифну найти, а может уже и поподалась на глаза, но не могу сообразить. В общем я в пхп 0
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 20/07/06 в 00:07 |
$massive=file ('file.csv');
все урлы в файле должны с новой строчки начинаться!
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 00:12 |
Notice: Undefined variable: page in z:\home\localhost\www\pars.php on line 4
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 20/07/06 в 00:24 |
notice не страшен
бля, я так чуствую придется разжевывать...
Все-таки посмотри спецификацию file все понятно станет
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 00:33 |
pirate писал: |
бля, я так чуствую придется разжевывать...
|
Правильно чувствуешь
Посмотрел, разницы то вроде нет, что я так юзаю, что fail буду
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 20/07/06 в 01:00 |
короче
Код: |
set_time_limit(0);
$massive=file('file.csv');
$vsego=count($massive);
for ($i=0;$i<$vsego;$i++)
{
$page=file_get_contents(trim($massive[$i]));
...//tvoy kod
flush();
}
|
примерно так.
С тебя фотка голой анжелины жолы 1024*800
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 01:08 |
Большое спасибо
А Бреда Пита можно ?
Всё клёва обрабатывает первый запрос и ошибка
Notice: Undefined offset: 1 in z:\home\localhost\www\pars.php on line 11
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 20/07/06 в 01:30 |
nedes писал: | Большое спасибо
Всё клёва обрабатывает первый запрос и ошибка
Notice: Undefined offset: 1 in z:\home\localhost\www\pars.php on line 11 |
можешь убрать error_reporting или сделай error_reporting(0)ж
нотис это не ошибка а ... нотис, короче.
Цитата: | А Бреда Пита можно ? |
хачу анжилину!
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 01:44 |
pirate писал: | можешь убрать error_reporting или сделай error_reporting(0)ж
нотис это не ошибка а ... нотис, короче.
хачу анжилину! |
да убирал ужо всё равно неработает
|
|
|
|
ГДЕ, СУКА, САЙНЫ?
С нами с 17.03.06
Сообщения: 3994
Рейтинг: 3366
|
Добавлено: 20/07/06 в 01:53 |
Код: | set_time_limit(0);
$massive=file('file.csv');
$vsego=count($massive);
for ($j=0;$j<$vsego;$j++)
{
$page=file_get_contents(trim($massive[$j]));
...//tvoy kod
flush();
} |
а так?
|
|
|
|
Zed's dead, baby
С нами с 05.01.05
Сообщения: 788
Рейтинг: 328
|
Добавлено: 20/07/06 в 02:02 |
Работает
Щас разговаривал с её менеджером, она спит как проснётьса он сфоткает и замылит мне, выложув этом топике
|
|
|
|
SexBlogs.Name
С нами с 13.10.03
Сообщения: 3159
Рейтинг: 962
|
Добавлено: 20/07/06 в 07:56 |
nedes писал: | Щас разговаривал с её менеджером, она спит как проснётьса он сфоткает и замылит мне, выложув этом топике |
Оффтопик: врешь поди
|
|
Submit your blog to the sex blogs list. PR=3 Quickly approve! 10 posts min. Ping every 6 hour!
|
5
|
|
|
Самый добрый бегемот
С нами с 24.06.03
Сообщения: 954
Рейтинг: 574
|
Добавлено: 20/07/06 в 11:39 |
Я надеюсь вы так не гугл парсите?
Если да, то пожалейте хостера, вы же у него не одни
|
|
|
|
С нами с 19.02.03
Сообщения: 1284
Рейтинг: 354
|
Добавлено: 20/07/06 в 13:40 |
что верно то верно...
sleep в цикле поставь,
я когда парсил один сайтец он выдавал сообщение об ошибке если не делать интервалы между запросами потому как слишком быстро шли запросы к странице и хостингу это не нравилось, пришлось sleep ставить.
|
|
|
|
Самый добрый бегемот
С нами с 24.06.03
Сообщения: 954
Рейтинг: 574
|
Добавлено: 20/07/06 в 13:43 |
такие вещи лучше через прокси делать, а то можно и подсеть в бан загнать и абуз получить
|
|
|
|
С нами с 29.07.06
Сообщения: 2
Рейтинг: 10
|
Добавлено: 29/07/06 в 11:51 |
Приветствую!
Мне недавно попался в руки один парсер, я уже несколько дней немогу понять как он работает (причем работает только на юних серверах?).
Вот чать начального кода, с моими комментрариями:
set_time_limit(0); // - время выполнения скрипта, почему 0?
$realdate = date("Y-m-d"); // получение даты
$realtime = gmdate("H:i:s"); // получение времени
$urls = "http://...../"; // адрес сайта который парсят
if (sizeof($urls)>0) // если есть ссылка то выполнять далее ...
{
for ($z=0;$z<sizeof($urls);$z++) // цикл от 0 до размера ссылки ?
{
$url = $urls[$z]; // берем первый символ ссылки - "h" ?
$handle = @fopen ($url, "r"); // считывает по ссылке "h" данные ?
if (!$handle){echo"Unknown error , check this url $url"; exit();} // если неполучилось выход
while (!@feof ($handle))
{
$a++; // увеличивает ранее не известную переменную на 1
$buffer = fgets($handle, 4096); //получаем строку читая по байту до адреса 4096
if (strpos($buffer,"title>")) // проверка, включает ли полученное "title>"
.......
Так вот непонятно, как оно получает данные , если ссылкой является только буква "h", и т.д. (везде где отсутсвует понимание поставил "?")
Помогите, пожалуйста!!!
|
|
|
|
+ + +
С нами с 24.07.06
Сообщения: 108
Рейтинг: 53
|
Добавлено: 29/07/06 в 13:03 |
nedes писал: | Потребовалось выдрать из хтмл строчку накидал скриптик как мог, в пхп ньюб
Код: |
<?
$page=file_get_contents('http://siteA.com');
if (preg_match_all("~<code>(.*?)</code>~si",$page,$ok)){
for($i=0;$i<count($ok[0]);$i++){
echo "<br> <textarea cols=70 rows=30>".htmlspecialchars($ok[0][$i])."</textarea><p>";
}
}else{
echo "нихуя нет";
}
?>
|
Трабла в том, что нужно парсить большое количество страниц, эдак под 1к.
Вопрос, как замутить file_get_contents, чтобы можно было вводить под 1k урлов.
С меня рейтинг по макс. |
Код: |
<?
$sites = file("sites.txt"); // сюда урлы пихай, 1 строка - 1 урл
foreach ($sites as $site) {
$site=str_replace("\n", "", $site);
$site=str_replace("\r", "", $site);
$page=file_get_contents($site);
if (preg_match_all("~<code>(.*?)</code>~si",$page,$ok)){
for($i=0;$i<count($ok[0]);$i++){
echo "<br> <textarea cols=70 rows=30>".htmlspecialchars($ok[0][$i])."</textarea><p>"; echo "<br>";
}
}else{
echo "нихуя нет<br>";
}
}
?>
|
так попробуй!
Последний раз редактировалось: Кот (29/07/06 в 13:07), всего редактировалось 1 раз
|
|
|
|