Бородатый художник
С нами с 13.09.04
Сообщения: 5761
Рейтинг: 4818
|
Добавлено: 17/06/08 в 19:46 |
Есть большая пачка урлов, вот из них нужно вытащить то, что написано в тэге тайтл и записать в файл (не важно какой - текстовый или эксель, например).
Есть ли какая-то софтина для этого?
Я в скриптах полный ноль, может это можно как-то просто реализовать.
Полазил в гугле - ничего не смог найти, похоже задаю не правильный поиск.
Подскажите, пожалуйста. ;)
Последний раз редактировалось: tasteart (17/06/08 в 20:03), всего редактировалось 2 раз(а)
|
|
|
|
127.0.0.1
С нами с 26.04.06
Сообщения: 1092
Рейтинг: 557
|
Добавлено: 17/06/08 в 19:57 |
простой вариант, примерно так:
Код: |
<php
$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt"))); # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов
foreach ($urls as $n=>$url) {
if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
continue;
}
fputs($f,$u[1]);
unset($urls[$n]);
}
if (count($urls)>0) {
echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}
echo "сделано!\n";
fclose($f)
?>
|
|
|
|
|
С нами с 21.07.06
Сообщения: 494
Рейтинг: 253
|
Добавлено: 18/06/08 в 07:52 |
У меня в свое время мозгов не хватило на мастере у localhosta спросить
делал так:
скачивал нужные урлы на комп с помощью offline explorer, потом прогой отсюда http://www.soft.web-portfolio.ru строится карта из страниц, можно настроить так, чтоб только титлы клались в txt
можно вместо OE пользовать доунлоадмастер - скармливаешь ему пачку урлов - он тебе html закачает на комп в папку.
|
|
|
|
С нами с 18.08.04
Сообщения: 6376
Рейтинг: 4430
|
Добавлено: 18/06/08 в 08:04 |
localhost хорошее и понятное решение, а если символов большче чем 120 то тогда уже не сграбит пусть уж будет лучше любым )
|
|
|
|
С нами с 24.03.04
Сообщения: 10716
Рейтинг: 3949
|
Добавлено: 18/06/08 в 08:32 |
Pastukhov Keyword Harvester Professional v20 попробуй. грабит различные теги, можно указать чтоб грабил тока тайтлы
|
|
|
|
Бородатый художник
С нами с 13.09.04
Сообщения: 5761
Рейтинг: 4818
|
Добавлено: 08/07/08 в 08:08 |
localhost: спасибо большое.
Немного дополнил твой вариант - теперь тайтлы выводятся построчно.
Код: | <?php
$urls=explode("\n",str_replace("\r",'',file_get_contents("urls.txt"))); # файл с урлами
$f=fopen("result.txt","w"); # сюды класть список тайтлов
foreach ($urls as $n=>$url) {
if (!preg_match("/<title>(.{0,120})<\/title>/iUs",file_get_contents($url),$u)) {
continue;
}
fputs($f,$u[1]."\r\n");
unset($urls[$n]);
}
if (count($urls)>0) {
echo "не удалось обработать урлы:\n".join("\n",$urls)."\n";
}
echo "сделано!\n";
fclose($f)
?> |
|
|
|
|
С нами с 11.06.03
Сообщения: 1266
Рейтинг: 950
|
Добавлено: 08/07/08 в 21:29 |
Особенно хорошо грабятся тайтлы внутри комментов
<!-- <title>Fake title</title> -->
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |