Реклама на сайте Advertise with us

Проверка списка урлов на уникальность.

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 27.02.04
Сообщения: 926
Рейтинг: 47

Ссылка на сообщениеДобавлено: 29/12/05 в 03:15       Ответить с цитатойцитата 

Есть у кого-нибудь такой скриптик?
Только уникальность, в даннном случае сортировка по доменам, а не удаление повторяющихся линков.

0
 

www.phpdevs.com

С нами с 24.10.02
Сообщения: 16633
Рейтинг: 16105


Передовик Master-X (01.09.2005) Передовик Master-X (16.09.2005) Передовик Master-X (01.10.2005) Передовик Master-X (16.08.2006) Передовик Master-X (16.10.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 29/12/05 в 03:24       Ответить с цитатойцитата 

Так сортировка или проверка ?

Пишу на php/mysql/django за вменяемые деньги.
Обращаться в личку.

0
 



С нами с 27.02.04
Сообщения: 926
Рейтинг: 47

Ссылка на сообщениеДобавлено: 29/12/05 в 03:39       Ответить с цитатойцитата 



Проверка, то есть если у одного домена несколько страниц, то выводить любую из них, но только одну.

0
 



С нами с 27.02.04
Сообщения: 926
Рейтинг: 47

Ссылка на сообщениеДобавлено: 29/12/05 в 03:51       Ответить с цитатойцитата 

Немного изменилась задача icon_smile.gif...
Если есть два или более одинаковых домена, то нужно удалять все линки с этого домена.

цена - 7$50c icon_smile.gif

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 29/12/05 в 14:32       Ответить с цитатойцитата 

Если правильно понял, то вот:

В файле mass_urls.txt в каждой строке урл...
Код:

<?php
$urls = file("mass_urls.txt");
$urls_a = array();
$urls_src = $urls;
@array_walk($urls, sort_expl);
for($i=0;$i<count($urls);$i++){
   $urls_base = $urls;
   $urls_base[$i] = "";
   $ff = array_search($urls[$i], $urls_base);
   if(!$ff)print $urls_src[$i]."<BR>\n";
}
function sort_expl(&$urls_b, $urls_key){
    $urls_a = parse_url($urls_b);
    $urls_b = str_replace("www.","", $urls_a['host']);
}
?>

0
 



С нами с 27.02.04
Сообщения: 926
Рейтинг: 47

Ссылка на сообщениеДобавлено: 30/12/05 в 02:39       Ответить с цитатойцитата 

ibiz писал:
Если правильно понял, то вот:
В файле mass_urls.txt в каждой строке урл...
Код:

<?php
$urls = file("mass_urls.txt");
$urls_a = array();
$urls_src = $urls;
@array_walk($urls, sort_expl);
for($i=0;$i<count($urls);$i++){
   $urls_base = $urls;
   $urls_base[$i] = "";
   $ff = array_search($urls[$i], $urls_base);
   if(!$ff)print $urls_src[$i]."<BR>\n";
}
function sort_expl(&$urls_b, $urls_key){
    $urls_a = parse_url($urls_b);
    $urls_b = str_replace("www.","", $urls_a['host']);
}
?>


А где твой номер WMZ? icon_smile.gif

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 30/12/05 в 15:16       Ответить с цитатойцитата 

Jim Smit писал:
А где твой номер WMZ? :)


Все пожертвования кидайте сюда Z472589245455 =)))

0
 



С нами с 26.12.01
Сообщения: 98
Рейтинг: 149

Ссылка на сообщениеДобавлено: 07/01/06 в 05:02       Ответить с цитатойцитата 

у меня чтот вываливаецца на локале с ошибкой:
Fatal error: Maximum execution time of 30 seconds exceeded in z:\home\localhost\www\urls\url-clianer.php on line 8

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 07/01/06 в 08:00       Ответить с цитатойцитата 

PoPcOrE писал:
у меня чтот вываливаецца на локале с ошибкой:
Fatal error: Maximum execution time of 30 seconds exceeded in z:\home\localhost\www\urls\url-clianer.php on line 8


Возможно кол-во урлов огромное, а проц слабенький, скрипт неуспевает обработать...
Тока что проверил на 30 штуках, все пахает...

0
 



С нами с 19.11.03
Сообщения: 3973
Рейтинг: 2362

Ссылка на сообщениеДобавлено: 07/01/06 в 09:14       Ответить с цитатойцитата 

PoPcOrE писал:
у меня чтот вываливаецца на локале с ошибкой:
Fatal error: Maximum execution time of 30 seconds exceeded in z:\home\localhost\www\urls\url-clianer.php on line 8


в самом начале скрипта напиши :
set_time_limit(0);

п.с.
кстати если у тебя там больше 1к адресов , у тебя машина раньше зависнет icon_smile.gif , нужно будет скрипт немного модифировать.

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 07/01/06 в 17:07       Ответить с цитатойцитата 

PoPcOrE писал:
урлов - 50к
проц - АМД 64
памяти 1 Гиг


Ага, и файл весит под 2Мб?)
Ну я хз, может касперского отключи на винде, он притормаживает локальные тулзы...
Время выполнения скрипта увеличь set_time_limit(600); в ноль несоветую, а то ребутаца будешь.

P.S. По чьему-то совету я перестал заморачиваться быстродействием, но вижу, что зря... на досуге гляну, как можно оптимизировать скриптик...

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 17/01/06 в 20:56       Ответить с цитатойцитата 

что нужно дописать в этот чудо скрипт чтобы он проверял урл на уникальность , но на одном домене возможно несколько папок , т.е. к примеру такой список :

domain1.com/bla
domain2.com/blabla
domain3.com/blablabla
domain1.com/blabla
domain1.com/bla
domain3.com/blablabla


нужно чтобы скрипт отсюда убрал только domain3.com/blablabla и domain1.com/bla , думаю вы поняли про что я icon_smile.gif и еще чтобы была проверка на существование этого урла , если 404 то выкидывает его из базы. Кто напишет подарю фетов icon_smile.gif

fleshdomains.com - домены от 3$
Отличные Сольники

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 17/01/06 в 21:19       Ответить с цитатойцитата 

Referal писал:
... icon_smile.gif


Попробуй вот это:
Код:

<?php
$urls = file("mass_urls.txt");
$all = count($urls);
$urls_src = $urls;
$urls = @array_unique($urls);
for($i=0;$i<$all;$i++){
   if($urls[$i])print $urls_src[$i]."<BR>\n";
   
}
?>

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 17/01/06 в 21:24       Ответить с цитатойцитата 

ibiz писал:
Попробуй вот это:
Код:

<?php
$urls = file("mass_urls.txt");
$all = count($urls);
$urls_src = $urls;
$urls = @array_unique($urls);
for($i=0;$i<$all;$i++){
   if($urls[$i])print $urls_src[$i]."<BR>\n";
   
}
?>


а он с 50-60к урлов справится ?

fleshdomains.com - домены от 3$
Отличные Сольники

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 17/01/06 в 21:31       Ответить с цитатойцитата 

Referal писал:
а он с 50-60к урлов справится ?


ХЗ, попробуй, потом расскажешь)
Вообще с файлами больше 2Мб рнр неособо дружит...

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 17/01/06 в 21:34       Ответить с цитатойцитата 

эммм... лучше пускай в файл пишет результат работы, а то браузер повесишь себе еще чего...
Код:

<?php
$urls = file("mass_urls.txt");
$all = count($urls);
$urls_src = $urls;
$urls = @array_unique($urls);
$fp = fopen("res.txt", "w+");
for($i=0;$i<$all;$i++){
   if($urls[$i]){
       fwrite($fp, trim($urls_src[$i])."\n");
   }
   
}
fclose($fp);
?>

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 18/01/06 в 06:30       Ответить с цитатойцитата 

fleshdomains.com - домены от 3$
Отличные Сольники

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 18/01/06 в 06:38       Ответить с цитатойцитата 

на серваке тоже самое , ни один лишний урл не удалился и не показало что https://www.master-x.com/blablabla возвращает 404 ошибку

fleshdomains.com - домены от 3$
Отличные Сольники

0
 



С нами с 14.11.05
Сообщения: 56
Рейтинг: 177

Ссылка на сообщениеДобавлено: 18/01/06 в 14:17       Ответить с цитатойцитата 

А https://www.master-x.com/blablabla и не вернет 404. Он возвращает 302, потом 301 и наконец 200 icon_smile.gif

По поводу списка урлов, есть изящное решение на perl'е с проверкой на существование. 66956754

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 18/01/06 в 15:17       Ответить с цитатойцитата 

Referal писал:
на серваке тоже самое , ни один лишний урл не удалился и не показало что https://www.master-x.com/blablabla возвращает 404 ошибку


Проверки на 404 ошибку нет.
Удаляются полностью идентичные урлы, т.е. если в конце урла будет стоять пробел, то он уникальный.
Или объясни задачу более понятнее...

из такого списка
Код:

master-x.com/news/
master-x.com/articles/
master-x.com/forum/
master-x.com/directory/
master-x.com/votings/
master-x.com/profile/
https://www.master-x.com/blablabla
Нравится, да?
Проверка списка урлов на уникальность.
Два вопроса по сиджам
Нравится, да?



должно остаться
Код:

master-x.com/news/
master-x.com/articles/
master-x.com/forum/
master-x.com/directory/
master-x.com/votings/
master-x.com/profile/
https://www.master-x.com/blablabla
Нравится, да?
Проверка списка урлов на уникальность.
Два вопроса по сиджам


верно?

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 18/01/06 в 16:45       Ответить с цитатойцитата 

да , правильно

fleshdomains.com - домены от 3$
Отличные Сольники

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 18/01/06 в 17:40       Ответить с цитатойцитата 

Referal писал:
да , правильно


значит в списке урлов урлы уникальные, то есть, если в одном урле есть пробел на конце и в такомже два пробела на конце, они считаются уникальными.
проверку на 404, можно быстро реализовать за деньги, если готов платить)

0
 

www.fleshdomains.com

С нами с 08.08.05
Сообщения: 2228
Рейтинг: 1186

Ссылка на сообщениеДобавлено: 18/01/06 в 18:38       Ответить с цитатойцитата 

ibiz писал:
значит в списке урлов урлы уникальные, то есть, если в одном урле есть пробел на конце и в такомже два пробела на конце, они считаются уникальными.


пробелов на конце нету icon_smile.gif

Цитата:
проверку на 404, можно быстро реализовать за деньги, если готов платить)


вряд ли я кому либо доверю эту базу на проверку icon_smile.gif

fleshdomains.com - домены от 3$
Отличные Сольники

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 18/01/06 в 20:42       Ответить с цитатойцитата 

Referal писал:
пробелов на конце нету icon_smile.gif

Тока что проверил, все пахает как надо, т.е. дубликаты удаляютца... хз в чом может быть дело.

Referal писал:
вряд ли я кому либо доверю эту базу на проверку icon_smile.gif


я про скрипт за деньги, мне тут посоветовали теперь все за деньги писать icon_smile.gif
Будешь вечно пользоваться, закинул список урлов в файл, а на выходе получил работающие... icon_smile.gif

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »