С нами с 21.06.05
Сообщения: 1788
Рейтинг: 1579
|
Добавлено: 11/08/06 в 13:58 |
Наверняка есть у кого-нибудь парсер. Интересует не он сам, а регулярка, чтобы выдирать ссылку и название.
Были найдены варианты вроде
|<p class=g><a class=l href="([^"]+)"[^>]*>([^<]*)<\/a>.*|i
|<p class=g><a class=l href="(.*?)".*?">(.*?)</a>.*|i
Оба варианта работают неправильно.
Большое человеческое спасибо, если поможете с этой ёплей.
|
|
|
|
С нами с 19.11.03
Сообщения: 3973
Рейтинг: 2362
|
Добавлено: 11/08/06 в 14:38 |
Код: |
/<p\s+class=g>\S*<a\s[^>]*?href=(["\']?)(http:\/\/[^"\'>\s]+)\1[^>]*>(.*)<\/a>/i
|
|
|
|
|
С нами с 21.06.05
Сообщения: 1788
Рейтинг: 1579
|
Добавлено: 11/08/06 в 15:49 |
$m[1] - пусто
$m[2] - ссылки, всё ок
$m[3] - периодически проскакивает кусок последующего кода, если показана ссылка на страницу на том же сайте
Код: |
[3] => Array
(
[0] => Inside <b>AdSense</b>
[1] => Inside <b>AdSense</b></a><table cellpadding=0 cellspacing=0 border=0><tr><td class=j><font size=-1>The official weblog of Google's advertising scheme for website publishers.<br><font color=#008000><b>adsense</b>.blogspot.com/ - 41k - </font><nobr><a class=fl href="http://72.14.209.104/search?q=cache:SapPiY4dRLkJ:adsense.blogspot.com/+adsense&hl=uk&gl=us&ct=clnk&cd=3">Збережено на сервері</a> - <a class=fl href="/search?hl=uk&lr=&q=related:adsense.blogspot.com/">Подібні сторінки</a></nobr><br>[ <a class=fl href="/search?hl=uk&lr=&q=+site:adsense.blogspot.com+adsense">Подальші результати з adsense.blogspot.com</a> ]</font></td></tr></table></blockquote> <p class=g><a class=l href="http://www.google.com/ads/" onmousedown="return clk(this.href,'','','res','4','')">Google Advertising
[2] => Google <b>AdSense</b> - Overview
|
|
|
|
|
С нами с 30.03.06
Сообщения: 5
Рейтинг: 1
|
Добавлено: 14/08/06 в 10:37 |
С регулярками вечно морока. Если разбираешься могу дать такойже парсер, только для яндекса. Выдирает линки по заданым кевордам.
|
|
|
|
С нами с 21.06.05
Сообщения: 1788
Рейтинг: 1579
|
Добавлено: 14/08/06 в 14:36 |
Cпасибо, проблема уже решена.
|
|
|
|
С нами с 25.12.03
Сообщения: 1003
Рейтинг: 462
|
Добавлено: 14/08/06 в 16:29 |
парсер гугля и всех других поисковиков пишется в две строчки, это ж как два пальца об асфальт
просто
1) выдираете все ссылки со страницы.
2) исключаете из этих ссылок все служебные ссылки поисковика
всё!
для гугля 2) это адсенс ссылки и несколько ссылок с google. доменом
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |