С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 12/11/13 в 12:02 |
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе
Теперь в настройках Антигейта( Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.
Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
В дополнении к этому в парсере SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
Исправления:
- Исправлен парсинг сниппетов в парсере SE::Google
Подробнее тут: Изменения в версии 1.0.183
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 29/11/13 в 11:44 |
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 10/12/13 в 08:46 |
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 26/12/13 в 08:44 |
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!
Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!
Интерфейс претерпел множество изменений:
- Переработано отображение задания в очереди, теперь оно более наглядное и информативное
- Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
- Появилась возможность перемещать задание непосредственно в начало или в конец очереди
- Обновлен перевод всех элементов на русский язык
- В задании отображается прогресс в виде процента выполненных запросов
- Иконка теперь корректно отображается во всех браузерах
- Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
- Исправлена ошибка в импорте пресетов
Добавлены новые парсеры, общее число парсеров перевалило за 50:
- Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
- SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
- SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
- SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
- SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
- Rank::Alexa::API - быстрый чекер алексы через API
Улучшения:
- В парсер Яндекса SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
- Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
- В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
- Добавлена возможность сохранять неудачные запросы
- В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
- Файл с запросами теперь можно выбирать из подпапок
- В парсер частотности ключевых слов SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
- В парсер Вордстата SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
Исправления:
- Rank::MajesticSEO в связи с изменением в выдаче
- Rank::Ahrefs в связи с изменением в выдаче
- SE::AOL в связи с изменением в выдаче
- Net::Whois - некорректно определял незанятые домены в некоторых зонах
- Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
Подробнее: Изменения в версии 1.0.214
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 11/01/14 в 11:34 |
A-Parser - версия 1.0.218
Улучшения
- Парсер Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
- Для парсера SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
Исправления
- Парсер картинок SE::Google::Images в связи с изменением в выдаче
- Парсер SE::AOL в связи с изменением в выдаче
- При использовании API после некоторого числа запросов оно переставало отвечать
- Парсер SE::Baidu в связи с изменением в выдаче
- Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
- Опция Try in Parser Test работала некорректно
- Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии
Подробнее: Изменения в версии 1.0.218
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 01/02/14 в 11:36 |
A-Parser - версия 1.0.223
Новые парсеры:
- SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
- Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
Исправления:
- Парсер SE::AOL в связи с изменением в выдачи
- Парсинг связанных кейвордов(related) в парсере SE::Bing в связи с изменением в выдачи
- В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)
Подробнее: Изменения в версии 1.0.223
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 24/02/14 в 11:59 |
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое
Поздравляем всех защитников отечества с их профессиональным праздником!
В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
- Поддержка переменных, условий, циклов, макросов
- Множество встроенных функций для строк, массивов и хешей
- Неограниченные возможности по расширению
- Подробная документация на русском и английском языках
На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
- Развернутый пост о преимуществах с примерами на следующей неделе
- Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
- Выпуск версии с поддержкой нового шаблонизатора по умолчанию
- Помощь со стороны технической поддержки в адаптации старых проектов
Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
- Шаблонах форматирования результатов(Result format)
- Шаблоне имени файла(Result file name)
- Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
- Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
Другие улучшения:
- Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
- Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
- Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
Исправления:
- Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
- Исправлен парсер SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
- Парсер Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
Подробнее тут: Версия 1.0.232
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 01/03/14 в 07:57 |
Новый шаблонизатор в A-Parser
Зачем?
- Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
- Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
- Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
- Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
Массив? Переменная? Мне нужно программировать?
- Однозначно нет A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
- Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
- Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
Читать далее
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 07/03/14 в 08:38 |
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 31/03/14 в 09:49 |
A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений
Основные улучшения:
- Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
- Полный переход на новый шаблонизатор, старый синтаксис более недоступен
- Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
- Создан инструмент для тестирования шаблонов, в нем можно проверить форматирование до парсинга
- В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
- Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
- Теперь шаблон можно задавать в удобном многострочном редакторе
- Увеличена скорость работы конструктора запросов и результатов
- В парсере SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
Исправления в связи с изменениями в выдачи:
- Исправлена опция эмуляции браузера для парсера SE::Yandex
- Исправлен парсинг выдачи SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
- Исправлен парсер тИЦ SE::Yandex::TIC
- Исправлен парсер Rank::Ahrefs - выдавал неверные данные
- Исправлен парсинг общего числа результатов в SE::Baidu
- Исправлен парсер Rank:: DMOZ
- Исправлен парсер картинок SE::Google::Images
- Исправлен парсинг описаний к видео в SE::YouTube
Информация
- Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
- Все вопросы по новому синтаксису шаблонов можно задавать в этом топике
- Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее тут
Список всех изменений в версии 1.0.268
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 26/05/14 в 11:20 |
Новая документация и текущий статус Бета-версии
В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию
Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
Обсудить новую документацию можно на форуме
Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 15/07/14 в 08:02 |
Новая версия Lite, автоматическая оплата прокси
- Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
- Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
- Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
- Новая сетка цен
- Последние изменения в бета версии
- Переработано описание парсера
Мы ждем ваших вопросов наши контакты
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 23/07/14 в 08:10 |
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI
Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии
Улучшения
- Новый парсер HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
- Для парсера SE::Google добавлена возможность указывать локацию поиска - город или регион
- Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
- Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
- Улучшена работа с битыми кодировками и детектирование кодировки страницы
- В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
- Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
- Для парсера Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
- Добавлена возможность выводить результаты в формате JSON
- Новая опция Not found is error для парсера Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
- Добавлена возможность удалять неиспользуемые базы данных Keep unique
- Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
- Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
- Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
Исправления
- Исправлен парсер SE::Yandex в связи с переходом на новую выдачу
- Исправлен парсер SE::AOL в связи с изменением в выдачи
- Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
- Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
- Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в SE::Yandex::WordStat
- Net:: DNS - исправлена работа на ОС Windows
- SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
- Исправлено некорректное определение некоторых полей в парсере Net::Whois
- Исправлена работа переменной $pagenum в парсере Net::HTTP
- Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
- Задания с пустым файлом запросов не завершались автоматически
- Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
- Исправлен парсер Rank::Alexa в связи с изменением в выдачи
- Исправлен парсер Rank::MajesticSEO в связи с изменением в выдачи
- Исправлена работа с кодировкой windows-1251
- Исправлен подсчет числа простых результатов
- Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
- Исправлен парсер Rank::Category в связи с изменением в выдачи
Полный список всех изменений в соответствующем разделе
Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 12/08/14 в 11:50 |
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов
Улучшения
- Полностью переработан парсер Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
- Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
- Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
- В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
- Улучшен парсер Net::DNS при работе через прокси
- В API появилась возможность запрашивать статус сразу нескольких заданий
- В API появилась возможность скачивать файл результата
- Парсер SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
- В парсере Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
Исправления
- Исправлен парсер SE::YouTube в связи с изменением в выдачи
- Исправлен парсинг с блогов в парсере SE::Google в связи с изменением в выдачи
- Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 28/08/14 в 09:18 |
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS
Улучшения
- Новый парсер SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
- Новый парсер SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
- Новый парсер SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
- Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера Rank::CMS
- Для парсера Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
- Для парсера Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
- Новая опция Emulate browser headers для парсера Net::HTTP - автоматически эмулирует хедеры современных браузеров
- Для парсера SE::Yandex::position теперь доступна статистика по использованию каптчи
Исправления
- Исправлен парсинг рекламных блоков в парсере SE::Google в связи с изменением в выдачи
- Исправлен парсер SE::Baidu в связи с изменением в выдачи
- Исправлен парсер проверки языка сайта SE::Bing::LangDetect
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 16/09/14 в 10:42 |
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса
Улучшения
- Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
- В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
- Парсер SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
- При парсинге рекламы в SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
Исправления
- Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
- Исправлено определение ТИц в парсере SE::Yandex::TIC
- Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса SE::Yandex::Register в связи с изменением в выдачи
- Исправлена работа с заблокированными аккаунтами в парсере SE::Yandex::WordStat
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 29/09/14 в 09:09 |
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Определяем CMS для 1000000 доменов за 15 часов
В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа
Немного статистики:
- Скорость парсинга составила 1100 доменов в минуту
- Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
- Определено 126 различных CMS
- Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код: | 209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint |
Читать целиком »
Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата
Немного статистики:
- Парсинг 115390 ключевых слов занял всего 40 минут
- 80208 слов из 115390 имеют ненулевую статистику в Вордстате
- Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
- Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Читать целиком »
Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake
Пример разделен на 2 части:
- Сбор ссылок на анкеты из результатов поиска
- Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
В результате получаем файл с примерно следующим содержимым:
Читать целиком »
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 14/10/14 в 11:03 |
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов
В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)
Другие улучшения
- Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
- Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
- Для парсера SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
- В парсере Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
Исправления
- В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
- Парсер Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
- В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
- Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 29/10/14 в 09:19 |
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений
Улучшения парсера HTML::LinkExtractor
- Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
- Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
- Добавлена корректная обработка тега <base href=
Другие улучшения
- Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
- При парсинге рекламы в SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
- Исправлен парсер SE::Yandex в связи с изменением в выдачи
- На платформе Windows при закрытии приложения парсера возникала ошибка
- В парсере Net::Whois не был доступен исходный результат $data для пользовательской обработки
- В парсере SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
- Результат $query мог быть изменен некоторыми парсерами
- Парсер Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
- Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
- При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 06/11/14 в 12:56 |
Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Парсим базу для XRumer: 420000 форумов за 9 часов
Учимся быстро собирать большие базы методом перебора
За 9 часов работы:
- Было обработано 525254 запроса на максимальную глубину
- Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
- Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа
Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса
- Средняя скорость обработки составила 12000 ссылок в минуту
- ТОП-10 почтовых доменов:
Код: |
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net
|
Сбор перелинкованных топиков
Метод описывает как используя возможности парсера HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer
Алгоритм работы:
- Переходим только по внешним ссылкам
- Фильтруем ссылки для перехода по признакам форумов
- Добавляем уникализацию по домену
- Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
Парсинг форумов по признакам и запросам
Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену
Предыдущие рецепты:
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 24/11/14 в 09:13 |
A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи
Улучшения
- Теперь парсер-паук для сбора ссылок HTML::LinkExtractor основывается на парсере Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
- В парсер SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
- Добавлена возможность выбора текущего пресета для прокси-чекера через API
- В парсере SE::Google добавлен обход лишнего редиректа на HTTPS
- Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер SE::Yandex::WordStat
- На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
- В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
- Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем
Исправления
- В парсере Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
- Исправлена проблема с запуском парсера на некоторых версиях Windows
- В парсере SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
- В парсере SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
- Исправлена ошибка в парсере SE::Google при которой парсер мог вылетать если использовалась опция Location
- Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
- Парсер SE::Baidu исправлен в связи с изменением в выдачи
- В парсере SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
- Неудачные запросы сохранялись в неверной кодировке
- Исправлена работа опции Raw data results
- В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
- В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
- Исправлена работа с доменами в зоне .be для парсера Net::Whois
- Парсер SE::Yahoo исправлен в связи с изменением в выдачи
- В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
- В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 15/12/14 в 11:29 |
A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%
Улучшения
- SE::Seznam - парсер чешской поисковой системы seznam.cz
- SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
- Уменьшено начальное потребление памяти на 40%
- В парсере Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
- Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
- Добавлена возможность пропускать обновления на определенную версию
- Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
- Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов
Исправления
- Исправлено отображение текущий версии A-Parser для пользователей Lite версии
- Исправлена работа тестового парсинга с некоторыми ресурсами
- Исправлен парсер Rank::Ahrefs в связи с изменением в выдаче
- Исправлена работа опции Use pages для парсера Net::HTTP при использовании перебора запросов
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 06/01/15 в 12:53 |
A-Parser - 1.1.177 - Новый модуль SEO::Ping и парсер Rank::Mustat, улучшения в интерфейсе
Улучшения
- Новый модуль SEO::Ping - массовая отправка Ping запросов в сервисы поддерживающие Weblog API(Google Blog Search, Feed Burner, Ping-o-Matic и т.п.)
- Новый парсер Rank::Mustat - оценка трафика на сайте, также стоимость и рейтинг домена
- Для парсера Net::Whois добавлена возможность вручную указать адрес whois-сервера
- В поле Additional headers парсера Net::HTTP теперь возможно использовать переменные из конструктора запросов
- Добавлена опция позволяющая перезаписывать файл результата
- Добавлена возможность поиска пресета задания по названию
- Автоматическая прокрутка к выбранному элементу во всех списках в интерфейсе парсера
- В очереди заданий теперь отображаются названия пресетов
Исправления
- Парсер Rank::Ahrefs исправлен в связи с изменением в выдачи
- Исправлен вывод Raw results для парсера Net::Whois
- Исправлен вывод порядкового номера запроса $query.num
- Исправлена работа метода API bulkRequest
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 13/02/15 в 10:46 |
A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений
Улучшения
- Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
- Парсер SE::Google::Images теперь парсит без https
- Добавлена возможность ограничить максимальное число соединений на один прокси сервер
- В API добавлена возможность удалять файл результата
- Обновлен Perl модуль по работе с API AParser.pm
- В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
- Добавлена возможность использовать запрос $query в настройке Extra query string
Исправления
- В парсере SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
- Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
- Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
- Исправлена кодировка при сохранении неудачных запросов
- Исправлена ошибка, при которой задания могли не удалятся из очереди
- Исправлена кодировка в именах файлов результатов
- В парсере HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
- При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
- Исправлен вылет парсера при использовании некоторых регулярных выражений
- Исправлена обработка относительных путей в парсере Net::HTTP при использовании опции Next Page Regex
- Исправлен парсинг количества результатов в парсере SE::Google при использовании арабской локализации
- Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
- Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
- Исправлена ошибка работы с исходным кодом страницы в парсере SE::Google
|
|
|
|
С нами с 03.06.13
Сообщения: 297
Рейтинг: 37
|
Добавлено: 06/03/15 в 06:34 |
Демо версия A-Parser
Рады представить онлайн демо версию A-Parser, в которой можно ознакомиться со всеми возможностями перед покупкой парсера или перед переходом на новую версию
Демо версия предоставляет доступ к A-Parser установленному на нашем сервере, период тестирования - 6 часов, по истечению этого времени все настройки автоматически будут сброшены
Ограничения демо версии:
- Результаты парсинга не доступны для загрузки
- Максимальное число потоков - 100
- Парсинг возможен только с использованием прокси
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |
|
Спонсор сайта
|