Forward Parser yahoo fix
В архиве с парсером поправлен настроечный файл для yahoo
Также файл можно скачать отдельно тут
В архиве с парсером поправлен настроечный файл для yahoo
Также файл можно скачать отдельно тут
Это обновление касается только настроек парсинга некоторых ПС, прилагающихся в виде файлов к парсеру. Поскольку у ряда поисковиков изменилась вёрстка страницы выдачи, пришлось под новую структуру подгонять и настройки.
Итак, по состоянию на сегодняшний день успешно парсится выдача таких ПС:
Обращаю особое внимание на тот факт, что в списке выше находится и капризничавший ранее гугл, выплёвывавший капчу при малейшем подозрении, что к нему обращается не человек, а бот. То ли чрезвычайные меры положительного эффекта не дали, или ещё что, но теперь всё вернулось на круги своя. Жаль только, что спарсить теперь можно не более 10 результатов со страницы, что несколько затягивает процесс
Скачать последнюю версию Forward Parser, как всегда, можно здесь
В связи с изменениями в структуре страниц выдачи гугла и ужесточением мер по борьбе с ботами, Forward Parser более не сможет работать с этим поисковиком. Придётся отдельно разрабатывать специальный парсер под гугл.
Как-то на просторах Сети встречался мне десктопный парсер Яндекс.Весны. Поскольку интерес к этому сервису достаточно высок, решил сделать серверный аналог в виде надстройки к Forward Parser. Чтобы получить неограниченное количество текстов на интересующую тему, надо проделать несколько шагов. Сначала зайти на vesna.yandex.ru, выбрать интересующие темы и запросить один текст. Потом скопировать url этой страницы с текстом из адресной строки браузера в поле «список запросов / url» Forward Parser, после чего можно запускать парсер.
загрузить
«Прямой эфир» – сервис Яндекса, отображающий 20 последних запросов пользователей к поиску Яндекса. Представленная надстройка к Forward Parser автоматизирует процесс сбора этих запросов. Если оставить парсер работать на продолжительное время, можно получить довольно большую базу ключевых слов.
загрузить
Что делает: проходит по страницам из списка, извлекая из html кода каждой страницы содержимое мета-тега «keywords» (если таковой имеется). Список страниц для обхода нужно взять заранее, например, тем же Forward’ом пропарсить выдачу какого-нибудь поисковика. Хороший способ собрать базу кеев по интересующей вас теме.
скачать
С этой настройкой Forward Parser способен находить на указанных веб-страницах ссылки и для каждой сохранять содержимое тега «href», то есть url страницы, на которую ведёт ссылка. Работает только для абсолютных ссылок. Список url страниц, с которых надо извлечь адреса ссылок, следует вводить в поле «Список запросов / url»
скачать
новая версия доступна к скачиванию, описание
Ввиду многочисленных просьб добавить в функционал скрипта возможность работы через прокси, выкладываю внеочередное тестовое обновление 1.01 beta с поддержкой этой функции.
Работоспособность новой версии проверялась только для http прокси, так что, если у вас есть возможность потестить парсер для соксов и проксей с авторизацией, пожалуйста, напишите о результатах.