Разрешите представить вам настраиваемый скрипт для парсинга поисковых систем, а также других сайтов, имеющих схожую с ПС многостраничную структуру. Вы легко можете настроить парсер на работу с любым сайтом, создав для него файл настроек, понимаемый скриптом. Подробнее о написании собственных настроек будет написано позже.

В базовый комплект Forward Parser входит следующий набор настроек:

  • yandex – извлечение адресов страниц из выдачи Яндекса
  • google – извлечение адресов страниц выдачи Гугла
  • yahoo – извлечение адресов страниц выдачи поиска Yahoo.com
  • rambler – извлечение адресов страниц выдачи Рамблера
  • mailru – извлечение адресов страниц из выдачи поиска Мэйлру
  • bing – извлечение адресов страниц из выдачи Bing
  • nigma – извлечение адресов страниц поисковой выдачи Нигмы
  • nigmasnip – извлечение сниппетов из выдачи Нигмы

Настройки лежат в каталоге tunings, файлы дополнительных настроек необходимо помещать туда же.

Требования к веб-серверу:

PHP 4, 5
cURL
iconv

Описание работы с Forward Parser:

Откройте index.php в браузере и укажите следующие настройки:

Файл настроек – выберите из списка, о настройках было написано выше.

Список запросов / url – запросы на парсинг поисковых систем, каждая фраза с новой строки. Скрипт парсит выдачу и сохраняет данные сначала для первого запроса, потом для второго и т.д.

Опции сохранения данных
имя файла – укажите имя файла, куда будут сохранены спарсенные данные. Он будет создан автоматически в каталоге data. Если файл с таким именем уже есть, то результаты будут записаны в конец файла.

ограничитель справа – строка текста, ставится после каждого элемента спарсенных данных, знак перевода строки (Enter) обозначается как {N}, является ограничителем по умолчанию.

Если вам надо, чтобы спарсенные по каждому запросу данные сохранялись в отдельный файл, выберите опцию «данные в отдельный файл«. В находящемся ниже поле «имя» следует указать правило, по которому будут генерироваться имена для создаваемых файлов с данными. Для этого следует использовать макросы:
{TRANSLIT} – в процессе генерации имени файла заменяется на транслит запроса, установлен по умолчанию
{#} – заменяется на порядковый номер запроса в списке (1, 2, 3, …)
В поле «папка» укажите имя папки для сохранения данных.

Спарсенный текст может содержать html-теги, а вместо некоторых символов будут стоять соответствующие им html сущности (напр. &nbsp вместо пробела). Если же вам нужен чистый текст, установите опции «удаление тегов» и «замена html сущностей«.

Кодировка – вы можете выбрать, в какой кодировке следует сохранять данные. Доступны windows-1251 и utf-8

Опции парсинга
Страниц парсить – сколько страниц выдачи должен обработать парсер. Если это поле оставить пустым, то парсинг без ограничений.

Задержка – интервал времени между загрузками веб-страниц. Нужен для работы с некоторыми сайтами, где банят за слишком частые переходы по страницам.

Прокси
Присутствует возможность задать один прокси, который будет использован на протяжении всей работы парсера. Поддерживаются http прокси, socks 4, socks 5, авторизация.


Скачать Forward Parser вы можете совершенно бесплатно


Актуальная версия2.02 (21.03.2012)