Обновление модуля «Парсер контента» до версии 3.1.0
8 декабря 2013
Автор: Шашалевич Станислав
Компания «Сотбит» перед самым Новым Годом анонсирует долгожданное обновление модуля «Парсер контента» до версии 3.1.0. С выходном этого обновления модуль вступил на путь парсинга не только rss лент, но и просто страниц. И так, обо всех подробностях вы узнаете ниже.
Главным событием этого обновления стало то, что теперь статьи и новости можно парсить не только поrss лентам, но и по страницам списка новостей любого сайта. У сайта нет rss ленты? Без проблем! Указывайте урл страницы списка новостей(а также доп настройки поиска селектора) и новости этого сайта будут уже у вас.
Чтобы реализовать данный функционал было введено доп поле, как Тип парсера. На данный момент всего два типа парсера: rss и page. Но, забегая вперед, скажу, что в будущем году появится еще тип, как catalog. По умолчанию тип парсера идет rss, но вы можете легко изменить его. После создания и сохранения парсера его тип уже изменить нельзя. Вместе с типом page к парсеру добавляются следующие доп. Поля:
Селектор новости на странице списка новостей:
По этому селектору осуществляется поиск конкретного контейнера одной новости на странице.
Селектор ссылки:
Поэтому селектору осуществляется поиск ссылки. Поиск осуществляется относительно вышеприведенного параметра(Селектор новости на странице списка новостей). Если поле не задано, то будет браться первая найденная ссылка.
Селектор наименования новости:
Селектор, содержащий название новости. Указывается относительно первого вышеуказанного параметра. Если пустое, то название берется, как текст ссылки.
Ниже на картинке приведено отображение полей во вкладке Парсер типа page.
Так что теперь вероятность того, что вы распарсите контент, выше, чем была ранее! Но самое вкусное и интересное мы оставили на будущий год – парсинг каталога! Многие обращаются нам с запросами по парсингу каталога и в скором времени наш парсер научится делать и это!
Еще одним дополнением модуля стала возможность указания временной задержки между обращениями парсера к источнику, что позволит обойти контроль активности сайтов. Поэтому во вкладке Доп. Настройки появилось новое поле Время задержки, которое обозначается в секундах.
Кроме того, в обновлении исправлены мелкие баги, избавление от которых сделает работу с модулем еще более приятным.
Компания «Сотбит» работает для Вас! Мы особенные. Мы чувствуем, что Вам нужно. Мы сделаем Вас и Ваш бизнес лучше!
Главным событием этого обновления стало то, что теперь статьи и новости можно парсить не только поrss лентам, но и по страницам списка новостей любого сайта. У сайта нет rss ленты? Без проблем! Указывайте урл страницы списка новостей(а также доп настройки поиска селектора) и новости этого сайта будут уже у вас.
Чтобы реализовать данный функционал было введено доп поле, как Тип парсера. На данный момент всего два типа парсера: rss и page. Но, забегая вперед, скажу, что в будущем году появится еще тип, как catalog. По умолчанию тип парсера идет rss, но вы можете легко изменить его. После создания и сохранения парсера его тип уже изменить нельзя. Вместе с типом page к парсеру добавляются следующие доп. Поля:
Селектор новости на странице списка новостей:
По этому селектору осуществляется поиск конкретного контейнера одной новости на странице.
Селектор ссылки:
Поэтому селектору осуществляется поиск ссылки. Поиск осуществляется относительно вышеприведенного параметра(Селектор новости на странице списка новостей). Если поле не задано, то будет браться первая найденная ссылка.
Селектор наименования новости:
Селектор, содержащий название новости. Указывается относительно первого вышеуказанного параметра. Если пустое, то название берется, как текст ссылки.
Ниже на картинке приведено отображение полей во вкладке Парсер типа page.
Так что теперь вероятность того, что вы распарсите контент, выше, чем была ранее! Но самое вкусное и интересное мы оставили на будущий год – парсинг каталога! Многие обращаются нам с запросами по парсингу каталога и в скором времени наш парсер научится делать и это!
Еще одним дополнением модуля стала возможность указания временной задержки между обращениями парсера к источнику, что позволит обойти контроль активности сайтов. Поэтому во вкладке Доп. Настройки появилось новое поле Время задержки, которое обозначается в секундах.
Кроме того, в обновлении исправлены мелкие баги, избавление от которых сделает работу с модулем еще более приятным.
Компания «Сотбит» работает для Вас! Мы особенные. Мы чувствуем, что Вам нужно. Мы сделаем Вас и Ваш бизнес лучше!
Предлагаем еще прочесть