Обновление модуля «Парсер контента» до версии 3.0.0

Обновление модуля «Парсер контента» до версии 3.0.0

2 октября 2013


Автор: Шашалевич Станислав
Здравствуйте, уважаемые друзья, партнеры и клиенты компании Сотбит. На этот раз мы представляем вам анонс обновления модуля «Парсер контента» до версии 3.0.0. Этот модуль позволяет парсить контенты по rss каналам. Модуль основан на библиотеке phpQuery. Наполнение может осуществляться как в ручную, так и по агенту. Для начала опишу вам возможности и особенности модуля версии 2.0.0.:
  • Из rss источников парсит превью информацию
  • По ссылкам, указанным в rss контенте, переходит на страницу источника и парсит информацию. Информация парсится по селектору контента.
  • Возможность удалять теги
  • Возможность удалять заданные элементы, которые указываются через запятую
  • Возможность удалять атрибуты элементов
  • Возможность создавать превью и детальные картинки из источника, который парсим
  • Возможность сохранять/подменять пути картинок на свои
  • Возможность парсить мета-описание и ключевые слова
  • Запуск по агенту

Но для пользователей модуля функционала явно не хватало, о чем они сообщали в блог или в личку. Все это бралось на заметку. Кроме того, было выявлено ряд багов, которые существенно влияли на работу модуля. В частности, при парсинге сайтов с кодировкой отличной от кодировки сайта пользователя вместо детального описания появлялись крокозябры. Поэтому мы решили полностью переработать модуль и предоставить его на платной основе пользователям и клиентам.

Новые возможности модуля версии 3.0.0.:
  • Многие просили сделать возможность парсить rss каналы, в которых присутствуют различные источники с различных сайтов. Предыдущая версия модуля парсила только rss каналы с источниками одного сайта. Чтобы не перерабатывать структуру модуля, было найдено хитрое решение. Сейчас добавили доп. поле "URL в rss ленте". То есть фактически каждый парсер будет настроен на определенный урл в rss ленте.
  • Появилась возможность создавать символьный код из названия.
  • Добавлена возможность установки поля "Дата начала активности"
  • Так же по просьбе трудящихся добавлена возможность записи даты публикации, а так же источника информации
  • Добавлена возможность парсить заголовок страниц
  

Устраненные баги:
  • Устранен главный баг - проблема с кодировкой. Сейчас сайты кодировок utf-8 и windows-1251 парсятся корректно.
  • И другие мелкие баги, найденные нами и пользователями модуля
Модуль и дальше будет развиваться. Существует ряд задумок, которые будут реализованы в будущем. Так что следите за обновлением модуля.

Модуль идет с партнерскими скидками. Так что спешите купить и установить.

Бесплатные версии модуля обновлению не подлежат. Необходимо полностью удалить(стереть) модуль и установить его по новой. В случае необходимости возможно ручное обновление модуля до версии 3.0.0.

«Сотбит» - мы особенные. Мы чувствуем, что вам надо. Мы работаем для вас.