Парсер контента: Внедрение парсинга XML(YML) файлов
3 февраля 2016
Автор: Шашалевич Станислав
Парсер контента – наше глобальное и передовое решение, которое позволяет парсить каталоги, страницы и rss ленты. Казалось бы, что еще можно требовать от данного модуля?! Но не тут-то было. Наши клиенты не стоят на месте и постоянно требуют от нас развития решения. А мы этому только рады. И вот теперь мы хотим сообщить, что удовлетворили еще одну очень важную просьбу наших клиентов: Парсинг XML файлов. Теперь Парсер может работать не только с rss, page, catalog типами данных, но и с xml.
Парсинг xml файлов позволяет парсить и такой полезный для интернет-магазинов формат, как YML файлы. Именно поэтому xml парсер по умолчанию настроен для парсинга yml выдачи. Но тут же у наших клиентов может возникнуть вопрос: А чем же ваша загрузка YML файлов отличается от аналогичных решений в Маркетплейсе. Вот список некоторых преимуществ нашего модуля над аналогами:
Суть парсинга осталась аналогичная: обработка xml файла идет по селекторам и атрибутам. Так что, если вы уже настраивали парсер catalog, то настройка парсера нового типа для Вас пройдет просто и легко.
А теперь давайте подробнее рассмотри функциональность нового типа данных:
Вкладка Парсер:
Тип парсера – соответственно и есть тип парсера: rss, page, catalog, xml
Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В debug режиме осуществляется парсинг первых 30 элементов XML файла.
Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.
URL XML файла – ссылка на файл. Файл может лежать, как у вас на сервере, так и находиться на удаленном сайте.
Дополнительные урлы XML файлов - вы можете также включить в выгрузку и другие урлы xml файлов. Для этого просто укажите их с новой строки.
ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка разделов и товаров.
ID раздела – раздел инфоблока, в который будет осуществляться загрузка разделов и товаров.
Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг. По умолчанию 300
Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется, и выгрузка осуществляется одним запросом.
Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.
Кодировка - кодировка xml файла. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать вручную.
Вкладка Основные настройки - Категории
Пример XML файла для категорий:
Селектор категории – указывается контейнер одной категории
Селектор-атрибут названия категории – указывается путь к названию категории. Если пусто, то название берется из значения самой категории
Селектор-атрибут, содержащий id категории – путь к id категории.
Селектор-атрибут, содержащий id родительской категории – для организации вложенности разделов необходимо указать пусть к значению родительского id категории.
Вкладка Основные настройки - Товары:
Пример XML файла для товаров:
Селектор конкретного товара – путь к контейнеру конкретного товара
Селектор-атрибут, содержащий id товара – путь к id товара
Селектор-атрибут категории товара – путь к айди категории, к которой прикреплен товар
Селектор-атрибут названия товара – путь к наименованию товара
Селектор-атрибут цены – контейнер, содержащий значение цены товара
Селектор-атрибут описания – содержит описание товара
Селектор-атрибут превью картинки – путь к картинке
Селектор-атрибут детальной картинки – путь к картинке
Вкладка Свойства
Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.
Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример picture. Указывается относительно селектора товара.
Значения свойств по умолчанию – можно указать значения свойств, которые будут заноситься по умолчанию автоматически при создании товаров
Парсинг по селектору – вы можете указать конкретный селектор свойства, который находится внутри селектора товара в xml. Например: vendor, barcode
Удалять символы – также вы можете удалять лишние символы в свойствах(единицы измерения и прочее)
Парсинг свойств и автоматическое создание - позволяет автоматически создавать, заполнять и обновлять свойства, которые идут списком в xml файле.
Уникализация свойств в данном случае идет по наименованию.
Автоматическое создание свойств – если галочка отмечена, то, в случае отсутствия свойства, оно будет создавать. Если свойство уже есть
Селектор-атрибут перечисления свойств – общий селектор, в котором находятся информация о свойстве
Селектор-атрибут названия свойства – путь расположения названия свойства. Напоминаем, что это важный параметр, так как уникализация в данном случае идет именно по этому параметру.
Селектор-атрибут значения свойства – путь к значению свойства. Если ничего не задано, то значение берется непосредственно из селектора свойства
Выберите тип создаваемых свойств – если свойства не создавались, то они будут созданы. Необходимо выбрать тип новых свойств из значений: Список или Строка.
Удалять символы – позволяет удалять лишние символы из свойств.
Добавление/удаление символов полей и свойств – функционал, позволяющий добавлять и удалять символы и названия товара, а также у его свойств.
Вкладки Торговый каталог, Дополнительные настройки, Обновления/уникальность, Сервисы, Авторизация, Логи, Видео-инструкции идентичны парсеру типа catalog. Поэтому подробно их рассматривать не будем.
Вкладка Торговый Каталог:
Вкладка позволяет гибко работать с ценами:
- Указывать параметры цены и валюты
- Конвертировать валюту
- Изменять цены
- Округлять цены
Вкладка Дополнительные настройки:
Вкладка Обновление/Уникальность:
Вкладка позволяет задать параметры уникализации, а также настроить обновление полей товаров.
Также скоро выйдут видео-инструкции по XML парсингу, что еще более облегчит настройку парсера.
Парсинг xml файлов позволяет парсить и такой полезный для интернет-магазинов формат, как YML файлы. Именно поэтому xml парсер по умолчанию настроен для парсинга yml выдачи. Но тут же у наших клиентов может возникнуть вопрос: А чем же ваша загрузка YML файлов отличается от аналогичных решений в Маркетплейсе. Вот список некоторых преимуществ нашего модуля над аналогами:
- возможность конвертации и пересчета валют
- возможность изменения цен
- возможность редактирования названия и свойств товаров
- возможность указания свойств по умолчанию
- возможность авторизации на стороннем сервере
- выполнять различные действия над элементами, которые отсутствуют в текущей выгрузке(ничего не делать, удалить, деактивировать)
- автоматический перевод текста
- возможность периодического запуска (агенты, крон)
- возможность указания полей и свойств для обновления
- возможность использования прокси-сервера
Суть парсинга осталась аналогичная: обработка xml файла идет по селекторам и атрибутам. Так что, если вы уже настраивали парсер catalog, то настройка парсера нового типа для Вас пройдет просто и легко.
А теперь давайте подробнее рассмотри функциональность нового типа данных:
Вкладка Парсер:
Тип парсера – соответственно и есть тип парсера: rss, page, catalog, xml
Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В debug режиме осуществляется парсинг первых 30 элементов XML файла.
Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.
URL XML файла – ссылка на файл. Файл может лежать, как у вас на сервере, так и находиться на удаленном сайте.
Дополнительные урлы XML файлов - вы можете также включить в выгрузку и другие урлы xml файлов. Для этого просто укажите их с новой строки.
ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка разделов и товаров.
ID раздела – раздел инфоблока, в который будет осуществляться загрузка разделов и товаров.
Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг. По умолчанию 300
Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется, и выгрузка осуществляется одним запросом.
Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.
Кодировка - кодировка xml файла. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать вручную.
Вкладка Основные настройки - Категории
Пример XML файла для категорий:
Селектор категории – указывается контейнер одной категории
Селектор-атрибут названия категории – указывается путь к названию категории. Если пусто, то название берется из значения самой категории
Селектор-атрибут, содержащий id категории – путь к id категории.
Селектор-атрибут, содержащий id родительской категории – для организации вложенности разделов необходимо указать пусть к значению родительского id категории.
Вкладка Основные настройки - Товары:
Пример XML файла для товаров:
Селектор конкретного товара – путь к контейнеру конкретного товара
Селектор-атрибут, содержащий id товара – путь к id товара
Селектор-атрибут категории товара – путь к айди категории, к которой прикреплен товар
Селектор-атрибут названия товара – путь к наименованию товара
Селектор-атрибут цены – контейнер, содержащий значение цены товара
Селектор-атрибут описания – содержит описание товара
Селектор-атрибут превью картинки – путь к картинке
Селектор-атрибут детальной картинки – путь к картинке
Вкладка Свойства
Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.
Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример picture. Указывается относительно селектора товара.
Значения свойств по умолчанию – можно указать значения свойств, которые будут заноситься по умолчанию автоматически при создании товаров
Парсинг по селектору – вы можете указать конкретный селектор свойства, который находится внутри селектора товара в xml. Например: vendor, barcode
Удалять символы – также вы можете удалять лишние символы в свойствах(единицы измерения и прочее)
Парсинг свойств и автоматическое создание - позволяет автоматически создавать, заполнять и обновлять свойства, которые идут списком в xml файле.
Уникализация свойств в данном случае идет по наименованию.
Автоматическое создание свойств – если галочка отмечена, то, в случае отсутствия свойства, оно будет создавать. Если свойство уже есть
Селектор-атрибут перечисления свойств – общий селектор, в котором находятся информация о свойстве
Селектор-атрибут названия свойства – путь расположения названия свойства. Напоминаем, что это важный параметр, так как уникализация в данном случае идет именно по этому параметру.
Селектор-атрибут значения свойства – путь к значению свойства. Если ничего не задано, то значение берется непосредственно из селектора свойства
Выберите тип создаваемых свойств – если свойства не создавались, то они будут созданы. Необходимо выбрать тип новых свойств из значений: Список или Строка.
Удалять символы – позволяет удалять лишние символы из свойств.
Добавление/удаление символов полей и свойств – функционал, позволяющий добавлять и удалять символы и названия товара, а также у его свойств.
Вкладки Торговый каталог, Дополнительные настройки, Обновления/уникальность, Сервисы, Авторизация, Логи, Видео-инструкции идентичны парсеру типа catalog. Поэтому подробно их рассматривать не будем.
Вкладка Торговый Каталог:
Вкладка позволяет гибко работать с ценами:
- Указывать параметры цены и валюты
- Конвертировать валюту
- Изменять цены
- Округлять цены
Вкладка Дополнительные настройки:
Вкладка Обновление/Уникальность:
Вкладка позволяет задать параметры уникализации, а также настроить обновление полей товаров.
Также скоро выйдут видео-инструкции по XML парсингу, что еще более облегчит настройку парсера.
Статья полезна для
Предлагаем еще прочесть