Парсер контента: Внедрение парсинга XML(YML) файлов

Парсер контента: Внедрение парсинга XML(YML) файлов

3 февраля 2016


Автор: Шашалевич Станислав
Парсер контента – наше глобальное и передовое решение, которое позволяет парсить каталоги, страницы и rss ленты. Казалось бы, что еще можно требовать от данного модуля?! Но не тут-то было. Наши клиенты не стоят на месте и постоянно требуют от нас развития решения. А мы этому только рады. И вот теперь мы хотим сообщить, что удовлетворили еще одну очень важную просьбу наших клиентов: Парсинг XML файлов. Теперь Парсер может работать не только с rss, page, catalog типами данных, но и с xml

Парсинг xml файлов позволяет парсить и такой полезный для интернет-магазинов формат, как YML файлы. Именно поэтому xml парсер по умолчанию настроен для парсинга yml выдачи. Но тут же у наших клиентов может возникнуть вопрос: А чем же ваша загрузка YML файлов отличается от аналогичных решений в Маркетплейсе. Вот список некоторых преимуществ нашего модуля над аналогами:
  • возможность конвертации и пересчета валют
  • возможность изменения цен
  • возможность редактирования названия и свойств товаров
  • возможность указания свойств по умолчанию
  • возможность авторизации на стороннем сервере
  • выполнять различные действия над элементами, которые отсутствуют в текущей выгрузке(ничего не делать, удалить, деактивировать)
  • автоматический перевод текста
  • возможность периодического запуска (агенты, крон)
  • возможность указания полей и свойств для обновления
  • возможность использования прокси-сервера
Если сравнивать парсинг xml с catalog, то парсинг xml уже на первый взгляд проще: меньше вкладок, полей и другой информации. Скорость загрузки информации тоже быстрее, так как отсутствует множество тяжелых запросов на сторонние сайты.

Суть парсинга осталась аналогичная: обработка xml файла идет по селекторам и атрибутам. Так что, если вы уже настраивали парсер catalog, то настройка парсера нового типа для Вас пройдет просто и легко.

А теперь давайте подробнее рассмотри функциональность нового типа данных:

Вкладка Парсер:

Фото 1: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Тип парсера – соответственно и есть тип парсера: rss, page, catalog, xml

Режим парсера
– режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В debug режиме осуществляется парсинг первых 30 элементов XML файла.

Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.

URL XML файла
– ссылка на файл. Файл может лежать, как у вас на сервере, так и находиться на удаленном сайте.

Дополнительные урлы XML файлов
- вы можете также включить в выгрузку и другие урлы xml файлов. Для этого просто укажите их с новой строки.

ID инфоблока-каталога
– инфоблок, в который будет осуществляться загрузка разделов и товаров.

ID раздела – раздел инфоблока, в который будет осуществляться загрузка разделов и товаров.

Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг. По умолчанию 300

Шаг парсера
– понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется, и выгрузка осуществляется одним запросом.

Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.

Кодировка - кодировка xml файла. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать вручную.

Вкладка Основные настройки - Категории

Фото 2: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Пример XML файла для категорий:

Фото 3: «Парсер контента: Внедрение парсинга XML(YML) файлов»
Селектор категории – указывается контейнер одной категории

Селектор-атрибут названия категории – указывается путь к названию категории. Если пусто, то название берется из значения самой категории

Селектор-атрибут, содержащий id категории – путь к id категории.

Селектор-атрибут, содержащий id родительской категории – для организации вложенности разделов необходимо указать пусть к значению родительского id категории.

Вкладка Основные настройки - Товары:

Фото 4: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Пример XML файла для товаров:

Фото 5: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Селектор конкретного товара – путь к контейнеру конкретного товара
Селектор-атрибут, содержащий id товара – путь к id товара
Селектор-атрибут категории товара – путь к айди категории, к которой прикреплен товар
Селектор-атрибут названия товара – путь к наименованию товара
Селектор-атрибут цены – контейнер, содержащий значение цены товара
Селектор-атрибут описания – содержит описание товара
Селектор-атрибут превью картинки – путь к картинке
Селектор-атрибут детальной картинки – путь к картинке

Вкладка Свойства

Фото 6: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.
Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример picture. Указывается относительно селектора товара.
Значения свойств по умолчанию – можно указать значения свойств, которые будут заноситься по умолчанию автоматически при создании товаров
Парсинг по селектору – вы можете указать конкретный селектор свойства, который находится внутри селектора товара в xml. Например: vendor, barcode
Удалять символы – также вы можете удалять лишние символы в свойствах(единицы измерения и прочее)

Парсинг свойств и автоматическое создание - позволяет автоматически создавать, заполнять и обновлять свойства, которые идут списком в xml файле.
Уникализация свойств в данном случае идет по наименованию.

Автоматическое создание свойств – если галочка отмечена, то, в случае отсутствия свойства, оно будет создавать. Если свойство уже есть

Селектор-атрибут перечисления свойств – общий селектор, в котором находятся информация о свойстве

Селектор-атрибут названия свойства – путь расположения названия свойства. Напоминаем, что это важный параметр, так как уникализация в данном случае идет именно по этому параметру.

Селектор-атрибут значения свойства – путь к значению свойства. Если ничего не задано, то значение берется непосредственно из селектора свойства

Выберите тип создаваемых свойств – если свойства не создавались, то они будут созданы. Необходимо выбрать тип новых свойств из значений: Список или Строка.

Удалять символы – позволяет удалять лишние символы из свойств.

Добавление/удаление символов полей и свойств – функционал, позволяющий добавлять и удалять символы и названия товара, а также у его свойств.

Вкладки Торговый каталог, Дополнительные настройки, Обновления/уникальность, Сервисы, Авторизация, Логи, Видео-инструкции идентичны парсеру типа catalog. Поэтому подробно их рассматривать не будем.

Вкладка Торговый Каталог:

Фото 7: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Вкладка позволяет гибко работать с ценами:
- Указывать параметры цены и валюты
- Конвертировать валюту
- Изменять цены
- Округлять цены

Вкладка Дополнительные настройки:

Фото 8: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Вкладка Обновление/Уникальность:

Фото 9: «Парсер контента: Внедрение парсинга XML(YML) файлов»

Вкладка позволяет задать параметры уникализации, а также настроить обновление полей товаров.

Также скоро выйдут видео-инструкции по XML парсингу, что еще более облегчит настройку парсера.