Нейросети заменяют классические парсеры сайтов для быстрого заполнения характеристик и описания товаров. Поиск характеристик со 100% точностью. — советы в блоге
Автор: - IT решения для бизнеса Дубовой

Нейросети заменяют классические парсеры сайтов для быстрого заполнения характеристик и описания товаров. Поиск характеристик со 100% точностью.
В этой статье вы узнаете, как можно быстро заполнить через нейросети 1000 товаров, потратив 500 рублей на API. Интересное описание товара с упором на преимущества, технические параметры, отличие от других моделей. А также автоматическое заполнение характеристик товара со 100% точностью данных. В примере мы заполнили 60 свойств товара за несколько секунд.
В новой версии модуля «Дубовой: Искусственный интеллект» появилась поддержка модели со встроенным поиском данных в интернете в режиме реального времени.
Это принципиально иной подход по сравнению с традиционными парсерами сайтов: теперь нет необходимости настраивать XPath, регулярные выражения и разбираться в верстке HTML-страниц. Парсеры собирают данные «как есть» — часто с ошибками, мусорными тегами и без учета структуры.
Нейросеть работает иначе:
-
Находит реальные характеристики товаров в интернете;
-
Проверяет совпадения и исключает выдуманные значения;
-
Формирует структурированные свойства и уникальные описания автоматически.
Таким образом, модуль выполняет поиск → анализ → структурирование → рерайт → заполнение - это полностью исключает необходимость ручного редактирования данных после загрузки.
В самом низу статьи мы приведем конкретный пример генерации данных. Мы ожидаем получить точное описание товара, которое содержит описание всех преимуществ, отличий от других моделей, описание характеристик и особенностей товара. При этом уникальность текста должна быть не менее 70%. Также ожидаем получить точное заполнение 5 характеристик, не меняя их названия.
Замена тяжёлых парсеров:
Не нужно писать парсеры под каждый сайт и обновлять их при каждом изменении верстки.
100% соответствие реальным данным:
Модель проверяет источники и подставляет фактические значения, а не генерирует случайные.
Автоматический рерайт:
Описание получается уникальным и не требует дополнительной обработки. Через встроенный инструмент в модуле можно сразу проверить уникальность полученных данных.
Автоматическое заполнение свойств:
Заполняются существующие свойства инфоблока, при необходимости создаются новые.
Ограничение списка свойств:
В модуле есть возможность указывать в разделах каталога какие именно свойства нужно заполнять. Можно искать все возможные свойства товара или ограничивать свойства конкретным списком для каждого раздела. Модуль заполнит уже созданные свойства инфоблока или создаст новые при необходимости.
Ограничение списка ресурсов для поиска:
Также можно указать список сайтов для поиска и парсинга данных.
Интеграция работает через Bitrix API, без необходимости установки сторонних библиотек.
Работа с существующими товарами или загрузка из EXCEL
Поддерживается выборка товаров по любым параметрам из существующих инфоблоков или создание / заполнение товаров через EXCEL.
Средняя стоимость API составляет около 50 копеек на генерацию данных по 1 товару. Таким образом, на генерацию описания и характеристик 1000 товаров нужно потратить всего 500 рублей.
Рассмотрим пример. Интернет-магазин оборудования в сфере систем безопасности. В каталоге видеокамеры, тепловизоры, видеорегистраторы.
Стоит задача заполнить в каждом разделе описание и характеристики из списка допустимых.
Для этого укажем в каждом разделе список допустимых свойств. В разделе «IP камеры» укажем свойства:
-
ИК подсветка
-
Поддержка SD-карты
-
Встроенный микрофон
-
Тип объектива
-
Тип камеры
-
Разрешение
Наша задача заполнить значения этих свойств, не меняя названия свойств и не создавая новые свойства.
Заполняем значения в настройках раздела «IP камеры»:

Если не заполнять значения, нейросеть найдет и заполнит все возможные свойства товара, при этом мы можем ограничить их количество.
Дальше выбираем товары из инфоблока, которые мы хотим обработать. Для начала можем ограничиться одним разделом. В фильтре можно выбирать любые параметры для выборки, например, по названию, по разделу, по наличию описания или картинок, по любым свойствам в инфоблоке, а также с выборкой еще не обработанных товаров через модуль.

Рассмотрим результат на примере первого товара «IP камера DIVITEC DS-PT-SS8650PAAC/Z30 Антикоррозийная».
Мы ожидаем получить точное описание товара, которое содержит описание всех преимуществ, отличий от других моделей, описание характеристик и особенностей товара. При этом уникальность текста должна быть не менее 70%.
Также ожидаем получить точное заполнение 5 характеристик:
-
ИК подсветка — 200 метров
-
Поддержка SD-карты — До 256 Гб
-
Встроенный микрофон — Нет
-
Тип объектива — Вариофокальный
-
Тип камеры — IP
-
Разрешение — 5 Мп
Значения должны совпасть на 95-100%, c небольшой погрешностью в возможном написании значений, например «Поддержка SD-карты», допустимо "256 Гб" или "до 256 Гб," «Разрешение» - допустимо "5 Мп" или "5 Мп" + указание конкретного разрешения. Главный критерий – точность самого значения характеристики. При этом если нам нужно обеспечить совпадение наших ожиданий до 100% необходимо добавить в список команд соответствующие значения.
Результат:

С первой попытки получен результат, который мы ожидали получить:
-
Все характеристики заполнены верно
-
Названия характеристик не изменились
-
Количество характеристик не изменилось
-
Интересное описание товара с упором на преимущества, отличия и технические качества продукта.
Особенно понравилось в описании сравнение с другими реальными моделями:
В отличие от других моделей, таких как DIVITEC DS-IPC-SS8650/BR/Z30, данная камера не имеет взрывозащищенного исполнения, что делает ее более доступной по цене при сохранении высокой устойчивости к коррозии.
В описании первой фразы четко указано предназначение продукта и преимущества:
IP-камера DIVITEC DS-PT-SS8650PAAC/Z30 предназначена для эксплуатации в агрессивных средах, где требуется надежное видеонаблюдение. Ее корпус выполнен из нержавеющей стали 316L, обеспечивая высокую устойчивость к коррозии. Это делает камеру идеальной для использования в химической и нефтеперерабатывающей промышленности, а также на объектах с повышенной влажностью.
Дальше следует описание всех технических параметров товара:
Камера оснащена вариофокальным объективом с фокусным расстоянием 5.3-159 мм, что позволяет гибко настраивать угол обзора в диапазоне от 56.3° до 2.5° по горизонтали. Разрешение 5 Мп обеспечивает детализированное изображение, а ИК-подсветка с дальностью до 200 метров гарантирует качественное видео даже в условиях полной темноты.
Встроенный слот для SD-карты поддерживает носители объемом до 256 Гб, что позволяет хранить значительное количество записей без необходимости постоянного подключения к внешним устройствам. Однако встроенный микрофон в данной модели отсутствует.
Далее, как мы уже указали, идет сравнение с другими моделями и завершается описание ключевыми словами, которые мы указали в настройках модуля:
Приобрести IP-камеру DIVITEC DS-PT-SS8650PAAC/Z30 в Москве можно с бесплатной доставкой по городу, что делает покупку еще более удобной.
При сохранении данных все характеристики автоматически заполняются в товарах. При этом если свойства уже заданы, заполняются существующие.
А теперь давайте посмотрим какие данные можно получить по товару, если не указывать конкретный список свойств в разделах:

Получилось около 60 реальных свойств товара, которые мы получили и сохранили в товаре за 30 секунд.
Любые свойства из этого списка можно легко вывести на сайте в карточке товара и в фильтре. Причем, если какое-либо свойство уже есть в каталоге, будет заполнено текущее свойство с любым типом – строка, число, список. Если свойство имеет тип «Список», а значение свойства из нейросети новое, то в инфоблоке будет задано и заполнено новое значение.
