Глобальное обновление модуля «Парсер контента» до версии 4.0.0 - теперь парсим каталоги!

Глобальное обновление модуля «Парсер контента» до версии 4.0.0 - теперь парсим каталоги!

4 февраля 2014


Автор: Шашалевич Станислав
Компания «Сотбит» анонсирует глобальное обновление модуля «Парсер контента» до версии 4.0.0. Теперь модуль умеет парсить не только rss каналы и новостные страницы, но и каталоги.

Еще в 2013 году была поставлена задача по увеличению функциональных возможностей модуля «Парсер контента», чтобы пользователь в одном модуле получил сочетание всех видов парсинга, что позволит ему облегчить работу по наполнению сайта контентом.

Перво-наперво было решено реализовать функционал парсинга каталога товаров. Ведь не зря 1С-Битрикс уже занимает львиную долю всех интернет-магазинов России, так еще они заявляют о своих намерениях стать лучшей e-commerce системой в мире. И мы им в этом поможем и примем непосредственное участие. Начало уже положено! К тому же, компания «Сотбит» специализируется как раз на решениях для интернет-магазинов. Поэтому не реализовать парсинг товаров в ближайшее время было бы глупостью и большой ошибкой.

Работа началась еще в конце 2013 и продолжилась уже в новом 2014 году. Ниже будут приведены трудности, с которыми мы столкнулись в процессе разработки:

1. Проработка визуальной части и логики работы
Как оказалось, немало времени потребовалось именно на проработку визуальной части и самой логики работы. Ведь именно от этой части зависит: как простота работы с парсером, так и его стабильность и надежность.
2. Пошаговый режим работы
Выяснилось, что если на странице много товаров, то парсер просто мог положить сервак. Нас это явно не устраивало. Поэтому пришлось ввести не просто постраничную пошаговость, но еще и потоварную.
3. Отладка и тестирование
Пришлось проверить и протестировать десятки выгрузок с различных сайтов, чтобы проверить работоспособность парсера. На это тоже ушла немалая часть времени.

После всех этапов разработки и тестирования мы получили конечный качественный продукт, который будет развиваться и далее. Стоит также отметить, что парсинг каталога был полностью написан с нуля, использованы свои методы класса и оптимизирована работа самого парсинга. В результате всего этого мы добились увеличения скорости парса.

Так что теперь парсинг может парсить:

- каталоги(цены, картинки, свойства)
- новости
- статьи
- rss ленты

Функциональные возможности парсера:

1. Парсинг цен, картинок, свойств
2. Возможность изменения уникализации товаров(по урлу и названию, по названию, по доп свойтсвам)
3. Возможно обновления всех или пустых полей(Описания, картинки)
4. Возможность конвертации цен в нужную валюту
5. Возможность изменения цен в зависимости от условий
6. Возможность подсоединения через прокси-сервера.

Предназначение и преимущества парсинга:

1. Загрузка партнерских каталогов со сторонних сайтов.
2. Перенос сайта с других платформ на платформу 1С-Битрикс.
3. Быстрое наполнение сайта контентом и соответственно быстрый запуск продаж.
4. Оперативность. Для новостных порталов счет идет на минуты, вы получите секунды. Новостник отследит и запостит свежую новость не менее, чем за час. «Парсер контента» сделает это за секунды.
5. Многопоточность. Качать контент с сотен сайтов одновременно в режиме реального времени?! Не проблема. «Пасрер контента» позволяет создавать неограниченное число потоков.
6. Привлечение посетителей. Свежая и актуальная информация привлечет и удержит посетителей на вашем сайте, что повысит его прибыльность.
7. Экономия на контент-менеджере. Основную работу сделает парсер. Заставьте контент-менеджера работать эффективно!
8. Быстрота. Заполнение 10000 позиций товара. Контент-менеджер справится с данной задачей за 3 месяца, «Парсер контента» - за 3 часа!!!


Что планируется реализовать в будущем:

1. XML парсинг. Скоро парсер научится парсить и xml выдачу сайтов в различном формате.
2. Парс-паук. На данный момент необходимо указать непосредственно раздел с товарами, чтобы парсинг шел успешно. Мы планируем разработать паука, который сам будет искать товары по всему каталогу.
3. Парсинг товаров по определенному фильтру. Например, указываете ключевые названия, и парсер находит, и парсит только нужные товары.
4. Автоматическое создание настроенного парса для ЯндексМаркета, Амазона и подобных ресурсов.
5. Усовершенствование логирования. Сейчас логирование осуществляется в простом формате записи в текстовый файл. Планируется, чтобы все выгружаемые товары и логи по ним выгружались в отдельную таблицу. Далее уже с этой таблицей можно будет легко работать, находить и обновлять нужные товары.
6. Отправка уникального текста в Яндекс.

В ближайшее время также ждите:

1. Видео-презентацию модуля
2. Видео-инструкиция по пользованию парсером


Модуль «Парсер контента» вышел на новый виток развития и будет продолжать радовать своих клиентов и дальше. А компания «Сотбит» сделает все для этого.

Оригинальная статья