Сканування даних з сайтів

Ок, пан мав час та натхнення посидіти над скрабінгом сайтів — давайте підсумуємо, що з того вийшло.

За сайт-донор брався пристойний магазин Ikea, а технічним завданням був регулярне сканування товарного ряду, кількості на складі та звичайно актуальних цін. Скажу наперед, що за весь експерименту час сканування товарів з Ікеї їхні ціни практично не змінювали — більший вплив відчувався через коливання курсу…



Отже, попри всю кострубатість коду, сама програмка сумлінно та стабільно витворяла деякі речі:

  • Сканування даних по шаблону — тобто зі всієї сторінки вибиралась лишень найсоковитіша інформація, що стосувалась безпосередньо товарів;
  • кешування даних — помічна річ як показує практика. При відладці бізнеслогіки часто доводиться переглядати пріорітетні об’єкти, або порівнювати з попередніми результатами. Якщо щоразу перескановувати при цьому сайт-реципієнт, то Вашу адресу швиденько заблокують… Власне кешування дозволяє звести навідування в гості до пристойного мінімуму;
  • Структурування даних — як би там не було, а у Вас скоріш за все своя система та бачення подачі асортименту. Тому і сортувати інформацію краще відповідно до власних потреб;
  • Переклад даних — як google translate так і yandex translate пропонують доволі непогану якість обробки інформації. Це допоможе підібрати потрібну локалізацію під Вашу аудиторію;
  • Запити через proxy сервери — не всі речі можна здійснювати напряму. Наприклад, якщо у Нашій країні заблокований Яндекс, то скористатись його ресурсами вдасться лише через сервер в іншій країні;
  • Зберігання зображень — краще один раз побачити… Власне зберігання здійснюється окремим запитом, що дозволяє понизити навантаження та дає додаткові гарантії в “доставці товару”;
  • Блокування дублів — якими грішить цей прекрасний сайт дозволить уникнути нестиковок при просуванні, а також привести в порядок логіку магазину.
  • Додатковими сервісами також є порівняльна аналітика з асортиметом попередніх моніторингів.

Даний функціонал перефектно підійте в задачах моніторингу товарного ряду, а таож при роботи з іншого виду даними. Спеціальна інтелектуальна система регулювання запитів дозволяє здійснювати сканування максимально м’яко, щоб не створювати критичних навантажень на сайт-донор, а відтак не спонукати до блокування господарів ресурсу.

Залишити відповідь