Автоматизация сбора данных из сайтов

СКАЧАТЬ ВОРКФЛОУ

Этот рабочий процесс позволяет автоматически собирать структурированные данные с веб-страниц при помощи AI-агента, интегрированного с Google Sheets, ScrapingBee и самым современным AI-моделем Gemini. Решение удобно для e-commerce-аналитики и может адаптироваться для других задач парсинга.
Что делает этот рабочий процесс? Этот воркфлоу автоматизирует процесс сбора информации о товарах с е-commerce сайтов: AI-агент анализирует скриншоты и, если необходимо, HTML-структуру страниц, структурирует данные о товарах (название, цена, бренд, промо-условия) и заносит их в Google Sheets. Процесс полностью исключает ручной труд при массовом сборе информации с различных сайтов.
Для кого этот рабочий процесс?
  • Маркетологи и специалисты по анализу рынка e-commerce
  • Менеджеры интернет-магазинов
  • Технические аналитики, data scientists
  • Автоматизаторы процессов и integrators n8n
  • Продакт-менеджеры, отслеживающие конкурентов
Преимущества:
  • ✅ Автоматизированный сбор и структурирование данных товаров
  • ✅ Высокая точность благодаря использованию AI и fallback-сценария (скриншот + HTML)
  • ✅ Масштабируемость для массового парсинга URL
  • ✅ Гибкая настройка под любые типы карточек товаров или промо
  • ✅ Интеграция с Google Sheets для наглядного хранения и анализа результатов
  • ✅ Минимизация ошибок, связанных с ручным копированием и OCR
Как это работает?
  1. 🚦 Пользователь вручную запускает поток или выбирает собственный триггер.
  2. 🗒️ Google Sheets подгружает список URL для парсинга.
  3. 🪄 Для каждого URL формируется задача на получение скриншота страницы через ScrapingBee.
  4. 🖼️ Скриншот анализируется AI-агентом с помощью Gemini – AI извлекает информацию о товарах.
  5. 💡 Если информации со скриншота недостаточно, AI запрашивает HTML-код страницы и анализирует его.
  6. 📦 Извлечённые данные приводятся к единому JSON-формату (Structured Output Parser).
  7. 🔎 JSON массив разделяется на строки.
  8. 📑 Информация добавляется в Google Sheets в заранее подготовленный шаблон “Results”.
  9. ✅ Готово: данные собраны, промо-акции и бренды структурированы и готовы для анализа.
Используемые основные узлы n8n:
  • Manual Trigger — запуск процесса
  • Google Sheets (Get list of URLs / Create Rows) — загрузка URL и запись результатов
  • Set fields — подготовка URL к отправке на следующий шаг
  • ScrapingBee HTTP — получение скриншота или HTML-страницы
  • Vision-based Scraping Agent (Langchain Agent) — основной AI-узел для анализа изображений и HTML
  • Google Gemini Chat Model — LLM для визуального интеллекта
  • Structured Output Parser — перевод результатов в нужный формат
  • Split Out — разбивка массива данных на строки
Что требуется для работы?
  • Аккаунт Google с доступом к Google Sheets
  • API-ключ ScrapingBee
  • API-ключ и доступ к Gemini (Google Palm) или другому LLM
  • n8n (облачная версия или self-hosted)
  • Предварительно составленный Google Sheet с двумя листами: список URL и лист результатов
Как настроить:
  1. Подключите Google Sheets в нодах получения и записи данных.
  2. Добавьте свой API-ключ ScrapingBee в соответствующие HTTP-узлы.
  3. В настройках AI-агента и Gemini Chat Model укажите корректные API-ключи.
  4. Загрузите/сконфигурируйте Google Sheets: один лист с URL, второй — с колонками для результатов (Title, Price, Brand, Promo, Promo %).
  5. При необходимости адаптируйте JSON-схему Structured Output Parser для своей задачи.
  6. Протестируйте поток вручную, убедитесь в получении корректных данных на выходе.
  7. Для автоматизации установите другой триггер в зависимости от задачи (например, расписание).