Автоматизация сбора данных из сайтов

СКАЧАТЬ ВОРКФЛОУ

Этот рабочий процесс позволяет автоматически собирать структурированные данные с веб-страниц при помощи AI-агента, интегрированного с Google Sheets, ScrapingBee и самым современным AI-моделем Gemini. Решение удобно для e-commerce-аналитики и может адаптироваться для других задач парсинга.
Что делает этот рабочий процесс? Этот воркфлоу автоматизирует процесс сбора информации о товарах с е-commerce сайтов: AI-агент анализирует скриншоты и, если необходимо, HTML-структуру страниц, структурирует данные о товарах (название, цена, бренд, промо-условия) и заносит их в Google Sheets. Процесс полностью исключает ручной труд при массовом сборе информации с различных сайтов.
Для кого этот рабочий процесс?

Маркетологи и специалисты по анализу рынка e-commerce
Менеджеры интернет-магазинов
Технические аналитики, data scientists
Автоматизаторы процессов и integrators n8n
Продакт-менеджеры, отслеживающие конкурентов

Преимущества:

✅ Автоматизированный сбор и структурирование данных товаров
✅ Высокая точность благодаря использованию AI и fallback-сценария (скриншот + HTML)
✅ Масштабируемость для массового парсинга URL
✅ Гибкая настройка под любые типы карточек товаров или промо
✅ Интеграция с Google Sheets для наглядного хранения и анализа результатов
✅ Минимизация ошибок, связанных с ручным копированием и OCR

Как это работает?

🚦 Пользователь вручную запускает поток или выбирает собственный триггер.
🗒️ Google Sheets подгружает список URL для парсинга.
🪄 Для каждого URL формируется задача на получение скриншота страницы через ScrapingBee.
🖼️ Скриншот анализируется AI-агентом с помощью Gemini – AI извлекает информацию о товарах.
💡 Если информации со скриншота недостаточно, AI запрашивает HTML-код страницы и анализирует его.
📦 Извлечённые данные приводятся к единому JSON-формату (Structured Output Parser).
🔎 JSON массив разделяется на строки.
📑 Информация добавляется в Google Sheets в заранее подготовленный шаблон “Results”.
✅ Готово: данные собраны, промо-акции и бренды структурированы и готовы для анализа.

Используемые основные узлы n8n:

Manual Trigger — запуск процесса
Google Sheets (Get list of URLs / Create Rows) — загрузка URL и запись результатов
Set fields — подготовка URL к отправке на следующий шаг
ScrapingBee HTTP — получение скриншота или HTML-страницы
Vision-based Scraping Agent (Langchain Agent) — основной AI-узел для анализа изображений и HTML
Google Gemini Chat Model — LLM для визуального интеллекта
Structured Output Parser — перевод результатов в нужный формат
Split Out — разбивка массива данных на строки

Что требуется для работы?

Аккаунт Google с доступом к Google Sheets
API-ключ ScrapingBee
API-ключ и доступ к Gemini (Google Palm) или другому LLM
n8n (облачная версия или self-hosted)
Предварительно составленный Google Sheet с двумя листами: список URL и лист результатов

Как настроить:

Подключите Google Sheets в нодах получения и записи данных.
Добавьте свой API-ключ ScrapingBee в соответствующие HTTP-узлы.
В настройках AI-агента и Gemini Chat Model укажите корректные API-ключи.
Загрузите/сконфигурируйте Google Sheets: один лист с URL, второй — с колонками для результатов (Title, Price, Brand, Promo, Promo %).
При необходимости адаптируйте JSON-схему Structured Output Parser для своей задачи.
Протестируйте поток вручную, убедитесь в получении корректных данных на выходе.
Для автоматизации установите другой триггер в зависимости от задачи (например, расписание).