Автоматизация парсинга сайтов с помощью n8n и Selenium Ultimate Scraper

СКАЧАТЬ ВОРКФЛОУ

Решение помогает быстро получать структурированную информацию с минимумом ручных действий, используя связку n8n, Selenium и искусственный интеллект.
Что делает этот рабочий процесс? Воркфлоу автоматизирует процесс поиска нужной страницы на целевом сайте (через Google), открывает её в реальном браузере с помощью Selenium (в Docker-контейнере), при необходимости авторизуется с помощью пользовательских cookies, выполняет скриншот страницы и анализирует изображение с помощью ИИ (OpenAI), чтобы извлечь необходимые данные. После выполнения все данные возвращаются в удобном формате, а сессии браузера корректно завершаются.
Для кого этот рабочий процесс?
  • Маркетологи и специалисты по конкурентному анализу
  • Менеджеры по продукту/развитию
  • SEO-специалисты и парсеры
  • DevOps, интеграторы и технические специалисты, внедряющие автоматизацию
  • Исследователи данных и аналитики
Преимущества:
  • ⚡️ Максимальная автоматизация: от поиска до извлечения данных без ручного участия
  • 🔄 Поддержка авторизации через cookies — подходит для защищённых разделов сайтов
  • 🛡 Обход блокировок и антибот-защит (WAF), включая прокси для масштабных задач
  • 🤖 Использование ИИ для анализа и структурирования сложных данных из изображений
  • 🏆 Масштабируемость для сбора данных с большого количества сайтов и страниц
  • 🔒 Безопасное завершение сессий Selenium и минимизация рисков блокировки
Как это работает?
  1. Запуск осуществляется при POST-запросе на вебхук с указанием темы, домена, типа целевых данных и, опционально, cookies.
  2. При отсутствии прямой Target Url происходит интеллектуальный поиск нужной страницы в Google (site:).
  3. Осуществляется анализ Google-выдачи и извлечение оптимального URL для сбора данных.
  4. Создаётся сессия браузера Chrome в Docker-контейнере Selenium с защитой от детекции автоматизации и возможностью проксификации.
  5. Если требуется — добавляются session cookies для прохождения авторизации на сайте.
  6. Переход на целевую страницу, снятие скриншота и отправка изображения в OpenAI для анализа.
  7. Извлечение структурированных значений по заданным полям с помощью ИИ.
  8. Результат возвращается в едином JSON-формате, с информированием о возможных ошибках (запрет страницы, сбой страницы, защита WAF и т.д.).
  9. Все сессии корректно закрываются для минимизации нагрузки и последующих блокировок.
Используемые основные узлы n8n:
  • 🧩 HTTP Request — для работы с Google, Selenium, загрузки страниц, управления сессиями
  • 🧩 Set (Edit Fields) — задание ключевых переменных (домен, тема, cookies)
  • 🧩 If — гибкая обработка сценариев с/без cookies, обработка ошибок и альтернативных путей
  • 🧩 Code — предобработка cookies и данных
  • 🧩 Limit/Refresh — контроль количества действий, обновление состояния браузера
  • 🧩 AI (OpenAI, Information Extractor) — анализ изображений и текстов с помощью искусственного интеллекта
Что требуется для работы?
  • Аккаунт OpenAI и валидный API-ключ (dlya GPT-4 для анализа изображений и извлечения данных)
  • Docker-контейнер с Selenium Chrome (поддержка аргументов —user-agent, --proxy-server по необходимости)
  • Доступ к прокси-серверу (GeoNode или аналогичный, опционально для масштабных задач)
  • n8n сервер с возможностью принимать Webhook-запросы
  • (Опционально) расширение для сбора cookies из браузера
Как настроить
  1. Запустите и настройте n8n и Selenium Chrome в Docker.
  2. Получите и вставьте OpenAI API-ключ в соответствующий узел.
  3. (Опционально) Добавьте настройки прокси в параметры Selenium для обхода блокировок.
  4. Установите расширение для сбора cookies и сохраните их для авторизаций на целевых сайтах.
  5. Настройте структуру входных данных (subject, Url, Target data, cookies) через Webhook.
  6. Проверьте корректную работу workflow на типовом запросе — убедитесь, что результаты возвращаются.
  7. Отслеживайте логи для мониторинга ошибок (блокировки WAF, некорректные cookies, сбой страницы).