Автоматизация парсинга сайтов с помощью n8n и Selenium Ultimate Scraper

СКАЧАТЬ ВОРКФЛОУ

Решение помогает быстро получать структурированную информацию с минимумом ручных действий, используя связку n8n, Selenium и искусственный интеллект.
Что делает этот рабочий процесс? Воркфлоу автоматизирует процесс поиска нужной страницы на целевом сайте (через Google), открывает её в реальном браузере с помощью Selenium (в Docker-контейнере), при необходимости авторизуется с помощью пользовательских cookies, выполняет скриншот страницы и анализирует изображение с помощью ИИ (OpenAI), чтобы извлечь необходимые данные. После выполнения все данные возвращаются в удобном формате, а сессии браузера корректно завершаются.
Для кого этот рабочий процесс?

Маркетологи и специалисты по конкурентному анализу
Менеджеры по продукту/развитию
SEO-специалисты и парсеры
DevOps, интеграторы и технические специалисты, внедряющие автоматизацию
Исследователи данных и аналитики

Преимущества:

⚡️ Максимальная автоматизация: от поиска до извлечения данных без ручного участия
🔄 Поддержка авторизации через cookies — подходит для защищённых разделов сайтов
🛡 Обход блокировок и антибот-защит (WAF), включая прокси для масштабных задач
🤖 Использование ИИ для анализа и структурирования сложных данных из изображений
🏆 Масштабируемость для сбора данных с большого количества сайтов и страниц
🔒 Безопасное завершение сессий Selenium и минимизация рисков блокировки

Как это работает?

Запуск осуществляется при POST-запросе на вебхук с указанием темы, домена, типа целевых данных и, опционально, cookies.
При отсутствии прямой Target Url происходит интеллектуальный поиск нужной страницы в Google (site:).
Осуществляется анализ Google-выдачи и извлечение оптимального URL для сбора данных.
Создаётся сессия браузера Chrome в Docker-контейнере Selenium с защитой от детекции автоматизации и возможностью проксификации.
Если требуется — добавляются session cookies для прохождения авторизации на сайте.
Переход на целевую страницу, снятие скриншота и отправка изображения в OpenAI для анализа.
Извлечение структурированных значений по заданным полям с помощью ИИ.
Результат возвращается в едином JSON-формате, с информированием о возможных ошибках (запрет страницы, сбой страницы, защита WAF и т.д.).
Все сессии корректно закрываются для минимизации нагрузки и последующих блокировок.

Используемые основные узлы n8n:

🧩 HTTP Request — для работы с Google, Selenium, загрузки страниц, управления сессиями
🧩 Set (Edit Fields) — задание ключевых переменных (домен, тема, cookies)
🧩 If — гибкая обработка сценариев с/без cookies, обработка ошибок и альтернативных путей
🧩 Code — предобработка cookies и данных
🧩 Limit/Refresh — контроль количества действий, обновление состояния браузера
🧩 AI (OpenAI, Information Extractor) — анализ изображений и текстов с помощью искусственного интеллекта

Что требуется для работы?

Аккаунт OpenAI и валидный API-ключ (dlya GPT-4 для анализа изображений и извлечения данных)
Docker-контейнер с Selenium Chrome (поддержка аргументов —user-agent, --proxy-server по необходимости)
Доступ к прокси-серверу (GeoNode или аналогичный, опционально для масштабных задач)
n8n сервер с возможностью принимать Webhook-запросы
(Опционально) расширение для сбора cookies из браузера

Как настроить

Запустите и настройте n8n и Selenium Chrome в Docker.
Получите и вставьте OpenAI API-ключ в соответствующий узел.
(Опционально) Добавьте настройки прокси в параметры Selenium для обхода блокировок.
Установите расширение для сбора cookies и сохраните их для авторизаций на целевых сайтах.
Настройте структуру входных данных (subject, Url, Target data, cookies) через Webhook.
Проверьте корректную работу workflow на типовом запросе — убедитесь, что результаты возвращаются.
Отслеживайте логи для мониторинга ошибок (блокировки WAF, некорректные cookies, сбой страницы).