Cбора данных с веб-страниц

СКАЧАТЬ ВОРКФЛОУ

Этот шаблон представляет собой PoC агента ReAct AI, способного извлекать случайные страницы (не только результаты поиска Wikipedia или Google).
В верхней части находится узел ручного чата, подключенный к агенту LangChain ReAct. Агент имеет доступ к инструменту рабочего процесса для получения содержимого страницы.
Извлечение содержимого страницы начинается с преобразования параметров запроса в объект JSON. Есть 3 предопределенных параметра:
  • url – адрес страницы для загрузки
  • метод = полный / упрощенный
  • maxlimit - максимальная длина для конечной страницы. Для более длинных страниц сообщение об ошибке возвращается обратно агенту
Извлечение содержимого страницы — многоэтапный процесс:
  1. Режим HTTP-запроса пытается получить содержимое страницы.
Если содержимое страницы было успешно извлечено, начинается серия постобработки:
  1. Извлечь HTML BODY; содержимое
  2. Удалите все ненужные теги, чтобы сэкономить размер страницы.
  3. Дальнейшее исключение внешних URL-адресов и значений IMG scr (на основе параметра запроса метода)
  4. Оставшийся HTML преобразуется в Markdown, что еще больше сокращает длину страницы, сохраняя при этом ее базовую структуру.
  5. Оставшийся контент отправляется обратно агенту, если он не слишком длинный (maxlimit = 70000 по умолчанию, см. узел CONFIG).
Примечание:
  • Часть HTTP-запроса можно выделить в отдельный рабочий процесс.
  • Ознакомьтесь с описанием инструмента Workflow, оно рекомендует агенту предоставить строку запроса с несколькими параметрами вместо объекта JSON.
Пожалуйста, свяжитесь с Эдуардом , если вам нужна дополнительная помощь с рабочими процессами и автоматизацией n8n!
  1. Обратите внимание, что для использования этого шаблона вам понадобится n8n версии 1.19.4 или более поздней.