Cбора данных с веб-страниц

СКАЧАТЬ ВОРКФЛОУ

Этот шаблон представляет собой PoC агента ReAct AI, способного извлекать случайные страницы (не только результаты поиска Wikipedia или Google).
В верхней части находится узел ручного чата, подключенный к агенту LangChain ReAct. Агент имеет доступ к инструменту рабочего процесса для получения содержимого страницы.
Извлечение содержимого страницы начинается с преобразования параметров запроса в объект JSON. Есть 3 предопределенных параметра:

url – адрес страницы для загрузки
метод = полный / упрощенный
maxlimit - максимальная длина для конечной страницы. Для более длинных страниц сообщение об ошибке возвращается обратно агенту

Извлечение содержимого страницы — многоэтапный процесс:

Режим HTTP-запроса пытается получить содержимое страницы.

Если содержимое страницы было успешно извлечено, начинается серия постобработки:

Извлечь HTML BODY; содержимое
Удалите все ненужные теги, чтобы сэкономить размер страницы.
Дальнейшее исключение внешних URL-адресов и значений IMG scr (на основе параметра запроса метода)
Оставшийся HTML преобразуется в Markdown, что еще больше сокращает длину страницы, сохраняя при этом ее базовую структуру.
Оставшийся контент отправляется обратно агенту, если он не слишком длинный (maxlimit = 70000 по умолчанию, см. узел CONFIG).

Примечание:

Часть HTTP-запроса можно выделить в отдельный рабочий процесс.
Ознакомьтесь с описанием инструмента Workflow, оно рекомендует агенту предоставить строку запроса с несколькими параметрами вместо объекта JSON.

Пожалуйста, свяжитесь с Эдуардом , если вам нужна дополнительная помощь с рабочими процессами и автоматизацией n8n!

Обратите внимание, что для использования этого шаблона вам понадобится n8n версии 1.19.4 или более поздней.