使用 Jina Remote MCP Server 的 Agentic Workflow

在之前的文章中，我们向您展示了如何将 Jina AI 的搜索和阅读器 API 与 DeepSeek R1 集成，以构建深度研究代理，但这需要大量的自定义代码和提示词工程才能使其正常工作。在本文中，我们将使用模型上下文协议 (MCP) 来做同样的事情，这样可以减少大量的自定义代码，并且可以移植到不同的大模型，但仍然会遇到一些陷阱。

为了构建我们的代理，我们将使用我们最近发布的 MCP 服务器，该服务器提供对 Jina Reader、向量模型和重排器 API 的访问，以及 URL 到 Markdown、网络搜索、图像搜索和向量模型/重排器工具。

tag代理和模型上下文协议

最近关于代理和类代理 AI 的讨论很多，通常要么是炒作它们（像 Gartner，他们预计到 2028 年，大约 15% 的日常工作决策将由 AI 代理自主做出），要么是贬低它们（像 Vortex，他们声称大多数类代理 AI 提案都缺乏显著的价值或投资回报）。

但代理究竟是什么？一个比较好的定义（来自 Chip Huyen，通过 Simon Willison）是：

[代理是] 规划方法，然后在循环中运行工具直到实现目标的大模型系统

这就是我们在本文中使用的定义。而代理使用的那些工具呢？它们通过模型上下文协议连接。该协议最初由 Anthropic 开发，正在成为将大模型连接到外部工具和数据源的通用语言。这意味着代理可以将多个工具链接到单个工作流程中。结果是代理可以通过编排一套 API 来规划、推理和行动。

例如，我们可以构建一个价格优化代理，收集竞争对手的产品定价以进行比较和价格优化。然后，我们可以为代理配备 Jina AI 的 MCP 服务器、提示词和竞争对手产品列表，让它生成一份包含抓取的数据和来源链接的可操作报告。通过使用额外的 MCP 服务器，代理可以将该报告导出为 PDF 格式，通过电子邮件发送给利益相关者，将其存储在内部知识库中，以及更多。

在本文中，我们将使用我们的 MCP 服务器构建三个示例代理，该服务器提供以下工具：

primer - 获取当前上下文信息以进行本地化、时间感知的响应
read_url - 通过 Reader API 从网页中提取干净、结构化的内容作为 Markdown（也可作为并行版本使用）
capture_screenshot_url - 通过 Reader API 捕获网页的高质量屏幕截图
guess_datetime_url - 分析网页以获取上次更新/发布日期时间，并提供置信度分数
search_web - 通过 Reader API 搜索整个网络以获取当前信息和新闻（也可作为并行版本使用）
search_arxiv - 通过 Reader API 在 arXiv 存储库上搜索学术论文和预印本（也可作为并行版本使用）
search_images - 搜索整个网络的图像（类似于 Google 图片）通过 Reader API
expand_query - 基于查询扩展模型，通过 Reader API 扩展和重写网络搜索查询
sort_by_relevance - 通过重排器 API 按与查询的相关性对文档进行重排
deduplicate_strings - 通过向量模型 API 和子模优化获取前 k 个语义上唯一的字符串
deduplicate_images - 通过向量模型 API 和子模优化获取前 k 个语义上唯一的图像

我们还需要一个 MCP 客户端（VS Code 带有 Copilot，因为它免费且被广泛使用）和一个大模型（Claude Sonnet 4，因为在我们的测试中它给出了最好的结果）。

💡

为了简洁起见，接下来我们将 MCP 客户端 + 大模型 + MCP 服务器的组合称为“我们的代理”。

tag使用 Jina AI MCP 服务器

MCP 被描述为一个通用插件系统，支持 Claude Code、VS Code、Google Gemini CLI 以及 Claude 和 ChatGPT 的桌面前端等多个程序。连接 MCP 服务器通常只需要编辑您的设置文件以包含以下内容：

{
  "mcpServers": {
    "jina-mcp-server": {
      "url": "https://mcp.jina.ai/sse",
      "headers": {
        "Authorization": "Bearer ${JINA_API_KEY}" // optional
      }
    }
  }
}

为了测试 MCP 服务器是否工作，让我们使用一个简单的提示词：

Give me a summary of the latest post on jina.ai news in the
form of a single verse sea shanty

我们的代理执行以下操作：

调用 read_url 来抓取 https://jina.ai/news
使用查询 "site:jina.ai \\"Optimizing GGUFs for Decoder-Only Embedding Models\\" August 2025" 调用 search_web
调用 read_url 来抓取博客文章
从抓取的数据生成一个单节海歌：

🎵 *To the tune of a traditional sea shanty* 🎵

**"The GGUF Sailor's Tale"**

*Oh, they sailed with their embeddings, three billion strong and true,*  
*Through quantized waters deep and blue,*  
*With L4 GPU winds at their back,*  
*Four thousand tokens per second on their track!*  
*Heave away, me hearties, strip the vision tower down,*  
*For GGUF optimizations are the finest ports in town!*

💡

我们的代理通常会生成很长的输出。我们不会将它们全部包含在文章中，而是链接到 GitHub gist 以获取其余的输出。

既然我们已经看到了它在实践中是如何工作的，那么让我们通过构建一些有用的真实示例来真正地测试它。

tag示例 1：每日 arXiv 论文摘要

阅读最新的学术论文是我们 Jina AI 工作的一部分。但是，过滤掉真正相关的论文并从每篇论文中提取最重要的信息可能是一件很麻烦的事情。因此，对于我们的第一个实验，我们通过创建每日最新相关论文摘要来自动化该任务。这是我们使用的提示词：

Using only Jina tools, scrape arxiv for the papers about
LLMs, reranking, and embeddings published in the past 24
hours, then deduplicate and rerank for relevance, outputting
the top 10. For each one, scrape the PDF and extract the
abstract. Then summarize it and organize the information you
gathered into a "daily update". Include a link and publication
date for each paper.

💡

我们指定“仅使用 Jina 工具”，因为 VS Code 有其自己的搜索和抓取功能。在缺少该功能的模型上可以省略此措辞。

我们的代理：

搜索相关的 arxiv.org 论文（使用 parallel_search_arxiv 工具），查询字符串为 large language models LLM、reranking information retrieval、embeddings vector representations、transformer neural networks 和 natural language processing NLP
删除重复项（使用 deduplicate_strings 工具）
对结果进行重排（使用 sort_by_relevance 工具），仅输出十个最相关的结果。
检索重排结果的 PDF 的 URL（使用 parallel_read_url），分为两批，每批五个。
读取每个 URL（使用 read_url 工具，调用十次）
生成一份详细的报告，包括摘要、总结、趋势和见解、对未来研究的影响、研究差距和结论。

我们偶尔会遇到 Agent 没有将其结果限制在过去 24 小时内的问题。再次提示它遵循该指示，便生成了上面的报告。

tag示例 2：市场调研 Agent

在我们的下一个实验中，我们将让 Agent 编写一份关于一家著名的视频游戏公司（名称已编辑）的竞争情报报告。这是我们的提示词：

为
$GAME_COMPANY 创建一份全面的竞争情报报告，重点关注他们近期在复古
独立游戏领域的活动。使用 Jina 工具搜索最新的新闻、
新闻稿和公告，然后从他们的官方沟通中提取干净的内容。按
业务相关性对所有发现进行排名，并删除任何重复信息。
展示他们过去一个季度的战略方向、产品
发布和市场定位变化方面的见解

我们的 Agent：

运行多个 search_web 和 read_url 循环以收集研究资料。
使用 sort_by_relevance 对其发现进行重排，输出前十个结果。
生成一份市场情报报告，包括执行摘要、关键业务发展（按战略重要性排名）、战略决策分析和许多其他部分。

tag示例 3：法律合规研究

正如我们之前所说，MCP 的一个有用方面是我们可以使用多个服务器来获得更复杂的输出。在本例中，除了我们自己的服务器之外，我们还使用了 PDF Reader MCP Server，以创建一份关于欧盟和美国当前人工智能法律合规状态的研究报告。我们使用的提示词是：

开发一个知识库部分，重点关注欧盟和美国目前的人工智能法律
合规新闻和常见陷阱。报告应面向欧盟的人工智能初创公司。
广泛应用 Jina MCP 工具：执行并行 Web
搜索和 URL 读取，以有效地提取详细内容，删除语义重叠，并进行重排以呈现
最具权威性的信息。引用所有来源的
URL 以及发布或更新日期。清晰地组织内容并生成
可立即使用的格式化 PDF 文档。

我们的 Agent：

使用查询 EU AI Act 2024 compliance requirements startups legal obligations August 2025、USA AI regulation Biden executive order compliance requirements 2024 2025、AI startup legal pitfalls Europe GDPR data protection compliance 2025、AI liability insurance compliance requirements EU USA startups 2024 2025 和 AI ethics governance framework startups EU USA regulatory updates 2025 对一般信息执行并行搜索操作（使用 parallel_search），每个查询返回 25 个结果。
删除返回的 URL 中的重复项（使用 deduplicate_strings）
读取四个 URL 的内容（使用 parallel_read_url）
使用查询 AI startup common compliance pitfalls mistakes EU USA 2025、AI liability insurance cybersecurity startup requirements 2025、AI bias discrimination testing requirements EU AI Act compliance startups、AI data protection GDPR violations penalties startups 2025 执行进一步的 parallel_search 以获取更具体的信息。
使用 parallel_read_url 读取另外四个 URL
生成一个 Markdown 格式的报告，并将其转换为 18 页的 PDF

我们还必须进行一些额外的提示，以改进 PDF 元数据和格式，并使其更像是一份报告，而不是一个非常长的项目符号列表，但这是我们将在未来报告中整合到提示词中的内容。

tag替代方法

在使用 Claude Sonnet 4 之前，我们尝试了一系列支持工具的 Ollama 模型，包括 Qwen3:30b、Qwen2.5:7b 和 llama3.3:70b。对于 MCP 客户端，我们最初使用 ollmcp，然后跳转到 VS Code。无论我们如何明确地使用工具提示它们以及如何使用它们，上述所有模型都以相同的方式失败：当被要求执行即使是像从 Jina AI 检索最新博客文章这样的简单任务时，每个模型（无论大小或供应商）都会始终：

进入一个冗长的推理循环，不断地自我怀疑（并耗尽词元），直到它们最终决定按照指示行事
为 https://jina.ai/news 调用 read_url
检查博客文章标题和摘录
完全虚构他们抓取了最新的帖子（甚至没有为该页面调用 read_url）
根据顶部搜索结果中的摘录（而不是实际页面内容）呈现摘要
当被质疑时，声称他们完全按照指示行事并按要求抓取了页面

Claude、GPT 和 Gemini 系列中的模型提供了可接受的输出，但我们很快就选择了 Claude Sonnet 4，因为它广泛使用了工具（通常选择并行工具选项，而不是 GPT-4.1 偏爱的串行方法），并生成了更长、结构更好的输出。

tag结论

围绕“Agentic AI”这个术语仍然存在很多模糊之处，但 MCP 代表着朝着使其成为具体和实用事物迈出的一步。根据我们的经验，Agent 还没有完全准备好迎接黄金时期，大模型通常是薄弱环节，但通过一些帮助和实验，可以获得良好的结果。也就是说，当您确实获得了提示词、大模型和 MCP 服务器的正确组合时，您可以看到 Agent 可靠地执行多步骤任务，而无需任何自定义代码——这对于以前的模型（如不支持工具的 DeepSeek）来说要困难得多，这些模型需要更多的手动工程，并导致脆弱的集成。

尽管目前存在这些限制，但发展轨迹还是很有希望的。MCP 生态系统正在迅速发展，带来了更多的集成和工具，可以更轻松地混合和匹配 API（例如 Jina 的 API），或者在新的大模型可用时将其换入。随着底层模型的改进和工具生态系统的成熟，实验性 Agent 和可用于生产的 Agentic AI 之间的差距不断缩小，使得强大的实现在实际应用中越来越容易实现。