构建 AI 智能体的正确方式——与 NVIDIA 的 Adel El Hallak 和 ServiceNow 的 Joe Davis 对谈

智能体如何走向生产

Alex Kantrowitz：智能体要怎样从试点走向正式上线？今天我们来聊聊这个问题，而且是和两位真正把这件事做出来的人一起聊，这期节目由 ServiceNow 赞助。今天来到节目里的有 Joe Davis，ServiceNow 的 AI 工程与交付执行副总裁，以及 Adel El Hallak，NVIDIA 产品管理副总裁，负责 Agentic AI。Joe、Adel，欢迎来到节目。谢谢邀请。很高兴来到这里。

Joe Davis：先从最显而易见的问题说起。很多人对 NVIDIA 的印象，还是主要在和那些大公司合作，比如 OpenAI 之类的公司：它们从你们这里买大量芯片，在上面训练模型，然后也许你们再帮忙做一些云端推理支持。可今天我们坐在这里的，却是一家软件公司。所以 Joe，解释一下为什么 ServiceNow 和 NVIDIA 会并肩坐在一起谈合作。这看起来并不像我们过去看到的那种传统框架。 [00:00:52]

Joe Davis：其实我们和 NVIDIA 合作已经很多年了。

Adel El Hallak：我们合作的事情很多。我们会一起微调模型，并把它们开源给社区，这样任何公司都能使用。与此同时，我们也会在生产环境里一起做很多事情，比如 AI control tower，以及如何用双方的解决方案来保护大型企业里的 AI。没错。你看，AI 本质上是什么，Jensen 总说它像一块五层蛋糕，对吧？最底层是算力，最上层是实际的智能体和应用。所以我们至少会在其中几层上协作。大概是……嗯，Joe 刚才说到……等等，我想我们大概是从 2018、2019 年开始合作的。你知道，我们当然也和所有模型提供方合作，正如你说的那样，但我们也喜欢发布开源模型，所以最初的一些合作机会就是这么来的。我们今天聊的是智能体，对吧？我们就是要聊智能体。智能体不是单一模型，我们本质上认为，智能体是由一组不同模型组成的：有专有模型，有开源模型，还有经过定制、或者像他们说的那样做了后训练的开源模型。

Alex Kantrowitz：也就是说，智能体最终就是这么构成的。好，关于这一点我想追问一下。因为你刚才的描述里，一个智能体里面是有一堆模型协同工作的。

Joe Davis：对。但如果你看那些品牌名，大家会说 Claude Code 这类名字，而不会说“你最喜欢的一堆模型组合起来协同工作”。

Alex Kantrowitz：那这是 ServiceNow 的某个特定实例，还是说这就是这些系统的构建方式？

Adel El Hallak：当你面对一个 Claude Code 或者类似的开放式工具时，你其实只是在和一个 UI 交互。你并不知道背后到底发生了怎样的编排。我不打算去猜别人在做什么，但我可以说说我们自己在做的事情。我们在构建……你知道，今天他们在谈 blueprint，对吧？AI blueprint。我们有一个 blueprint 叫 IQ，它负责 deep research。也就是说，有时候你不只是想问一个快速问题，而是要深入去理解：解决这个问题需要什么？背后的上下文是什么？我得看哪些不同的数据源，怎么综合和理解？这个 deep research blueprint 或者说这个 agent，实际上是由不下七个 agent 组成的。其中有一个 orchestrator，也就是类似团队负责人的角色。我们看到最好的结果，往往会让这个 orchestrator 用 Anthropic 的 Opus 或者 OpenAI 的 GPT。orchestrator 旁边还有一个 planner。这个 planner 就像团队负责人旁边的助理，唯一的工作就是维护任务和待办清单，并在任务完成后把它们一项项划掉。再往下，是一大堆子研究 agent。这些子 agent 都经过 Nemotron 模型的后训练和微调。每个子 agent 都有不同的性格，或者说……Nemotron 是 NVIDIA 的模型。Nemotron 也就是 NVIDIA 的开源模型，我们会从权重层面开放这些模型，同时也会开放预训练数据集，这样你就能针对自己的领域去定制它们。单就子研究来说，我们有擅长批判的，有擅长收集事实的，还有擅长观察前方、预测接下来会发生什么的。

Joe Davis：我们和 ServiceNow 的合作，就是把这些专门的研究能力用在真正的业务场景里。我要把这件事说得非常清楚：这不是一个理论设想，而就是 ServiceNow 的实际工作方式，所以它确实直接应用在我们的公司里。 [00:04:37]

Adel El Hallak：所以我们会针对不同用例使用一系列模型，从前沿模型到微调模型，再到我们在 ServiceNow 自有 GPU 集群里、运行在 NVIDIA 软件上的模型。这里永远都会有一个准确性和效率的取舍问题，你需要决定把什么任务交给哪个模型。所以，这一整套方法，Adel 刚才描述的那一套，对 ServiceNow 的运行方式同样完全适用。 [00:05:10]

Joe Davis：好，所以你们是在和 NVIDIA 一起微调模型，也在和他们一起做开源应用和某些治理层面的事情。没错。那我就直接问了，为什么偏偏选 NVIDIA 来做这件事？如果你去问一个普通的 AI 观察者，甚至包括我自己，很多人可能会觉得，哦，你们应该去找那些大的基础模型实验室。

Adel El Hallak：我们当然也和很多公司有合作。只不过，我们在 NVIDIA 身上学到的是：我们有自己独特的做法，就是希望在自有硬件上运行模型，同时也会在数据集和基准测试上发力，去推动前沿模型进步。我们之前还没提到的一点是，我们会一起发布基准测试，而前沿模型会拿这些基准来训练，从而把我们共同关心的、真正聚焦企业场景的那些用例做得更好，让我们的企业客户受益。

Joe Davis：我们会借助和这些前沿模型之间的合作，把这些基准往前推一点，结果我们其实是让双方的共同客户群都受益。 [00:06:23]

Joe Davis：这挺酷的。所以当别人说模型厂商在“benchmark hacking”时，你们反而是说，拜托，尽管这么做吧？因为你们一旦去优化基准，最后对我们就会更有利，也会直接帮助我们的客户。对。好，那我们现在就具体聊聊这项真正的合作。我觉得我们得先从 OpenClaw 这个话题讲起，因为我觉得这就是整个故事的起点。Joe，你能不能先讲讲 OpenClaw 的兴起，以及它到底是什么？外界普遍觉得它就是装在 Mac mini 上、而且不能碰任何重要东西的玩意儿。但也许事实并不是这样。那我觉得，先定义它到底是什么。 [00:07:53]

Adel El Hallak：当我们谈 OpenClaw 的时候，得先退一步，问一句：我们到底要解决什么问题？人们希望有数字助手，去处理工作场景里那些原本要自己做的行政事务。比如你得管理收件箱，得管理 Teams 和 Slack 频道，也就是这些沟通渠道。你还得读、得写研究报告。你还得给客户和同事发消息。你要做的事情很多，很容易越堆越多，然后开始落后。于是这些智能体就被设计成 24 小时、7 天不间断运行的数字助手，它们可以在电脑上运行，并且能访问和你作为员工、作为个人一样的信息，然后代你采取行动。这就是它被广泛传播的原因，也确实非常有用。但我们看到的现实是，人们还不太信任它们。 [00:08:19]

Joe Davis：它们有点没被治理，也没有边界。力量非常大，但也很难控制。所以这些可能接管你工作的智能体，好的一面是它们能替你干活，坏的一面是它们也可能真的接管你的工作。 [00:09:46]

Adel El Hallak：所以企业场景里确实存在信任缺口，而我们真正关注的，就是怎么弥合这种缺口，把控制力和某种程度的无边界自治结合起来，形成一个足够好的组合，去帮助我们的客户在这种技术下真正繁荣起来。

Joe Davis：我特别喜欢 Joe 刚才用的那个词，unbounded autonomy，也就是“无边界自治”，因为我觉得 OpenClaw 恰恰把这种能力展示给了全世界。

Adel El Hallak：对，模型变得更好了，harness 也进步了。我得给 harness hive 点个赞，这是我最喜欢的词之一，所以向 harness hive 致敬。harness 变好了，运行时也更安全了，但我觉得 OpenClaw 最令人兴奋的地方，是它让所有人都看到了无边界自治到底能做到什么。OpenClaw 也成了 GitHub 上增长最快的项目。你看 Linux，它在几周内就超越了 Linux、超越了 React。那种兴奋是真实的，那股热度也是真实的。可按照 Joe 的说法，我们的 CISO、合规官会从企业角度谈一种“致命三元组”：也就是把无过滤的互联网访问、知识库访问和代码终端访问这三样东西混在一起。三者里有两样没问题，三样一起上，就会让你开始想，正如你说的，它真的可能接管你的工作。所以，无边界自治展示了赋能个人生产力的力量，而这种个人生产力正是我们都想要的。

Alex Kantrowitz：但关键还是你怎么把控制措施真正放进去，这样你就知道它不会失控。好，我们把这个问题落到实处。当 OpenClaw 刚出来的时候，名字其实改过很多版。

Joe Davis：但归根结底，人们拿它做的事情，是把它放到一台单独的机器上，给它一个邮箱地址，然后比如说——我举个例子——我想在意大利租一辆 Vespa，它就会联系罗马的 50 家 Vespa 服务商，然后帮你预订。

OpenClaw 的企业治理

Joe Davis：比如，它会联系罗马 50 家 Vespa 提供商，然后替你订到最便宜的那个，或者在你指定日期有空的那个。那些都不是理论故事。

Adel El Hallak：它找到了 Vespa 门店，但它没法在线和对方沟通。于是它会先去下载一个文本转语音模型，再拿这个模型打电话给 Vespa 店铺，用语音去完成预订。你只要给它一个条件，或者说你想达成的目标，它就会自己想办法实现。没错。 [00:10:50]

Joe Davis：我觉得这就是这类东西最神奇的地方：它们会自己想办法硬闯出一条路来。我想，传统 LLM 遇到这种情况，大概就会说“算了，我不知道答案”或者“我帮不了你”。可这些智能体不一样，它会想：哦，Adel 给了我一个任务，而且我能接触到各种各样的工具，我还可能能上网。

Joe Davis：于是它就会去做一些完全跳出常规的事情，想办法把目标完成。某种程度上，这些智能体就像迷你工程师。你想想工程师能接触到什么：他们有很多上下文。

Adel El Hallak：所以它们能阅读网上的内容，能接触到一定量的私有信息，还能写代码、部署代码。于是你几乎就拥有了一个会自我进化、会学习的迷你工程师，去完成你需要的任务，尽管它一开始并不是为这个目的而构建的。这也是我觉得最棒的地方：这些小型迷你工程师可以 24/7 运行，自我进化，替你解决问题，而且它们的运行速度就是机器速度。没错。 [00:11:19]

Alex Kantrowitz：这不是人类的速度，人类还得去阅读、学习，对吧？没错。每次我把一大份文档丢进这些 bot 里，它们都会说“好，我明白那是什么了”。我心里就会想：怎么做到的？

Joe Davis：可你们这么描述之后，我的本能反应其实是：这在企业场景里肯定行不通，对吧？而显然，答案就在这里，我们已经坐在这里，而且你们真的做成了。所以能不能谈谈，围绕发布一个类似 OpenClaw 的 bot，需要考虑哪些因素。你们这套东西叫 Project Arc。它到底怎么才能真正落地？因为我在想，好，如果一个 bot 对完成目标这件事毫不妥协，我们都知道当人类被赋予这种目标时会做什么。更何况这是一个能机器速度运行、又能接触到比普通人多得多信息的 bot。老实说，如果我要把它推向生产环境，我会被吓个半死。所以这是一项很有挑战的技术机会，而这也正是这次合作的核心。 [00:12:24]

Adel El Hallak：那我们就来描述一下这个新产品到底在做什么。首先，它是在企业场景里，所以这不是那种今天 OpenClaw 可能更多被当作个人助手来用的工具。我们想让它真正完成有意义的工作，所以它面向的就是企业环境，也就是全球最大的那些公司。我们关注的核心问题是：你怎么创建一个安全的环境，明确地选择这些智能体能访问哪些数据和文件，以及由什么策略去强制约束它们？

Joe Davis：这其实就是 NVIDIA 介入的地方。我们希望和他们一起做 OpenShell。也许你可以讲讲 OpenShell 以及它怎么帮助实现这些。 [00:13:49]

Adel El Hallak：当然可以。回到“操作一个智能体到底需要什么”这个问题：你得有模型，或者一组模型；你得有 harness，也就是它可以访问的一整套工具；你还得有运行时。我们这里有一个开源的安全运行时，它位于基础设施和智能体之间。它的作用是定义一个智能体在运行时能做什么、能访问什么、能读什么、能从哪里读、能往哪里写、应该路由到哪些 LLM。

Joe Davis：你说的运行时，是指它运行的时候，而不是之后，对吧？对，对，就是运行时。没错，正在执行的时候。

Adel El Hallak：对，运行时。与此同时，它还会管理、启动 sandbox，也就是在沙箱里运行这些智能体。

Adel El Hallak：所以你是在维护那些控制和策略，而这确实是我们合作里非常基础的一部分：你相当于把策略先设好，就像我们在给人类员工办理入职时做治理一样。你不会一上来就给他们开通对整台机器和所有内部系统的访问权限；要看他们的角色和任务。

Adel El Hallak：它们的权限是被限定的，能看什么、能调用哪些 API，等等。我们就是通过 OpenShell 来做这件事，确保提供正确的沙箱，并且能在运行时强制执行策略。这个合作最美妙的地方在于，围绕 AI control tower 有很多讨论，大家都在问它到底和 AI control tower 有什么关系。所以现在把这个问题交给你，我们来聊聊。 [00:15:37]

Adel El Hallak：这段概述很好地说明了我们在每一台桌面上都需要的核心能力：一个可以被治理的安全环境。我们从 OpenShell 开始。ServiceNow 是一家云公司，而在企业环境里，我们已经运行在这些公司的各个系统中。所以接下来，我们会有一个桌面应用，它会运行在那个沙箱里，并连接到我们的云端。然后你就可以让这个智能体执行动作。

Adel El Hallak：这些动作都由 OpenShell 来强制约束。但现在我们又能接触到云端，可以从桌面一路做到云端的完整动作。我们的 AI control tower 就能看到整个公司里这些不同的 OpenClaw 是怎么运行的，给它们可见性，同时也提供云级治理。比如，你可以看到单个用户机器上出现了哪些不同的攻击面。

Joe Davis：这就是我们的 AI control tower 为整个方案补上的那一层。你还可以把策略往下推，对吧？你可以为 X、Y、Z 任务定义公司级策略，然后通过 AICT 去管理它们。

Joe Davis：所以它就是那个治理层，确保这些智能体表现得正常。好，我想问你们俩两个问题。我最近和 Mark Cuban 一起录了节目，而且播出没多久。他对 AI 提了一个很有意思的观点：你可以把它看成新入职的员工。好，他们可能并不能完全理解所有政策，但至少会理解自己的行为后果。比如，为了达成目标，他们大概率不会给某个人发一封“你被解雇了”的邮件。Cuban 说的是，AI 并不理解自己行为的后果。他把它比作三岁或四岁的孩子，把奶瓶扔到地上，觉得这样就能得到自己想要的东西。所以我想听听你们怎么看：当 AI 在行为失当时，它并不真正理解后果，你们怎么让它们去做这些事？而且一切听起来都很好，对吧？ [00:16:54]

Joe Davis：你把它限制在这个 OpenShell 架构里。另一方面，AI 又是概率性的，对吧？这就是问题所在。你每次得到的答案都不一样。所以你怎么确保它会一直待在这些参数之内？

Adel El Hallak：这是个很好的问题。我先从一点说起：我同意你的前提，模型并不一定像人类一样有道德和伦理。我们本质上也认为这是真的，这也是为什么我们需要一个解决方案去引入治理，而在智能体场景下，这一点更重要。因为，也许你知道，去黑进 Workday 看看我的薪资并不道德。对吧？你应该知道不该这么做。但智能体不知道，而它们却有能力这么做。所以我们非常依赖治理和安全，确保在运行时权限和信任机制都到位。这也正是我们的 AI control tower 方案真正想为企业做的事。对，control tower 就是你设定边界的地方。

Adel El Hallak：但你怎么知道它们会听？关键就在于运行时会强制执行。你可以把它想成这样：某个 AI 可能做出决定，说，嘿，我想去更新你在 Workday 里的薪资。现在这个 AI 有了身份，我们会给它这个身份，也会给它权限，而真正允许它去执行、去访问其他系统的，是我们。换句话说，我们可以阻止它，也可以拦住它。这是一个我们 100% 可控的确定性机制。 [00:18:49]

Adel El Hallak：对，明白了，所以……

Adel El Hallak：我想补充一点。默认是“不允许”。当你启动 OpenShell 时，运行在沙箱中的智能体默认就是拒绝。你需要明确地给它开通非常具体的进程或操作权限，让它去执行。然后如果我可以继续说，OpenShell 是智能体的运行时。别忘了，还有其他保护层、合规层和护栏层。LLM 护栏也还在。

Adel El Hallak：这些并不是被我们刚才说的 OpenShell 运行时替代掉了，它们是彼此叠加的。也就是说，LLM 护栏依然存在，确保它不会说出不道德的话，

Adel El Hallak：这些东西是用来补充运行时的，告诉系统一个智能体能做什么、不能做什么。那那些说智能体突破护栏、虽然不能用互联网，却还是会趁开发者吃午饭时给他发邮件的故事呢？ [00:19:54]

Joe Davis：我会把那理解为：沙箱没有被真正强制执行。也就是说，你让智能体访问了你的邮箱，只是你自己可能没意识到。

Adel El Hallak：没意识到，或者那个环境对某些能力默认就是“允许”。所以，默认拒绝真的是一个很大的安全网。你只需要明确勾选你认为可以开放的能力。

Joe Davis：我喜欢这个默认拒绝。我得把它加进去。对，这就是 deny by default。默认拒绝。默认拒绝。零信任也是另一种理解方式。没错，零信任。那再回到一个问题：概率性和确定性之间的关系呢？好吧，这就是为什么你……Joe，你先说。

Harness 与 L1 自动化

Adel El Hallak：这时候就该轮到你最喜欢的 harness 话题了。核心位置上有一个 LLM 在做推理和规划，但它外面有一层 harness，提供了大量确定性。这个确定性里包含治理、安全、信任、集成和权限，而这正是整个系统真正能够运转起来的原因。也就是说，核心确实是一个概率模型，但你会在外面构建大量确定性，让它安全可用。

Adel El Hallak：我再往前推一步。我们讲的是这些会自我进化的智能体：你只需要描述你想要的结果，也许再给它一点提示，告诉它可能需要访问哪些工具，然后它就会自己去找达成目标的方法。现在在我们的领域里，正在出现的一件事是：当你有一些重复性任务时，你可以把这个任务封装成一个 skill。 [00:21:44]

Adel El Hallak：这样一来，我每次回到智能体面前说，嘿，每周五我想和 Alex、Joe 在纽约一起吃午饭，它就不会每次都重新开始：嗯，我得先搞清楚 Alex 是谁、Joe 是谁，还得找 Adil 的日历在 Exchange 里的哪儿。它会说，为什么不把这个封装成一个 skill 呢？skill 就是一组用人类语言写出来的指令，用来告诉系统怎么达成那个结果。

Adel El Hallak：你还是在用 LLM，所以你不可能获得完美的确定性，但 skill 可以把结果导向你想要的那个 outcome。skill 也是 harness 会利用和调用的一部分。skill 的另一个好处是，不用每次都让它从头推演如何安排每周一次的午餐，这样执行工作流会更高效。对吧？

Adel El Hallak：所以，我们和 ServiceNow 的合作里有一个很激动人心的部分，就是他们说会提供 20 个 autonomous agents。这些是对 Project Arc 的补充。也就是说，你会有这些在各自领域里非常擅长解决特定任务的专用智能体，它们更偏向你想要的那种规定式工作流。

Joe Davis：那能不能请你们中一个用最简单的英文解释一下，harness 到底是什么？ [00:22:37]

Joe Davis：我的意思是，我们俩都可以试试看。好。你先来？

Adel El Hallak：可以。你可能也会听到 orchestration 这个词。为什么我们不直接叫 orchestrator，而叫 harness 呢？你不觉得这样会更好吗？我平时和谁说话，会根据对象不同，把这两个词混用。Adel 对这个词很有强烈意见。

Adel El Hallak：不不不，因为另一个词本来是 scaffolding。对，scaffolding 才是另一个说法。所以我想为 harness 辩护一下，我为什么更喜欢这个词。

Adel El Hallak：在我看来，harness 就是你给模型开放的一整套工具。模型加上 harness，就构成了运行时里的一个智能体。它可以访问文件系统，可以访问你明确允许它使用的工具，比如代码解释器或者代码工具，也可以访问 MCP 工具或者 skill。所以它指的是一套你已经定义好、并且带有明确偏好的工具，而且你知道这些工具和你的模型配合起来效果很好。

Adel El Hallak：以前人们总是说，模型越好，智能体就越好；模型越强，智能体就越强。可最近，围绕智能体的一个新热点，就是 harness engineering。harness hive，harness engineering，这已经成了一个流行词。确实有很多研究表明：harness 的改进，会直接转化成智能体表现的提升。所以对我来说，harness 就是围绕模型的一切。 [00:23:41]

Joe Davis：这说得非常到位。我觉得这是个完美的定义。

Adel El Hallak：我再补充一点。harness，也就是 orchestrator，本质上是一个为了完成某项任务、明确任务而运行的循环，它拥有工具访问权限去完成那个任务。而你给这个 harness 定义了哪些工具，也就决定了不同 harness 之间的差别。比如，如果某个 harness 有写代码的能力，它就能做很多动态的事情；如果另一个 harness 不能写代码，那它就更静态、更预设一些。所以，你给这些不同 harness 配什么工具，会显著影响这个环境里的智能体能做什么。

Joe Davis：好，那我们把话题拉回现实。我们能不能举一个真实例子？因为我们一直在聊你们是怎么做的，但我们其实应该直接聊已经上线、正在生产环境里运行的产品。什么是 L1 AI IT specialist？这个名字也太长了。 [00:24:37]

Joe Davis：光是把这个名字记住，我们就花了好几周。我真不敢相信你能说对。你还真说对了。我都不知道自己能不能说对。我们这个节目标准很高。确实不错。我们很认真对待这件事。

Adel El Hallak：那我就快速讲一个例子。我们的主要用例之一是 IT，也就是 IT 服务管理。它真正的意思是：公司里会有员工，事情会出问题。比如他们想访问一个应用，却访问不了。就像我得和别人开 Zoom 会议，但我没有 Zoom；或者我想打开邮箱、浏览器，但它卡住了，打不开。公司在这些环境里要支持的各种问题很多。过去通常会怎样？他们会提交一个支持请求，也就是我们说的 incident，意思是：嘿，我需要 Zoom，但我没有，能给我开通吗？对面的人工会接到这个请求，说，好的，我去某个环境里给他开权限，然后就走开了。这可能要花上几天，因为有积压，还有别的事情在处理。于是，从有人需要 Zoom，到他真的拿到 Zoom 的整个解决时长，可能会拖很久。

Adel El Hallak：而这个自动化 IT specialist 做的事情，是有一个始终在后台运行的 AI，所以它是 ambient 的。等这些请求进来时，它就像第一道分诊：先看一眼请求，做一些深度研究，然后判断，我能不能解决这个问题？我能不能直接由 AI 自己给他开通 Zoom 权限？harness 就是那个说“可以”或“不可以”的东西。没错，正是它在治理这件事。我们看到，解决时长最多能缩短 99%。如果 AI 五分钟就能搞定，你就不用等人工好几天。只要这些东西运转正常，解决时长就会被大幅压缩。 [00:26:46]

Adel El Hallak：而且它实际上是在解决工作场所里最烦人的那些问题。

Alex Kantrowitz：比如你刚入职，想安排个会议，却没法下载 Zoom，还得等三四天，直到有人给你开权限？哪怕只是几个小时，我都会很崩溃。没错。也许你要见客户，而且特别紧急。结果大家只能绕开系统来工作，而这往往就是漏洞出现的地方，我猜。 [00:27:30]

Alex Kantrowitz：我再往前推一步。Joe 刚才提到一个很重要的点：它先做一些分诊，然后就能判断，嘿，它可以自己解决，对吧？

Adel El Hallak：它会做深度研究、读文档、看它收到的截图。真正看它后台在做什么的时候，你会觉得很酷。但如果它判断自己没法以足够的把握解决，它会给人工支持提供一些很棒的上下文。是工程师吗？我们叫他们 support 吗？对，support engineer。没错，support engineer。它会为那个 case、那个问题提供上下文。它会说，嘿，顺便说一下，我不觉得这是重置问题，我不觉得这是 Zoom 权限问题，我觉得是别的地方被堵住了。它会提供一个起点，让人工可以在此基础上继续推进，去解决那些更难的问题。

Alex Kantrowitz：对，而且我觉得 ServiceNow 现在已经把多少工单自动化了？是这个吗，80% 到 90%？我听 Bill McDermott 在 GTC 上说过，L1 工单已经有 90%…… [00:28:37]

Joe Davis：所以在 ServiceNow，我们会“喝自己的香槟”，我想这是你会用的那个说法。我们用 ServiceNow 来运营 ServiceNow。

Joe Davis：这说法挺好。还有别的说法能用那个吗？其他说法大概就是……呃，dog food？我猜也可以吧，总之这是另一档节目，我们可以聊聊 dog food，那是纽约那一期。那是午饭后的那期节目。好吧，没错。

Joe Davis：对，我们已经把 90% 的支持请求问题自动化了，所以大多数问题都能立刻解决，别人也不用再等。那你们能不能聊聊，你们觉得这类技术还有哪些其他用例会很有意思？IT 听起来很直接。我们能不能稍微放开想象一下？它还可能在哪些地方真正落地？而这也是我觉得合作正在真正融合的地方。你看，怎么判断什么场景相关，最好的方式就是去看今天人们都在做什么工作。 [00:29:38]

Adel El Hallak：然后再看看，怎么通过自主 AI 去增强它、做同样的工作。这就是我们看待这个问题的方式。所以当我们思考“应该怎么部署 AI、该先做哪些用例”时，我们会想：嘿，这里有 HR service desk，这里有 CRM 呼叫中心。我们应该在那些地方做同样的事情。我们应该像加入其他人类员工一样，把 AI 加进团队里。

Joe Davis：对，我们最近在频道里和 ServiceNow 的 Jackie、Kelly 聊过。其中一件事他们提到的是，销售人员通常想搞清楚自己到底拿了多少佣金，这往往是个很长的流程：你得去找 HR，然后他们还要算数，最后再把到目前为止你赚了多少钱告诉你。这样一来，你就没法做预算决策；你得等四天，然后才可能拿到答案。现在你看，流程本身今天就可以被自动化，他们能立刻拿到答案。作为一个前销售人员，这会让我非常开心，虽然最后算出来的数字通常还是太低了。我的职业生涯就是这样。我们就先停在这里吧。我的意思是，当我们两三年后回头看时，你们觉得哪些事情到那时会变得显而易见、但现在还不那么显而易见？我甚至觉得，这整场“智能体对话”本身就有点超现实。你知道，我们在节目里以前也预测过，2026 年之前会是智能体之年。那时候我还说，得了吧，别闹了。我已经听过太多次“移动之年”“智能体之年”了。去年本来据说就是智能体之年，但现在回头看，嗯，确实已经到了这一步。那往前看，下一步是什么？哇。 [00:33:30]

更视觉化的企业沟通

Joe Davis：说起来真有点超现实，我们现在就在聊智能体。你知道，在节目里，我们以前也预测过 2026 年会是智能体之年。我当时心想：算了吧，我都听腻了“移动之年”“智能体之年”这种说法。去年本来也被说成是智能体之年，但现在回头看，嗯，确实很明显我们会走到这一步。那往前看，下一步是什么？唉。 [00:30:17]

Adel El Hallak：哇。我觉得吧，我们现在在做的是 agentic AI，对吧？LLM 已经变得很强，harness 也变强了，运行时也越来越安全，我们正在把合规这一块补上。我觉得还有一个物理 AI 的世界，我们才刚刚摸到边。

Adel El Hallak：我本来以为你会说机器人。对吧？是啊。我不想把这个词用得那么泛，但对，没错。我最近听到有人说，三年后我们回头看，会说：嘿，你能相信吗？人类曾经真的亲自操作过重型机械。我很喜欢这句话，因为我的孩子还小，但这也是我会担心的事之一，比如在加州 17 号公路上开车，对吧？所以我期待有一天，我的孩子会对我说，爸，你以前真的会亲手去操作这些东西，对吧？不过说到底，我觉得我们现在谈的是治理。你看 AI control tower，它治理的是人类，让人类能看到智能体在做什么；它也在成为智能体的治理层，让智能体理解其他智能体在做什么，并把这些信息带回给人类。我觉得再过几年，我们会坐在这里讨论 AICT 如何同时治理人类、智能体和机器人，以及物理资产。

Adel El Hallak：从我的角度看，我真的更聚焦企业场景。真正能在整个企业里实现有意义 AI 采用的公司，其实还只是少数。所以我想到未来几年，重点会是那些极其复杂的业务场景里的采用和部署。还有，我也不会惊讶如果几年后，除了 LLM 之外还会有别的东西开始变得流行。现在已经有很多研究在尝试突破可靠性这个问题，而可靠性正是我们对 LLM 的核心认识之一，也是我们有时不得不绕开的地方。但我觉得这种可靠性和准确性，也就是你说的 hallucination，我不会惊讶看到未来几年会在这方面出现一些突破。 [00:32:55]

Adel El Hallak：在我们结束之前，我能不能也说一个？

Joe Davis：嘿，伙计，我很想听听。我们本来也想问你。

Joe Davis：我觉得这两种判断都很有可能。我觉得内部沟通，或者说一般性的沟通，都会越来越视觉化。我们现在就已经处在一个视觉沟通的时刻了，我是说，我们现在就在录视频。我最开始其实是靠写字起步的。我只是觉得，这件事会继续加速，尤其是当你看最新的 AI 图像模型进展时。即便有些人已经放弃了，AI 视频模型也一样。你把它放到企业场景里想一想：无论你要理解的东西有多复杂、多个性化，你能不能随时生成一张信息图，或者一段视频讲解？

Adel El Hallak：我觉得这就是一个效率和优化的问题。技术已经在那里了，接下来只是看怎么把它规模化、做得更高效，模型也会越来越好。所以我同意你的看法。好，我也同意你的看法。对，这个观点我也很喜欢。

Alex Kantrowitz：Joe、Adel，谢谢你们。很高兴和你们聊这次。谢谢邀请我们来这里。太棒了。好了，各位，非常感谢收听。我们很快会在频道里带来下一期节目。

构建 AI 智能体的正确方式——与 NVIDIA 的 Adel El Hallak 和 ServiceNow 的 Joe Davis 对谈

整体概括

主要内容

关键 takeaway

目录

智能体如何走向生产

OpenClaw 的企业治理

Harness 与 L1 自动化

更视觉化的企业沟通