目录
- 智能体如何走向生产 [00:00:00 - 00:10:00]
- OpenClaw 的企业治理 [00:10:00 - 00:20:00]
- Harness 与 L1 自动化 [00:20:00 - 00:30:00]
- 更视觉化的企业沟通 [00:30:00 - 00:33:38]
智能体如何走向生产
Alex Kantrowitz:智能体要怎样从试点走向正式上线?今天我们来聊聊这个问题,而且是和两位真正把这件事做出来的人一起聊,这期节目由 ServiceNow 赞助。今天来到节目里的有 Joe Davis,ServiceNow 的 AI 工程与交付执行副总裁,以及 Adel El Hallak,NVIDIA 产品管理副总裁,负责 Agentic AI。Joe、Adel,欢迎来到节目。谢谢邀请。很高兴来到这里。
Joe Davis:先从最显而易见的问题说起。很多人对 NVIDIA 的印象,还是主要在和那些大公司合作,比如 OpenAI 之类的公司:它们从你们这里买大量芯片,在上面训练模型,然后也许你们再帮忙做一些云端推理支持。可今天我们坐在这里的,却是一家软件公司。所以 Joe,解释一下为什么 ServiceNow 和 NVIDIA 会并肩坐在一起谈合作。这看起来并不像我们过去看到的那种传统框架。 [00:00:52]
Joe Davis:其实我们和 NVIDIA 合作已经很多年了。
Adel El Hallak:我们合作的事情很多。我们会一起微调模型,并把它们开源给社区,这样任何公司都能使用。与此同时,我们也会在生产环境里一起做很多事情,比如 AI control tower,以及如何用双方的解决方案来保护大型企业里的 AI。没错。你看,AI 本质上是什么,Jensen 总说它像一块五层蛋糕,对吧?最底层是算力,最上层是实际的智能体和应用。所以我们至少会在其中几层上协作。大概是……嗯,Joe 刚才说到……等等,我想我们大概是从 2018、2019 年开始合作的。你知道,我们当然也和所有模型提供方合作,正如你说的那样,但我们也喜欢发布开源模型,所以最初的一些合作机会就是这么来的。我们今天聊的是智能体,对吧?我们就是要聊智能体。智能体不是单一模型,我们本质上认为,智能体是由一组不同模型组成的:有专有模型,有开源模型,还有经过定制、或者像他们说的那样做了后训练的开源模型。
Alex Kantrowitz:也就是说,智能体最终就是这么构成的。好,关于这一点我想追问一下。因为你刚才的描述里,一个智能体里面是有一堆模型协同工作的。
Joe Davis:对。但如果你看那些品牌名,大家会说 Claude Code 这类名字,而不会说“你最喜欢的一堆模型组合起来协同工作”。
Alex Kantrowitz:那这是 ServiceNow 的某个特定实例,还是说这就是这些系统的构建方式?
Adel El Hallak:当你面对一个 Claude Code 或者类似的开放式工具时,你其实只是在和一个 UI 交互。你并不知道背后到底发生了怎样的编排。我不打算去猜别人在做什么,但我可以说说我们自己在做的事情。我们在构建……你知道,今天他们在谈 blueprint,对吧?AI blueprint。我们有一个 blueprint 叫 IQ,它负责 deep research。也就是说,有时候你不只是想问一个快速问题,而是要深入去理解:解决这个问题需要什么?背后的上下文是什么?我得看哪些不同的数据源,怎么综合和理解?这个 deep research blueprint 或者说这个 agent,实际上是由不下七个 agent 组成的。其中有一个 orchestrator,也就是类似团队负责人的角色。我们看到最好的结果,往往会让这个 orchestrator 用 Anthropic 的 Opus 或者 OpenAI 的 GPT。orchestrator 旁边还有一个 planner。这个 planner 就像团队负责人旁边的助理,唯一的工作就是维护任务和待办清单,并在任务完成后把它们一项项划掉。再往下,是一大堆子研究 agent。这些子 agent 都经过 Nemotron 模型的后训练和微调。每个子 agent 都有不同的性格,或者说……Nemotron 是 NVIDIA 的模型。Nemotron 也就是 NVIDIA 的开源模型,我们会从权重层面开放这些模型,同时也会开放预训练数据集,这样你就能针对自己的领域去定制它们。单就子研究来说,我们有擅长批判的,有擅长收集事实的,还有擅长观察前方、预测接下来会发生什么的。
Joe Davis:我们和 ServiceNow 的合作,就是把这些专门的研究能力用在真正的业务场景里。我要把这件事说得非常清楚:这不是一个理论设想,而就是 ServiceNow 的实际工作方式,所以它确实直接应用在我们的公司里。 [00:04:37]
Adel El Hallak:所以我们会针对不同用例使用一系列模型,从前沿模型到微调模型,再到我们在 ServiceNow 自有 GPU 集群里、运行在 NVIDIA 软件上的模型。这里永远都会有一个准确性和效率的取舍问题,你需要决定把什么任务交给哪个模型。所以,这一整套方法,Adel 刚才描述的那一套,对 ServiceNow 的运行方式同样完全适用。 [00:05:10]
Joe Davis:好,所以你们是在和 NVIDIA 一起微调模型,也在和他们一起做开源应用和某些治理层面的事情。没错。那我就直接问了,为什么偏偏选 NVIDIA 来做这件事?如果你去问一个普通的 AI 观察者,甚至包括我自己,很多人可能会觉得,哦,你们应该去找那些大的基础模型实验室。
Adel El Hallak:我们当然也和很多公司有合作。只不过,我们在 NVIDIA 身上学到的是:我们有自己独特的做法,就是希望在自有硬件上运行模型,同时也会在数据集和基准测试上发力,去推动前沿模型进步。我们之前还没提到的一点是,我们会一起发布基准测试,而前沿模型会拿这些基准来训练,从而把我们共同关心的、真正聚焦企业场景的那些用例做得更好,让我们的企业客户受益。
Joe Davis:我们会借助和这些前沿模型之间的合作,把这些基准往前推一点,结果我们其实是让双方的共同客户群都受益。 [00:06:23]
Joe Davis:这挺酷的。所以当别人说模型厂商在“benchmark hacking”时,你们反而是说,拜托,尽管这么做吧?因为你们一旦去优化基准,最后对我们就会更有利,也会直接帮助我们的客户。对。好,那我们现在就具体聊聊这项真正的合作。我觉得我们得先从 OpenClaw 这个话题讲起,因为我觉得这就是整个故事的起点。Joe,你能不能先讲讲 OpenClaw 的兴起,以及它到底是什么?外界普遍觉得它就是装在 Mac mini 上、而且不能碰任何重要东西的玩意儿。但也许事实并不是这样。那我觉得,先定义它到底是什么。 [00:07:53]
Adel El Hallak:当我们谈 OpenClaw 的时候,得先退一步,问一句:我们到底要解决什么问题?人们希望有数字助手,去处理工作场景里那些原本要自己做的行政事务。比如你得管理收件箱,得管理 Teams 和 Slack 频道,也就是这些沟通渠道。你还得读、得写研究报告。你还得给客户和同事发消息。你要做的事情很多,很容易越堆越多,然后开始落后。于是这些智能体就被设计成 24 小时、7 天不间断运行的数字助手,它们可以在电脑上运行,并且能访问和你作为员工、作为个人一样的信息,然后代你采取行动。这就是它被广泛传播的原因,也确实非常有用。但我们看到的现实是,人们还不太信任它们。 [00:08:19]
Joe Davis:它们有点没被治理,也没有边界。力量非常大,但也很难控制。所以这些可能接管你工作的智能体,好的一面是它们能替你干活,坏的一面是它们也可能真的接管你的工作。 [00:09:46]
Adel El Hallak:所以企业场景里确实存在信任缺口,而我们真正关注的,就是怎么弥合这种缺口,把控制力和某种程度的无边界自治结合起来,形成一个足够好的组合,去帮助我们的客户在这种技术下真正繁荣起来。
Joe Davis:我特别喜欢 Joe 刚才用的那个词,unbounded autonomy,也就是“无边界自治”,因为我觉得 OpenClaw 恰恰把这种能力展示给了全世界。
Adel El Hallak:对,模型变得更好了,harness 也进步了。我得给 harness hive 点个赞,这是我最喜欢的词之一,所以向 harness hive 致敬。harness 变好了,运行时也更安全了,但我觉得 OpenClaw 最令人兴奋的地方,是它让所有人都看到了无边界自治到底能做到什么。OpenClaw 也成了 GitHub 上增长最快的项目。你看 Linux,它在几周内就超越了 Linux、超越了 React。那种兴奋是真实的,那股热度也是真实的。可按照 Joe 的说法,我们的 CISO、合规官会从企业角度谈一种“致命三元组”:也就是把无过滤的互联网访问、知识库访问和代码终端访问这三样东西混在一起。三者里有两样没问题,三样一起上,就会让你开始想,正如你说的,它真的可能接管你的工作。所以,无边界自治展示了赋能个人生产力的力量,而这种个人生产力正是我们都想要的。
Alex Kantrowitz:但关键还是你怎么把控制措施真正放进去,这样你就知道它不会失控。好,我们把这个问题落到实处。当 OpenClaw 刚出来的时候,名字其实改过很多版。
Joe Davis:但归根结底,人们拿它做的事情,是把它放到一台单独的机器上,给它一个邮箱地址,然后比如说——我举个例子——我想在意大利租一辆 Vespa,它就会联系罗马的 50 家 Vespa 服务商,然后帮你预订。
OpenClaw 的企业治理
Joe Davis:比如,它会联系罗马 50 家 Vespa 提供商,然后替你订到最便宜的那个,或者在你指定日期有空的那个。那些都不是理论故事。
Adel El Hallak:它找到了 Vespa 门店,但它没法在线和对方沟通。于是它会先去下载一个文本转语音模型,再拿这个模型打电话给 Vespa 店铺,用语音去完成预订。你只要给它一个条件,或者说你想达成的目标,它就会自己想办法实现。没错。 [00:10:50]
Joe Davis:我觉得这就是这类东西最神奇的地方:它们会自己想办法硬闯出一条路来。我想,传统 LLM 遇到这种情况,大概就会说“算了,我不知道答案”或者“我帮不了你”。可这些智能体不一样,它会想:哦,Adel 给了我一个任务,而且我能接触到各种各样的工具,我还可能能上网。
Joe Davis:于是它就会去做一些完全跳出常规的事情,想办法把目标完成。某种程度上,这些智能体就像迷你工程师。你想想工程师能接触到什么:他们有很多上下文。
Adel El Hallak:所以它们能阅读网上的内容,能接触到一定量的私有信息,还能写代码、部署代码。于是你几乎就拥有了一个会自我进化、会学习的迷你工程师,去完成你需要的任务,尽管它一开始并不是为这个目的而构建的。这也是我觉得最棒的地方:这些小型迷你工程师可以 24/7 运行,自我进化,替你解决问题,而且它们的运行速度就是机器速度。没错。 [00:11:19]
Alex Kantrowitz:这不是人类的速度,人类还得去阅读、学习,对吧?没错。每次我把一大份文档丢进这些 bot 里,它们都会说“好,我明白那是什么了”。我心里就会想:怎么做到的?
Joe Davis:可你们这么描述之后,我的本能反应其实是:这在企业场景里肯定行不通,对吧?而显然,答案就在这里,我们已经坐在这里,而且你们真的做成了。所以能不能谈谈,围绕发布一个类似 OpenClaw 的 bot,需要考虑哪些因素。你们这套东西叫 Project Arc。它到底怎么才能真正落地?因为我在想,好,如果一个 bot 对完成目标这件事毫不妥协,我们都知道当人类被赋予这种目标时会做什么。更何况这是一个能机器速度运行、又能接触到比普通人多得多信息的 bot。老实说,如果我要把它推向生产环境,我会被吓个半死。所以这是一项很有挑战的技术机会,而这也正是这次合作的核心。 [00:12:24]
Adel El Hallak:那我们就来描述一下这个新产品到底在做什么。首先,它是在企业场景里,所以这不是那种今天 OpenClaw 可能更多被当作个人助手来用的工具。我们想让它真正完成有意义的工作,所以它面向的就是企业环境,也就是全球最大的那些公司。我们关注的核心问题是:你怎么创建一个安全的环境,明确地选择这些智能体能访问哪些数据和文件,以及由什么策略去强制约束它们?
Joe Davis:这其实就是 NVIDIA 介入的地方。我们希望和他们一起做 OpenShell。也许你可以讲讲 OpenShell 以及它怎么帮助实现这些。 [00:13:49]
Adel El Hallak:当然可以。回到“操作一个智能体到底需要什么”这个问题:你得有模型,或者一组模型;你得有 harness,也就是它可以访问的一整套工具;你还得有运行时。我们这里有一个开源的安全运行时,它位于基础设施和智能体之间。它的作用是定义一个智能体在运行时能做什么、能访问什么、能读什么、能从哪里读、能往哪里写、应该路由到哪些 LLM。
Joe Davis:你说的运行时,是指它运行的时候,而不是之后,对吧?对,对,就是运行时。没错,正在执行的时候。
Adel El Hallak:对,运行时。与此同时,它还会管理、启动 sandbox,也就是在沙箱里运行这些智能体。
Adel El Hallak:所以你是在维护那些控制和策略,而这确实是我们合作里非常基础的一部分:你相当于把策略先设好,就像我们在给人类员工办理入职时做治理一样。你不会一上来就给他们开通对整台机器和所有内部系统的访问权限;要看他们的角色和任务。
Adel El Hallak:它们的权限是被限定的,能看什么、能调用哪些 API,等等。我们就是通过 OpenShell 来做这件事,确保提供正确的沙箱,并且能在运行时强制执行策略。这个合作最美妙的地方在于,围绕 AI control tower 有很多讨论,大家都在问它到底和 AI control tower 有什么关系。所以现在把这个问题交给你,我们来聊聊。 [00:15:37]
Adel El Hallak:这段概述很好地说明了我们在每一台桌面上都需要的核心能力:一个可以被治理的安全环境。我们从 OpenShell 开始。ServiceNow 是一家云公司,而在企业环境里,我们已经运行在这些公司的各个系统中。所以接下来,我们会有一个桌面应用,它会运行在那个沙箱里,并连接到我们的云端。然后你就可以让这个智能体执行动作。
Adel El Hallak:这些动作都由 OpenShell 来强制约束。但现在我们又能接触到云端,可以从桌面一路做到云端的完整动作。我们的 AI control tower 就能看到整个公司里这些不同的 OpenClaw 是怎么运行的,给它们可见性,同时也提供云级治理。比如,你可以看到单个用户机器上出现了哪些不同的攻击面。
Joe Davis:这就是我们的 AI control tower 为整个方案补上的那一层。你还可以把策略往下推,对吧?你可以为 X、Y、Z 任务定义公司级策略,然后通过 AICT 去管理它们。
Joe Davis:所以它就是那个治理层,确保这些智能体表现得正常。好,我想问你们俩两个问题。我最近和 Mark Cuban 一起录了节目,而且播出没多久。他对 AI 提了一个很有意思的观点:你可以把它看成新入职的员工。好,他们可能并不能完全理解所有政策,但至少会理解自己的行为后果。比如,为了达成目标,他们大概率不会给某个人发一封“你被解雇了”的邮件。Cuban 说的是,AI 并不理解自己行为的后果。他把它比作三岁或四岁的孩子,把奶瓶扔到地上,觉得这样就能得到自己想要的东西。所以我想听听你们怎么看:当 AI 在行为失当时,它并不真正理解后果,你们怎么让它们去做这些事?而且一切听起来都很好,对吧? [00:16:54]
Joe Davis:你把它限制在这个 OpenShell 架构里。另一方面,AI 又是概率性的,对吧?这就是问题所在。你每次得到的答案都不一样。所以你怎么确保它会一直待在这些参数之内?
Adel El Hallak:这是个很好的问题。我先从一点说起:我同意你的前提,模型并不一定像人类一样有道德和伦理。我们本质上也认为这是真的,这也是为什么我们需要一个解决方案去引入治理,而在智能体场景下,这一点更重要。因为,也许你知道,去黑进 Workday 看看我的薪资并不道德。对吧?你应该知道不该这么做。但智能体不知道,而它们却有能力这么做。所以我们非常依赖治理和安全,确保在运行时权限和信任机制都到位。这也正是我们的 AI control tower 方案真正想为企业做的事。对,control tower 就是你设定边界的地方。
Adel El Hallak:但你怎么知道它们会听?关键就在于运行时会强制执行。你可以把它想成这样:某个 AI 可能做出决定,说,嘿,我想去更新你在 Workday 里的薪资。现在这个 AI 有了身份,我们会给它这个身份,也会给它权限,而真正允许它去执行、去访问其他系统的,是我们。换句话说,我们可以阻止它,也可以拦住它。这是一个我们 100% 可控的确定性机制。 [00:18:49]
Adel El Hallak:对,明白了,所以……
Adel El Hallak:我想补充一点。默认是“不允许”。当你启动 OpenShell 时,运行在沙箱中的智能体默认就是拒绝。你需要明确地给它开通非常具体的进程或操作权限,让它去执行。然后如果我可以继续说,OpenShell 是智能体的运行时。别忘了,还有其他保护层、合规层和护栏层。LLM 护栏也还在。
Adel El Hallak:这些并不是被我们刚才说的 OpenShell 运行时替代掉了,它们是彼此叠加的。也就是说,LLM 护栏依然存在,确保它不会说出不道德的话,
Adel El Hallak:这些东西是用来补充运行时的,告诉系统一个智能体能做什么、不能做什么。那那些说智能体突破护栏、虽然不能用互联网,却还是会趁开发者吃午饭时给他发邮件的故事呢? [00:19:54]
Joe Davis:我会把那理解为:沙箱没有被真正强制执行。也就是说,你让智能体访问了你的邮箱,只是你自己可能没意识到。
Adel El Hallak:没意识到,或者那个环境对某些能力默认就是“允许”。所以,默认拒绝真的是一个很大的安全网。你只需要明确勾选你认为可以开放的能力。
Joe Davis:我喜欢这个默认拒绝。我得把它加进去。对,这就是 deny by default。默认拒绝。默认拒绝。零信任也是另一种理解方式。没错,零信任。那再回到一个问题:概率性和确定性之间的关系呢?好吧,这就是为什么你……Joe,你先说。
Harness 与 L1 自动化
Adel El Hallak:这时候就该轮到你最喜欢的 harness 话题了。核心位置上有一个 LLM 在做推理和规划,但它外面有一层 harness,提供了大量确定性。这个确定性里包含治理、安全、信任、集成和权限,而这正是整个系统真正能够运转起来的原因。也就是说,核心确实是一个概率模型,但你会在外面构建大量确定性,让它安全可用。
Adel El Hallak:我再往前推一步。我们讲的是这些会自我进化的智能体:你只需要描述你想要的结果,也许再给它一点提示,告诉它可能需要访问哪些工具,然后它就会自己去找达成目标的方法。现在在我们的领域里,正在出现的一件事是:当你有一些重复性任务时,你可以把这个任务封装成一个 skill。 [00:21:44]
Adel El Hallak:这样一来,我每次回到智能体面前说,嘿,每周五我想和 Alex、Joe 在纽约一起吃午饭,它就不会每次都重新开始:嗯,我得先搞清楚 Alex 是谁、Joe 是谁,还得找 Adil 的日历在 Exchange 里的哪儿。它会说,为什么不把这个封装成一个 skill 呢?skill 就是一组用人类语言写出来的指令,用来告诉系统怎么达成那个结果。
Adel El Hallak:你还是在用 LLM,所以你不可能获得完美的确定性,但 skill 可以把结果导向你想要的那个 outcome。skill 也是 harness 会利用和调用的一部分。skill 的另一个好处是,不用每次都让它从头推演如何安排每周一次的午餐,这样执行工作流会更高效。对吧?
Adel El Hallak:所以,我们和 ServiceNow 的合作里有一个很激动人心的部分,就是他们说会提供 20 个 autonomous agents。这些是对 Project Arc 的补充。也就是说,你会有这些在各自领域里非常擅长解决特定任务的专用智能体,它们更偏向你想要的那种规定式工作流。
Joe Davis:那能不能请你们中一个用最简单的英文解释一下,harness 到底是什么? [00:22:37]
Joe Davis:我的意思是,我们俩都可以试试看。好。你先来?
Adel El Hallak:可以。你可能也会听到 orchestration 这个词。为什么我们不直接叫 orchestrator,而叫 harness 呢?你不觉得这样会更好吗?我平时和谁说话,会根据对象不同,把这两个词混用。Adel 对这个词很有强烈意见。
Adel El Hallak:不不不,因为另一个词本来是 scaffolding。对,scaffolding 才是另一个说法。所以我想为 harness 辩护一下,我为什么更喜欢这个词。
Adel El Hallak:在我看来,harness 就是你给模型开放的一整套工具。模型加上 harness,就构成了运行时里的一个智能体。它可以访问文件系统,可以访问你明确允许它使用的工具,比如代码解释器或者代码工具,也可以访问 MCP 工具或者 skill。所以它指的是一套你已经定义好、并且带有明确偏好的工具,而且你知道这些工具和你的模型配合起来效果很好。
Adel El Hallak:以前人们总是说,模型越好,智能体就越好;模型越强,智能体就越强。可最近,围绕智能体的一个新热点,就是 harness engineering。harness hive,harness engineering,这已经成了一个流行词。确实有很多研究表明:harness 的改进,会直接转化成智能体表现的提升。所以对我来说,harness 就是围绕模型的一切。 [00:23:41]
Joe Davis:这说得非常到位。我觉得这是个完美的定义。
Adel El Hallak:我再补充一点。harness,也就是 orchestrator,本质上是一个为了完成某项任务、明确任务而运行的循环,它拥有工具访问权限去完成那个任务。而你给这个 harness 定义了哪些工具,也就决定了不同 harness 之间的差别。比如,如果某个 harness 有写代码的能力,它就能做很多动态的事情;如果另一个 harness 不能写代码,那它就更静态、更预设一些。所以,你给这些不同 harness 配什么工具,会显著影响这个环境里的智能体能做什么。
Joe Davis:好,那我们把话题拉回现实。我们能不能举一个真实例子?因为我们一直在聊你们是怎么做的,但我们其实应该直接聊已经上线、正在生产环境里运行的产品。什么是 L1 AI IT specialist?这个名字也太长了。 [00:24:37]
Joe Davis:光是把这个名字记住,我们就花了好几周。我真不敢相信你能说对。你还真说对了。我都不知道自己能不能说对。我们这个节目标准很高。确实不错。我们很认真对待这件事。
Adel El Hallak:那我就快速讲一个例子。我们的主要用例之一是 IT,也就是 IT 服务管理。它真正的意思是:公司里会有员工,事情会出问题。比如他们想访问一个应用,却访问不了。就像我得和别人开 Zoom 会议,但我没有 Zoom;或者我想打开邮箱、浏览器,但它卡住了,打不开。公司在这些环境里要支持的各种问题很多。过去通常会怎样?他们会提交一个支持请求,也就是我们说的 incident,意思是:嘿,我需要 Zoom,但我没有,能给我开通吗?对面的人工会接到这个请求,说,好的,我去某个环境里给他开权限,然后就走开了。这可能要花上几天,因为有积压,还有别的事情在处理。于是,从有人需要 Zoom,到他真的拿到 Zoom 的整个解决时长,可能会拖很久。
Adel El Hallak:而这个自动化 IT specialist 做的事情,是有一个始终在后台运行的 AI,所以它是 ambient 的。等这些请求进来时,它就像第一道分诊:先看一眼请求,做一些深度研究,然后判断,我能不能解决这个问题?我能不能直接由 AI 自己给他开通 Zoom 权限?harness 就是那个说“可以”或“不可以”的东西。没错,正是它在治理这件事。我们看到,解决时长最多能缩短 99%。如果 AI 五分钟就能搞定,你就不用等人工好几天。只要这些东西运转正常,解决时长就会被大幅压缩。 [00:26:46]
Adel El Hallak:而且它实际上是在解决工作场所里最烦人的那些问题。
Alex Kantrowitz:比如你刚入职,想安排个会议,却没法下载 Zoom,还得等三四天,直到有人给你开权限?哪怕只是几个小时,我都会很崩溃。没错。也许你要见客户,而且特别紧急。结果大家只能绕开系统来工作,而这往往就是漏洞出现的地方,我猜。 [00:27:30]
Alex Kantrowitz:我再往前推一步。Joe 刚才提到一个很重要的点:它先做一些分诊,然后就能判断,嘿,它可以自己解决,对吧?
Adel El Hallak:它会做深度研究、读文档、看它收到的截图。真正看它后台在做什么的时候,你会觉得很酷。但如果它判断自己没法以足够的把握解决,它会给人工支持提供一些很棒的上下文。是工程师吗?我们叫他们 support 吗?对,support engineer。没错,support engineer。它会为那个 case、那个问题提供上下文。它会说,嘿,顺便说一下,我不觉得这是重置问题,我不觉得这是 Zoom 权限问题,我觉得是别的地方被堵住了。它会提供一个起点,让人工可以在此基础上继续推进,去解决那些更难的问题。
Alex Kantrowitz:对,而且我觉得 ServiceNow 现在已经把多少工单自动化了?是这个吗,80% 到 90%?我听 Bill McDermott 在 GTC 上说过,L1 工单已经有 90%…… [00:28:37]
Joe Davis:所以在 ServiceNow,我们会“喝自己的香槟”,我想这是你会用的那个说法。我们用 ServiceNow 来运营 ServiceNow。
Joe Davis:这说法挺好。还有别的说法能用那个吗?其他说法大概就是……呃,dog food?我猜也可以吧,总之这是另一档节目,我们可以聊聊 dog food,那是纽约那一期。那是午饭后的那期节目。好吧,没错。
Joe Davis:对,我们已经把 90% 的支持请求问题自动化了,所以大多数问题都能立刻解决,别人也不用再等。那你们能不能聊聊,你们觉得这类技术还有哪些其他用例会很有意思?IT 听起来很直接。我们能不能稍微放开想象一下?它还可能在哪些地方真正落地?而这也是我觉得合作正在真正融合的地方。你看,怎么判断什么场景相关,最好的方式就是去看今天人们都在做什么工作。 [00:29:38]
Adel El Hallak:然后再看看,怎么通过自主 AI 去增强它、做同样的工作。这就是我们看待这个问题的方式。所以当我们思考“应该怎么部署 AI、该先做哪些用例”时,我们会想:嘿,这里有 HR service desk,这里有 CRM 呼叫中心。我们应该在那些地方做同样的事情。我们应该像加入其他人类员工一样,把 AI 加进团队里。
Joe Davis:对,我们最近在频道里和 ServiceNow 的 Jackie、Kelly 聊过。其中一件事他们提到的是,销售人员通常想搞清楚自己到底拿了多少佣金,这往往是个很长的流程:你得去找 HR,然后他们还要算数,最后再把到目前为止你赚了多少钱告诉你。这样一来,你就没法做预算决策;你得等四天,然后才可能拿到答案。现在你看,流程本身今天就可以被自动化,他们能立刻拿到答案。作为一个前销售人员,这会让我非常开心,虽然最后算出来的数字通常还是太低了。我的职业生涯就是这样。我们就先停在这里吧。我的意思是,当我们两三年后回头看时,你们觉得哪些事情到那时会变得显而易见、但现在还不那么显而易见?我甚至觉得,这整场“智能体对话”本身就有点超现实。你知道,我们在节目里以前也预测过,2026 年之前会是智能体之年。那时候我还说,得了吧,别闹了。我已经听过太多次“移动之年”“智能体之年”了。去年本来据说就是智能体之年,但现在回头看,嗯,确实已经到了这一步。那往前看,下一步是什么?哇。 [00:33:30]
更视觉化的企业沟通
Joe Davis:说起来真有点超现实,我们现在就在聊智能体。你知道,在节目里,我们以前也预测过 2026 年会是智能体之年。我当时心想:算了吧,我都听腻了“移动之年”“智能体之年”这种说法。去年本来也被说成是智能体之年,但现在回头看,嗯,确实很明显我们会走到这一步。那往前看,下一步是什么?唉。 [00:30:17]
Adel El Hallak:哇。我觉得吧,我们现在在做的是 agentic AI,对吧?LLM 已经变得很强,harness 也变强了,运行时也越来越安全,我们正在把合规这一块补上。我觉得还有一个物理 AI 的世界,我们才刚刚摸到边。
Adel El Hallak:我本来以为你会说机器人。对吧?是啊。我不想把这个词用得那么泛,但对,没错。我最近听到有人说,三年后我们回头看,会说:嘿,你能相信吗?人类曾经真的亲自操作过重型机械。我很喜欢这句话,因为我的孩子还小,但这也是我会担心的事之一,比如在加州 17 号公路上开车,对吧?所以我期待有一天,我的孩子会对我说,爸,你以前真的会亲手去操作这些东西,对吧?不过说到底,我觉得我们现在谈的是治理。你看 AI control tower,它治理的是人类,让人类能看到智能体在做什么;它也在成为智能体的治理层,让智能体理解其他智能体在做什么,并把这些信息带回给人类。我觉得再过几年,我们会坐在这里讨论 AICT 如何同时治理人类、智能体和机器人,以及物理资产。
Adel El Hallak:从我的角度看,我真的更聚焦企业场景。真正能在整个企业里实现有意义 AI 采用的公司,其实还只是少数。所以我想到未来几年,重点会是那些极其复杂的业务场景里的采用和部署。还有,我也不会惊讶如果几年后,除了 LLM 之外还会有别的东西开始变得流行。现在已经有很多研究在尝试突破可靠性这个问题,而可靠性正是我们对 LLM 的核心认识之一,也是我们有时不得不绕开的地方。但我觉得这种可靠性和准确性,也就是你说的 hallucination,我不会惊讶看到未来几年会在这方面出现一些突破。 [00:32:55]
Adel El Hallak:在我们结束之前,我能不能也说一个?
Joe Davis:嘿,伙计,我很想听听。我们本来也想问你。
Joe Davis:我觉得这两种判断都很有可能。我觉得内部沟通,或者说一般性的沟通,都会越来越视觉化。我们现在就已经处在一个视觉沟通的时刻了,我是说,我们现在就在录视频。我最开始其实是靠写字起步的。我只是觉得,这件事会继续加速,尤其是当你看最新的 AI 图像模型进展时。即便有些人已经放弃了,AI 视频模型也一样。你把它放到企业场景里想一想:无论你要理解的东西有多复杂、多个性化,你能不能随时生成一张信息图,或者一段视频讲解?
Adel El Hallak:我觉得这就是一个效率和优化的问题。技术已经在那里了,接下来只是看怎么把它规模化、做得更高效,模型也会越来越好。所以我同意你的看法。好,我也同意你的看法。对,这个观点我也很喜欢。
Alex Kantrowitz:Joe、Adel,谢谢你们。很高兴和你们聊这次。谢谢邀请我们来这里。太棒了。好了,各位,非常感谢收听。我们很快会在频道里带来下一期节目。