目录
- 产品重构与文件系统上下文 [00:00:00 - 00:10:00]
- 上下文压缩与模型进展 [00:10:00 - 00:20:00]
- Anthropic竞争与平台定位 [00:20:00 - 00:30:00]
- Harness机甲与多模型适配 [00:30:00 - 00:40:00]
- 模型分化与OpenAI合作 [00:40:00 - 00:50:00]
- 模型性格与共享上下文 [00:50:00 - 01:00:00]
- 未来软件平台与可靠控制 [01:00:00 - 01:10:00]
- 供应商快问与收购传闻 [01:10:00 - 01:15:57]
产品重构与文件系统上下文
一凯:欢迎收听跨国串门儿计划。这是一档专注于让中文听众无障碍,欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的AI、财经健康与科技领域精品内容。我是主播一凯,一位热衷于AI领域的产品经理,很荣幸能为您搭建这座跨越语言障碍的桥梁,接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话,本期我们克隆的是知名播客Cognitive Revolution的一期深度对谈,主持人Nathan Labenz与Tasklet创始人兼CEO Andrew Lee坦诚交流了通用AI Agent 平台的技术战略与商业博弈。Andrew是第四次来到这档节目,他坚信速度是唯一的护城河,过去半年带领团队,把整个产品技术栈彻底重写了一遍,在节目里,他有三句原话让我印象特别深刻,过去六个月里,基本上每一行代码可能都被动过了,我们大多数基础假设都被推翻了,我们真正需要的是一个保存你历史的文件系统,然后实际发送给LLM的指示提示,我们想做的就是成为那个取代知识工作者,所有SaaS产品的AI Agent 平台,这些话背后有着很长的故事,现在就让我们一起走进这期完整的对话,大家好 [00:00:54]
Nathan Labenz:欢迎回到Cognitive Revolution。今天我很高兴,请来了观众最爱的嘉宾 Tasklet的CEO Andrew Lee。这是他第四次来我们播客。Andrew一向非常透明坦诚,他相信速度是唯一的护城河,这让他毫无保留地分享Tasklet的Agent 架构细节,你接下来会听到,过去六个月里 Tasklet又完全重写了他们的技术栈,现在他们大量利用文件系统,上下文和agentic搜索,来充分利用已有信息,同时节省token。另外,他们还大幅加强了多个分辨率级别的摘要总结,这次我们也会深入探讨Andrew和Tasklet 面临的微妙战略局面,他们一直压住模型的产品策略,被证明是正确的 Andrew对Claude的选择也得到了回报,但Andrew观察到,现在大家其实都在做一样的东西,如今他最激烈的竞争对手,实际上来自于他的关键供应商 Anthropic 后者通过Claude Max账户,让他们的直接客户,能以同样的价格,比Tasklet通过API购买,多出大约5倍的token 从微观层面看,这种token成本较高的情况,导致Tasklet继续使用Opus 4.6 而没有升级到新的4.7 从宏观层面看,这正推动Andrew和团队变成一个水平平台,能够接入,或者用Andrew的话说,给任何提供商的先进模型穿上机甲套装,来利用他们这种演变,我认为Andrew的应对和时机把握的差不多是最好的,这非常关键,因为水平平台,是Andrew认为,能在AI转型中存活下来的,三种软件公司类型之一,另外两类,是API优先的公司,比如Stripe 以及那些开发解决方案,直接售卖结果的公司,最好的例子,或许是Fin的模式,每解决一张客服公单收费 99美分,我们还聊了很多,别的,包括Tasklet新功能 Instant Apps 它们对于深度个人,与共享组织上下文的思考 Andrew看好的那家云容器公司 Tasklet的Token与人力成本比,以及扎克伯格在收购Manus被中国政府否决后是否找上门来,这一期很有趣,有很多宝贵细节,分享者正在赛场上拼搏,想成为少数通用AI Agent 平台的赢家,并且居然还愿意把所有事情讲给我们听,请欣赏我与Tasklet创始人,兼CEO Andrew Lee的对话 Andrew Lee 我们的回归冠军Tasklet的CEO 欢迎回到Cognitive Revolution。谢谢很高兴来到这里,你是观众的心头好,我今天会连珠炮四地问你一堆问题,确保我们能为包括我自己在内的开发者,观众们挖出尽可能多的干货,第一个问题,据我们上次聊天已经大约六个月了,你那个速度是唯一护城河的信条,几乎每周都在我脑海里回响,所以我想问,在我们上次聊完后的这六个月里,你们重建了什么,或者说得更直接点,有什么是你们还没重建的? [00:04:14]
Andrew Lee:对,我觉得这个信条没变,但基本上所有东西我们都重建了,我之前还在想,有些部分我觉得,哦这个没变,但实际上不完全重写了,所以从产品角度看,产品现在非常不同了,我们10月份发布时,他完全专注于工作流自动化,我们当时想,嘿如果人们能进来,描述一个工作流,然后我们帮他们运行起来,那会很酷,但很快我们就收到了反馈,一旦我把所有的上下文都给了这个agent 把它连到了我所有的工具上,我就不只是希望它运行我的工作流,我还希望能跟它同步的对话,所以它不再只是工作流自动化工具了,现在它是一个非常通用的agent 做工作流很棒,做其他类型的事情也很棒,因此这要求我们对产品体验进行彻底重建,结果背后的大量技术也相应重建了,举个例子,在工作流自动化工具中,在产品的上一版里,你基本上有一个主agent 你会跟他简短对话,来设置好你的工作流,一旦设置完成,你基本上就不再跟那个agent对话了,所以对话都很短,然后我们的系统会根据事件,定期启动我们所谓的任务 agent去执行,所以每个agent都挺短的,你可以用相当简单的上下文工程,就让它跑起来,但在那种你想要的能同步对话,还能运行这些自动化的,通用agent的世界里,产品体验上大家想要的,其实就是一个大一统的线性聊天,所有东西都在一个聊天里,从产品体验角度,这非常棒,但工程实现上会变得特别复杂,因为你不能直接把无限长的聊天历史,都喂给LLM 即便你能这么做,成本也会奇高无比,而且你也不想让每一次自动化任务,都把之前运行中产生的,一千万个token都发过去,所以我们不得不彻底重新思考,上下文工程的工作方式,提出这样的想法,如果我们不把历史,作为发送给LLM的内容,而是把历史放在文件系统里呢,让文件本身成为agent 马克之前也提到过这个想法,我觉得大家也已经摸索出来了,我们大概在11月做了这个切换,我们说好吧,我们真正需要的是一个,保存你历史的文件系统,然后实际发送给LLM的指示提示,提示它文件系统里有什么,以及需要读取哪些东西来完成工作,这样一来,我们就能把agent的规模扩展上去,包括能够发送的聊天消息数量,还有很多简单的部分,我们未来会扩展,但基本上你能从只能装进context window的内容,扩展到能装进文件系统里的内容,文件系统里能塞进多的多的东西,还有一堆其他东西我们也重建了,另一个我们重建的大模块是computer use功能,我们刚发布的时候 computer use起初只是一个附加组件,你可以配一台Linux机器,其实最开始是Windows机器,后来才换成Linux机器,它像是外挂上去的,也确实有点像是事后才想起来的功能,你可以用它来做某些事,它勉强能用,但你用agent做的大部分事情,其实跟它没关系,而现在computer use成了产品的绝对核心,所以基本上你做的所有事情,都是在跑shell命令,接触文件系统,接触数据库,我们现在有一个高度集成的浏览器使用体验,每个agent都有一个headless VM和一个浏览器虚拟机,这些虚拟机的状态能在多次运行间保持,让你能做出很多很酷的事情,而且它已经处于关键路径上了,所以现在如果我们的computer use功能挂了,整体就都挂了,而以前它只是个事后想到的东西,我们也重新思考了集成的工作方式,从产品体验上看,可能大家看不出太大差别,但我们把其他系统接入Tasklet agent的底层架构,彻底重新设计了,基本上是要让agent 对这些连接,有更多的控制和管理,一个简单的例子,产品体验上的改进,以前不能把多个,同类型的实例连进来,比如你不能在一个agent上,连三个不同的Gmail账号,而现在可以了,所以底层的架构都重建了,可以说在过去六个月里,基本上每一行代码,可能都被动过了,我们大多数基础假设,都被推翻了,但产品依然能做很多以前能做的事,而且希望比以前好得多。 [00:08:12]
Nathan Labenz:是啊,这很酷,所以基本上你是想不出,有什么东西,在过去六个月里还没变过的吧?
Andrew Lee:真没什么重要的留下来了,视觉设计完全变了,应用结构也完全不同,对,连接系统不一样了,我们使用计算机的方式不一样了 agent的核心不一样了,上下文管理不一样了,我们做compaction的方式也不一样了,所以全都是新的。
Nathan Labenz:好,我们聊聊这个 compaction 因为我觉得,大概在两次对话之前,我们得出的一大要点,就是缓存的极端重要性,你当时说长上下文,确实非常有效,但显然也很贵,而缓存,尤其是Claude那种,有90%折扣的缓存定价,对于让某些功能真正跑起来,而不把你的公司拖垮,是至关重要的,就像那个经典的梗,我的公司要挂了,听你这么说,现在情况变了很多,更偏向于指针提示这类方式了 [00:09:34]
上下文压缩与模型进展
Nathan Labenz:更偏向于指针提示这类方式了,那现在具体是怎么做的?而且显然, 大家现在在token上花的钱都很多。我自己在Tasklet上, 哪怕是最高订阅计划, 最近也经常碰到用量上限。所以你是为我做上下文管理的, 我应该了解什么, 从你这儿我能学到什么, 关于现代环境下最好地管理上下文的经验。
Andrew Lee:对,缓存实际上变得更重要了。因为现在真实的上下文都在文件系统里 agent做基础操作时,需要执行的工具调用,就多得多了,你得把一堆文件,加载进来,等等,所以我们如果不想,让成本飙到天上去,就真的必须让缓存,发挥好作用,这一直是我们,最关注的重点,我们在12月份上线了,一种新的上下文管理方法,基本思路是这样的,你把整个聊天历史,放进文件系统,这样所有内容,都可以在文件系统中,访问到,然后你找到一种方式,用固定数量的token 来归纳整个历史,其中把最近的内容,高粒度的放进去,比如你最后说的那句话,可能大部分,甚至全部都还在里头,还有越早的内容,保真度基本上是逐渐降低的,如果你有一段很长的对话,在当前这一轮,也就是正在运行的那个部分,所有的东西可能都还在,包括所有的思考块,所有工具调用的响应,还有各种文件什么的,大概率会根据运行的长度,发送给LLM 不过对于大多数较短的运行来说,情况就是这样,上一轮的内容,大部分也会在完整的用户消息,助手的回复,工具调用的参数,工具调用的响应,还有思考块,这些可能都有,但当你再往前回溯,我们就会开始去掉思考块,开始去掉工具调用的响应,或者至少是截断这些响应,再往前我们会截断工具调用的参数,接着干脆去掉参数,然后开始折叠工具调用压缩助手消息,最后我们会用基于LLM的摘要来处理,我们是按时间段分桶来做的,这样能尽量减少对缓存的影响,基本上你是想尽可能避免动到前缀,所以时间越往前你就会进入不同的桶,每个统有不同的压缩级别,这些桶越旧,添加新内容的速度也越慢,一旦达到某个阈值我们就把它们压缩,这个系统实际上运行的挺不错,核心理念就是你通常更关心近期的东西,并且你信任agent在需要时自己去查,我得说它并不完美,确实有人反馈agent会忘事,运行成本也确实很高,但我觉得整体还行,我们的计划是继续深耕这种架构,而且我们有很多改进的想法,不过这种越往回保真度越低,并且分桶做缓存感知的方式,我认为是正确方向,那么这个缓存多久更新一次,比如我有一个每天运行的agent 你们会尽量让缓存在
Nathan Labenz:隔天仍然有效吗,还是说,每天都会有一个全新的缓存,走完整个会话和所有交互,然后第二天又重新开始,或者说,重新开始的频率是怎样的 [00:12:49]
Andrew Lee:这里面有两部分,一是我们这边何时更新,也就是我们决定,送入LLM的压缩历史是什么样的,二是在LM端,我们做怎样的缓存,前者的答案是,每次有任何操作时,它都会增量更新,甚至在运行中间也可能更新,如果一个轮次特别长 token很多,可能就会在那一轮里,开始压缩,我们持久化这些,压缩结果的原因,是因为计算压缩的成本很高,比如对较早的部分,做基于LM的压缩,会吃掉大量token 如果你每个小时都跑触发器,每次启动都要压缩一大段历史,那就太贵了,所以我们会把这些都保留下来,在模型侧的缓存,则取决于具体用哪家供应商,以Anthropic为例,我们用的是五分钟缓存,所以它不会保留很久,这背后的假设是,你要么在活跃绘画中,要么在一轮对话的中间,这种情况下,五分钟缓存就够了,或者你是在等,下一个触发器运行,而大多数人的触发器,不会每半小时跑一次,而是每几小时,甚至每天跑一次,所以那种要跨长远缓存的情况,并不常见,不同的供应商,有不同的缓存方案,比如OpenAI 就有更好的缓存原语,我也很乐意聊聊那些,这挺有意思,所以基本上是持续维护 [00:13:57]
Nathan Labenz:高层摘要,用来喂给LLM 然后用很短的那种,单次突发式缓存,来降低单次agent运行中的,增量调用成本,听起来至少,对于Anthropic来说,缓存命中
Andrew Lee:通常只限于一次运行期间,大部分跨运行的缓存,是命不中的,这是目前的做法,有一点我想提一下,我们现在的系统构建方式,基本上跨用户,是没有缓存收益的,实际上即使是,每个agent缓存,也是按agent独立的,我们可以做一些改动,跨agent甚至跨组织和用户,做大量缓存优化,但我现在不想谈具体细节,因为那还是将来的事 [00:14:32]
Nathan Labenz:但我觉得跨agent这块,确实有很大的省钱潜力,好的这很重要,好我想绕回来,聊聊OpenAI那个问题,因为你们一直算是 Claude的坚定派,而且你们另一句,让我经常想起的话,就是永远押注在模型上,我觉得可以说,这个押注在过去六个月,确实走得很顺,很明显我们看到了一些,最引人注目的模型,发布社区普遍把4.5和4.6 看作某种质变,不少任务,从跑不通变成了跑得通,大家的反应是,哇,我现在真能靠这些模型,稳定地完成挺通用的知识工作了,现在我很想听听,你如何描述我们看到的这些进展,或许你可以谈谈,哪些新用例被打开了,有没有什么让你意外的地方,还有考虑到已经能做这么多事,有哪些事居然还做不好,这也挺让人意外的,然后我们再来聊最新的模型,所以先给我讲讲 4.5、4.6的历史 [00:15:53]
Andrew Lee:然后再谈 4.7 和现在的 5.5。是的,我觉得整体上永远压住模型的策略,我完全同意,确实经受住了考验,我们刚开始做Tasklet的时候,用的是Claude 4 那个模型其实能走挺远,效果相当不错 4.5是一个重大的突破,它在做计算机操作上,好用了很多,能更好的处理各种连接工具和启用流程这些,而且它是在Tasklet非常早期的阶段发布的,对我们来说是个很大的加分,另外 Opus的成本下降对我们也很关键,我记得大概是12月,价格一下子就降了下来,一开始我们基本上只能让大家用Sonnet 后来Opus的价格从15 降到了 5 这对我们又是一次大解锁,我觉得4.6是一次扎实的渐进式提升,在计算机操作上又更好用了,这对我们来说越来越重要,无论是headless还是headful,场景还是代码生成方面,而且它让我们能做Instant Apps这个功能,我觉得我们待会可能会聊到,那个功能非常酷,至于4.7我们实际上还没有推 4.7在某些方面强了很多,比如在写代码,做那种长项目的单次生成上,表现好很多,但对于我们支持的那种迭代式知识工作,它好像并没有带来特别大的飞跃,而且成本高了很多,他们做的token化改动,让我们的成本增加了大概30% 这对我们影响很大,因为我们基本上会把成本转嫁给用户,所以我们决定不把4.7作为默认推荐模型,我们还是会推出4.7 但会作为高级用户选项,如果用户想用的话,并且会注明它实际上贵不少,所以我觉得这方面的进展还是很棒的,我们一开始就一直这么专注 Anthropic原因是我们的agent的核心基础,比如它能在连接发现过程中导航,在agent里激活正确的工具,然后按它自己的方式管理上下文,这些核心内部机制需要一定的基础智能,其他模型根本做不到,你基本上没法用同一套harness在它们上面跑,还指望能正常工作,但现在情况变了,这让我们特别兴奋,不过完全依赖这一家供应商,也有点吓人,虽然他们很棒 Anthropic 的降档模型确实厉害,别误会我的意思,如果用那种思路,供应链风险其实无处不在,没错,但最近GPT-5.5已经变得非常好用了,我觉得对我们的用例来说,它比5.4有了巨大的进步,到播客播出的时候,我们大概已经公开宣布了,所以它很快就能上线,而且它在我们那套Harness上跑得非常好,我认为在大多数用例中,它都能和Opus 4.6 一较高下,所以这真的挺让人兴奋,而且我对OpenAI今年的路线图相当乐观,我觉得他们去年在算力上下了很大的赌注,现在正在显现出来,他们可能还会保持一段时间的领先,而且很明显,他们已经把业务重心更多的转向了我们这类用例,你看到Codex在大概六个月里的进展,如果他们把这股劲花在围绕这类agent用例的模型上,我觉得影响会非常巨大,我们前一天跟OpenAI签了协议,也会在那边发布东西,我们在那边也下了很大的赌注,不过其他地方也有进展,最新的Google模型已经相当扎实了,但在我看还没到Anthropic或OpenAI的水平,不过他们进步非常快,已经接近很多了,另外我们也在试用DeepSeek 和 Kimi 最新的Kimi据我们看可能比Haiku还要好,而且更便宜,所以我觉得我们很可能会看到这些模型被整合,进Tasklet 我预计在未来几个月里,我们会有Anthropic模型 OpenAI模型,开源模型、Google模型,我敢说Anthropic的模型仍然会是最好的,在大多数情况下也是最推荐的,但用户会有多种选择
Nathan Labenz:对某些场景也会有不错的成本优化选项,这么多后续问题啊,要不我们先聊聊,你和Anthropic之间那种微妙的舞蹈吧,我想象内挺微妙的 [00:19:51]
Anthropic竞争与平台定位
Nathan Labenz:我想象内挺微妙的,然后再对比一下OpenAI现在带来的东西,我不知道你可能清楚,当你买一个Claude Max订阅并用到上限时,API成本跟有效token成本的比例是多少,而且,很显然,自从我们上次聊过之后,出现了整个OpenClaw现象,它本身也带着跟你们之间的一堆戏剧性,你们可以用不能用,我们得付API价格,我们降低限额,我们从xAI买算力,然后又提高限额,从你的角度看,在一个你,一边在它上面搞构建,一边又在某种程度上和它竞争,而且它还在定价上,在不同层面压你一头的平台上,干活是什么感觉
Andrew Lee:没错,这确实是一种挺有意思的关系,一方面这些模型是真的很棒,对我们的用例超级好用,而且它们的团队也很帮忙反应快,我们经常和它们沟通,它们也在很努力地支持我们,我们能提前拿到东西,它们也听取我们的反馈诸如此类,所以他们绝对是完全催生了我们的业务,并且在努力让它运转起来,这很棒,所以是很棒的合作伙伴,我不想让任何人觉得我有什么别的看法,但另一方面,如果你看我们的数据,当有人离开Tasklet时,他们去了哪里,大约80%的用户都流向Anthropic的产品,他们是非常直接的竞争对手,我认为在不同的用例中,我们或者他们的产品会各自胜出,但很明显他们是非常直接的对手,而用户选择他们的头号原因,就是他们已经有了Max计划,不想再额外花一笔钱在Tasklet上,所以基本上,每次他们发布新模型更新时,我们都觉得这很棒很厉害,但每次他们发邮件说,你的Max计划现在更酷了,我们就惨了,这只会让事情更难办,而且他们肯定会补贴那个计划,这确实让用户对某个价位,能换来什么,形成了某种扭曲的预期,所以成本问题,一直是我们非常头疼的事情,我们得尽量帮助用户,更高效地使用产品,并让他们理解,嘿,我们其实是在,非常微薄的利润下运作,想尽办法让它对你们便宜一些 [00:21:37]
Nathan Labenz:这确实是一场有趣的博弈,你知道这个比例是多少吗,还是说,对你们来说也是不透明的,我不知道这个比例,不知道,对,有意思,感觉这个比例应该不小
Andrew Lee:凭直觉我猜,大概得有5比1 或者更多,但我不确定,我也会这么猜 5比1甚至可能更高,看起来确实相当可观,对,是的,那确实影响很大
Nathan Labenz:那么关于Anthropic的博弈,再问一个问题,显然,这也给了你们很大的动力去拓展,并尝试让自己定位得更独特一些,你怎么看这样一个事实,他们在打造产品体验,以最大化自己模型能力方面,具备先天优势,我意思是,我们现在越来越多地看到,模型是在第一方Harness中训练的,而且我对Harness这个词还有个问题,不知道,这到底是不是该用来思考,这件事的正确范式了,但你如何给自己定位呢,你之前提到,在某些用例下,你觉得Tasklet超过了你们,能从第一方Claude产品中获得的东西,我想问的是,这怎么可能会发生,考虑到他们掌握所有的内部知识,有提前准备的时间,还有那种紧密耦合的优势 [00:22:38]
Andrew Lee:你们要怎么去和他们自己,将要构建的东西竞争,从高层次看,我倾向于认为,大家其实都在构建同样的东西,现在有这么多不同的agent公司,基本上随着模型变聪明 agent也有了更多通用工具,比如计算机使用文件系统之类的,你就能够做非常多相似的事情,你可以用Claude Code 也能在Claude Code里,做各种非编码的事 Codex和Claude Code 还有好多其他创业公司的产品,都能相当好的完成编码和非编码任务,我觉得你可以在一定程度上做出差异化,而差异化的点真的在于你优化的是什么,以及人机工程学是怎样的,以我们Tasklet为例,你完全可以用Tasklet写代码,比如把它跟GitHub连上,让它生成PR 它做这个完全没问题,我们自己的市场营销工作就这么用,假如我们要发新博客文章什么的,我会在Tasklet里写好内容,然后让它自动生成PR 这都行得通,但如果是重度编码,它就不如专门的编码Harness 那么聪明,也肯定不如那个划算,而且使用起来也肯定没有那么顺手,因为专门的编码Harness 会嵌入到类似Conductor这种,针对编码工作流设计的东西里,而我们的产品并不是这么设置的,所以我看到一个未来,你可以随便挑一个AI Agent 然后几乎什么事都能做,但不同的agent 会有不同的成本和性能取舍,也会对不同类型的工作,有不同的人机功效,我们真正擅长的是,为公司提供7×24小时的知识,工作自动化,特别是那些不是个人工作,而是公司共同拥有的工作,举个简单的例子,比如公司有个复杂的开票流程,你不想让它在你本地,自己的工作环境里运行,对吧,万一你合上笔记本电脑,但公司还得给别人开票,那就糟了,你也不想把它放在OpenClaw里,再丢到角落的Mac mini上,因为万一有人绊掉电源线,你的开票就没法运行了,你真正想要的是它在云端运行,能让多人管理,而且周围有大量基础设施来做管理和监督,有审计日志有护栏,还可以控制不同agent的成本,所以团队支持这类功能,大家其实非常在意,而这也正是我们特别出彩的地方,要把这些做好,很多底层工作,其实和agent的构建方式紧密相关,我之前提到过,我们的上下文管理器,之所以把它设计成那样,就是因为你们希望能够用触发器,像定期消息那样发到agent里,这意味着,如果你有一个每次收到邮件,就触发的agent 它一年可能会运行个一万次,所以你需要的是一个,能运行一万次,还能记住对话开头的那些事情,并且行为始终靠谱的agent 这跟去优化一次编程会话,完全是两码事,你再看Claude Code那种重置上下文的方式,在编程环境里非常合理,但放到一个要处理你所有邮件的世界里,就说不通了,我觉得这就是我们的差异化所在,关于差异化我还想提几点,第一这个市场实在太大了,你看编程agent这个领域,你可能会说Claude Code和Codex明显已经赢了,但Cursor的估值都要干到600亿美元了,而且就算是排名第四第五第六的,比如Cognition活得挺好 Factory也活得挺好,连Windsurf虽然被卖了,也算是个很不错的退出,所以如果我们最后真成了第一名,我当然开心,但就算只是第五或第六名,那仍然可能是一个非常巨大的退出,最后一点可能也是最重要的一点,当我们去向企业推销时,我们真正想帮他们做的是在公司内部,真正把AI用起来,实现自动化,而典型的企业,他们可不想把所有时间都花在研究AI模型上,或是去读哪家实验室最终会赢,他们想选一个能持续服务好他们的平台,并且能随着时间享受到各家模型进步的好处,所以我们就可以进去跟他们说,嘿把注押在我们身上,不等于只押Anthropic或者只押OpenAI 或是任何一家;押我们,等于押注所有人,我们会给你提供Anthropic的模型 OpenAI的模型、Google的模型,还有所有开源模型,然后我们会在中间做一个中立的仲裁者,帮你决定具体用哪个,如果我们能进一步做出,帮你按任务选最合适的模型,帮你优化在不同模型上花销的功能,你就会信任我们,因为这些东西没有一件是我们自己的,我们从中赚的利润是一样的,我们是纯粹的中立方,但反过来,要是你回头去找Anthropic 他们目前就只有自家产品,即便他们以后决定在自己的产品里,也提供别的模型,虽然我觉得他们不会这么做,但即便做了,你有多大把握,他们会用一种中立的方式来做呢,所以我觉得这确实是我们推销词里,相当有说服力的一点 [00:27:59]
Nathan Labenz:我觉得你把这件事处理得算是最巧妙了,在能力曲线,还在跨越关键门槛那段时期,你先是压住Anthropic 几乎把宝都压在当时最强的模型 Claude上把它优化到极致,然后现在市面上已经有好几个模型,都能提供人们想要的那种性能了,你又顺势转向,变成了模型层,织上一个更中立的抽象层,这在当时可不那么显而易见,我不太确定,你是不是早就看透了这一步,但对我来说,真不是那么明显,大概半年前,我可能会觉得,你们那种all-in Claude的处境,挺玄的,但我觉得你在好几个层面上,时机都踩得很准,那你觉得,这里面有多少是远见和天才,又有多少是运气好呢,哈哈,我很高兴你这么想,这确实在很大程度上都是计划好的 [00:28:24]
Andrew Lee:而且我觉得效果真的非常好。对,我对现在这个结果很满意。
Nathan Labenz:好,我们先聊一下 harness 这个概念 harness 这个词本身总让我想到,要控制和驾驭某种野性难驯的动物,让它为你出力,尽管它可能更想干别的,过去十天,我带着孩子,开着特斯拉FSD 车跑了一趟长途,去了好多古迹,马跟我这FSD并置在一起,还挺滑稽的,不过我想说的是,就像对付一头不听话的牲口,我们现在也想让模型,老老实实走在正轨上,对吧,让它照你的意思做,而如今就像你刚才说的,我们有了更多办法去给模型提示 [00:29:32]
Harness机甲与多模型适配
Nathan Labenz:我们有了更多办法去给模型提示,比如告诉它,这儿有个文件系统,你需要什么可以自己去拿,我越来越觉得 Harness这个概念,或许已经有点过时了,现在我们在做的,更像是在说,这就是你活动的世界,重点不再是限制模型能干什么,而是拓展它能干什么,你怎么看这种在收窄和聚焦,与放开权限,解锁新可能之间的张力
Andrew Lee:现在模型的能力,有些时候,甚至会给用户带来惊喜,我之前倒没把harness想成一种约束,不过你提的这点很好,大家平时确实是那么理解这个词的,我更愿意把它想成一套机甲,对吧,我同意你的看法,目标就是让那个agent 或者那个LLM 能在真实世界里真正去做事,要做到这一点,它就需要存储,需要算力,得能伸手去连接各种API 还得能和用户对话,这里头涉及的东西非常多,我跟那些不太深根Harness圈子的人聊的时候,发现大多数人会以为 WireLM产品就是在模型上面,直接搭了一个很原生你打字,它回复的东西,他们以为屏幕上看到的东西,直接发给模型,模型就全搞定了,但那种印象已经越来越不准确了,把你看到的界面翻译成,对语言模型调用的背后,代码正变得越来越复杂,而且我觉得这趋势还会继续,这些Harness的复杂程度,将来可能会再往上翻十倍,但我觉得这里也会出现一些重大突破,让他们的能力大幅提升,尤其是在我们处理记忆的方式,进行监督和控制的方式,还有连接其他工具的方式上,所以我非常看好这里的机会,这些系统只会越来越复杂,而且说不定我们该起个新名字,也许应该叫它机甲而不是缰绳,你怎么看这个,我觉得这是现在AI开发者社群里,最有意思的争论之一了,到底哪个更重要 [00:31:20]
Nathan Labenz:是模型还是Harness 两边的极端观点都有,我收到过一些邮件说,模型已经不重要了,全是Harness的天下,反过来也一样,显然这两种极端都不对,不过我从历史上看,可能稍微偏向某一方,不知道你看没看过英国AI安全研究所BC 对,是安全研究所出的一张图,上面是能力随时间变化的曲线,一条是用极简Harness 就是那种最基础的原生配置,另一条是用当时最好的Harness 当然,两条线都在往上走,但一年前用最好的Harness 跟用原生Harness 能达到的能力水平,中间的时间差还比较大,现在这个差距已经有点缩小了,一部分原因,可能仅仅是模型发布更频繁了,这基本上把每个优势窗口都缩短了,一部分原因,也可能是模型被更深入的训练来使用Harness 所以它们开箱即用就很好,你不需要花那么多功夫去补偿它们的弱点,但我想我的总体总结是,看起来模型本身似乎更重要,而且这一点你没法改变,对于任何给定的模型,用当下最好的Harness 你能提前享受到多少未来的优势呢,似乎量并不大 [00:32:49]
Andrew Lee:但听起来你可能有不同看法,所以,如果你觉得我说的不对,那理由是什么,我觉得随着模型变得更好,他们能够替代好的Harness 比如一个现在的模型配上个糟糕的Harness 也会比一年前的模型配上很好的Harness要强,我同意这个看法,而且我认为这个趋势会持续下去,但我也认为效果是倍增的,它们彼此是正交的,不同维度上的东西,没有理由不把最好的模型,放到最好的harness里,你可能会说,考虑到指数级的进步,这实际上只能给我们,争取到六个月的时间,或者类似的,好吧,但这是六个月,不过我觉得更重要的是,唯一的衡量标准并不是智能,对吧,在这些真实的生产系统中,智能只是其中的一部分,以Tasklet为例,我们做的事情大部分是,一旦模型加上Harness足够聪明了,就可以自动化特定的工作流,比如每天订午餐,它确实能做到,我们这样运行了大概六个月,不会频繁地去改它,智能上的渐进式提升,其实没那么重要,但性能和成本却很重要,所以如果你看Harness 并觉得它的唯一作用,就是让东西更智能,那好吧,它只是给你在模型的指数进步之上,争取了一段固定的时间,听起来可能不错,但没那么惊人,但是它可能在成本上,带来显著的差异,还有其他属性,成本可靠性,可监督的能力,以及速度,我觉得这些东西,对商业产品来说非常关键,就我们的Harness而言,你得到的好处,包括有好看的UI侧边栏,会在合适的时候,弹出来展示信息,有很好的工作状态指示,你能实时看到它在做什么,你可以让任务状态,跨长时间保留,还有很好的性能,和成本之间的权衡,我觉得这些对于商业产品来说,绝对不能被低估,对,如果你能让它用Haiku 而不是Opus来跑,那效果会有很大改观,尤其是在一个算力稀缺的世界里,我们似乎越来越处于这样的状态了,好,如果可以让我插一句一个很好的例子,我甚至不知道你是否把这叫做Harness 但你看看Anthropic正在做的事情,我印象中他们称之为Supervisor Agent 或者我忘了具体怎么叫的,基本上它们有一个系统,可以让你注入一个工具,允许一个较小的模型,去调用更大的模型,这是它们最近一直在谈论的,相对较新的东西,你基本上可以做到,接近大模型的性能,但绝大部分工作,都用小模型来完成,这是一个很大的胜利,如果你有这样的能力
Nathan Labenz:为什么不用呢,对有道理,所以当你考虑最好的Harness 是什么样子,特别是当你转向,多供应商的模式时,你觉得你会在多大程度上,为每个模型去构建一个专门的Harness 而不是尽量在所有的模型之间保持统一呢?传统上大家会想,我们不可能为所有这些不同的模型,去定制构建这么复杂的产品,我们必须保持一致,但显然,旧的规则已经不适用了,那么你的策略是什么?对于你想要推出的每一个新模型,你会在多大程度上为Harness做定制?对,这实际上,正是我现在脑子里,想的事情 [00:35:52]
Andrew Lee:我觉得理想情况下,越少越好,因为我们想支持,很多模型,而且要有一个东西,你知道,要在两边都维持住,其实是很难的,但我们又希望,这些agent 能在不同模型之间切换,所以呢,比如你让一个opus 去跑某条路,它维持了一组状态,但接着你换到,同一个agent 让它跑另一个模型,这时候你就得想办法,把东西做好翻译,这真的会变得很复杂,所以我们希望尽可能让它们保持相似,我觉得到目前为止我们还做得不错,而且我们的做法大概是你懂的,也许我们会在prompt上做一些微调,试着去解决其中一个模型里的问题,同时又尽量不破坏另一个模型的表现,我觉得目前来看这套做法基本上行得通,我觉得随着时间推移,这些东西的API已经趋于统一,基础能力也趋于统一了,所以我希望以后会越来越容易,而不是越来越难,不过我也能想象,我们将来可能会针对特定模型,做一些特别的harness之类的东西,我也在想怎么用一种,非常模块化的方式来做这件事,这样就不会产生太大的额外开销,但是这绝对是我一直在想的事情,除了模型能力这个层面,你之前还提到过,不同供应商的缓存原始能力,也是不一样的,所以呢
Nathan Labenz:从这个层面讲,你至少是别无选择,就算不是完全没得选,我意思是,你也许可以用相同的上下文,但你终究会需要,某种不同的实现,对吧,去应对那些就是不一样 [00:37:53]
Andrew Lee:跟模型本身分不开的东西,对是这样的,就拿Anthropic和OpenAI来举例 OpenAI有一个,非常简单的缓存API 基本上就是,它们会自动缓存任何前缀,并保留24小时,而Anthropic的缓存API 就明确的多,你在调一次调用里,最多只能缓存4个点,而且需要写多的多的代码,才能让它跑起来,所以在这个例子里我们还算幸运,因为一旦你做好了让Anthropic正常运行的工程,再去适配OpenAI就相当容易了,但你说的对,在那个具体场景下,我们确实有不同的代码来把我们的上下文
Nathan Labenz:翻译成各自可缓存的上下文,另外啊,你刚才提到了五家供应商 Anthropic、OpenAI、Gemini、DeepSeek和Kimi。Grok 不在这个名单上,还有那个叫什么的新Meta模型,以及GLM 或者 MiniMax 像这类其他的,还有没有呢,划分的界限在哪里,你怎么考虑谁入选,谁出局,要跟得上这些东西的最新动态,真的太难了 [00:38:41]
Andrew Lee:内部我们倒是有能力,很快地去测试模型,但是真要把它发布到,生产环境里,难度就大多了,因为举个例子来说,不同供应商,在Thinking Blocks的工作方式上,就是不一样的,而且比如万一有bug 你可能只是去,调调prompt什么的,所以我们并没有,推出那么多的模型支持,不过像GLM我们内部测过 Google模型也测过,还有DeepSeek 大概还有其他一些,我一下想不起来的,我现在觉得吧,而且这类事一开始,大多是凭感觉对吧,你就是进去上手玩一玩,然后判断这东西,是不是离前沿水平足够近,比如我们值不值得,在这里投入一些精力,通常的答案都是否,我觉得那些我们认定值得做的,比如Kimi DeepSeek和Google模型,当然显然还有OpenAI 这些事我们觉得好吧,这确实挺接近前沿的,所以值得做 [00:39:06]
模型分化与OpenAI合作
Andrew Lee:所以值得做,但将来这个名单里估计还会有别的,我对Grok一直没太关注,也许我应该多关注一下他们,我很少听到有其他开发者,用他们的模型,但他们确实他们看起来
Nathan Labenz:真是投了非常多的钱,所以说不准情况也许会变,是在我看来,只要埃隆自己没有退出,我们就不能把他排除在任何竞赛之外,但我同时也同意你的看法,我自己也不怎么用,只不过,我上周在特斯拉里写东西的时候,刚好有机会用了不少,它做得还不错,你懂的,而且那个语音模式挺好的,不过,还是多少,有点感觉,当然,这不只是模型的问题,也跟整合有关系,但我会说,我在特斯拉的控制台里,用Grok的体验,肯定比我用Anthropic、OpenAI 和Google模型要粗糙
Andrew Lee:我们的用户还挺厉害的,我们的用户对这类东西是很精明的,不是所有人,但有相当一部分用户,会主动去尝试这些东西,所以我们就能开始看到相关的需求,你记得吧,回想当初,那是pre-shortwave时代之前了,我们当时大概在用GPT-4吧,我们以为自己用的是最好的模型,我们用它打败了一堆东西,然后呢在非常短的时间内,大概是Claude 3.5 发出来之后,我们就开始收到一堆人的邮件,质问说你们怎么还在用那个老模型,我们当时的反应是,这些人肯定是消息有误,我们用的可是市面上最好的模型,结果证明他们完全是对的,所以我们也算是被用户推着走了一路,但话说回来,我还没见到有用户跳出来说,你们得上Grok 那才是最前沿的模型 [00:40:51]
Nathan Labenz:虽然也有一些用户问过OpenAI的东西,你认为最可能出现分化的地方在哪里,这是另一个大问题,你刚才提到,你觉得在能力方面,各家正在趋同,这对你来说,支持这么多不同的供应商,希望会让复杂性变得可控,但我也听到另一种说法,那就是,我们正在看到越来越多有意义的差异化,而且老实说,我也不知道哪种说法正确,我自己有时候也会两种感觉都有,但如果你要聚焦在特定领域,你认为在未来一段时间里,模型最可能在哪里出现有意义的差异,我想到的一个候选是 Agent 和团队,比如跨实例的委托,这类事情怎么运作,好像还没有人真正,我认为有一个元观点是,那些还没有人真正搞清楚的东西,可能是人们会采取最不同策略的地方,然后一旦有赢家出现,大家又会趋同,但目前,似乎还没有人有超棒的方法,让模型的多个不同实例一起协作 [00:42:38]
Andrew Lee:这是我的一个想法,但你怎么看,最可能出现重大差异的地方在哪里,在主流实验室里,我看到的所有情况都告诉我,它们正在趋同,而且是因为它们互相盯着对方,举个例子,拿Opus 4.7来说,我觉得基本发生的,这可能是我随口说的,是,它们开始意识到 Codex在很多事情上比Claude Code更好,于是它们就想,嘿我们怎么把我们的模型做得更像Codex 接着他们就做了一堆RL调整,让模型有点不一样的个性,变得更精确一些,结果Opus 4.7用起来,感觉就更像在和Codex对话了,而我觉得Codex之所以变得好,也是因为模型在AI方面改进了,而且他们在观察心想,哇Claude Code在写代码上变得非常强了,我们怎么也能做到,所以在我看来这两家实验室,是在互相盯着互相模仿,比如说5.5,在通用长文,工具调用方面好了很多,我觉得就是因为,他们也在互相偷师,至少这两家,我认为他们互相盯得非常紧,而且我看到一种,你来我往的态势,不过让我兴奋的是,有很多新实验室,融了大笔钱,在做完全不同的东西,要是有人突然,从左场杀出来,用一种完全不同的方法,我不知道你了不了解 JEPA,就是Yann LeCun的那个东西,我昨天终于看了一个长视频,它看起来真的很迷人,非常不一样,我不知道它最终能不能成,但毕竟有10亿美元压在这上面,赌这种完全不同的LLM方法能成功,我们拭目以待吧,另外还有像Flapping Airplanes这样的,他们的方法是让我们用少得多的数据,所以我的感觉是,所有主流大实验室确实都在互相盯着对方的肩膀,而有一批新实验室在尝试彻底不同的路线,这就是我对当前格局的看法,所以是趋同,除非有人能靠某种算法层面的洞见,像摇晃雪花玻璃球一样带来突破,这是我对Harness方面的猜测,其实我也在想Harness在能力上也在趋同,这很大程度上是因为,事实证明,最好的Harness做的都是底层原语,对吧,比如我们这边,就没有特意为处理邮件准备的高级功能,我们有文件系统,数据库Shell 还有浏览器,以及一些简单的原语,比如写代办,设置触发器,这些都是非常底层的东西,里面没有特定工作流的内容,我觉得这才是正确的做法,我们差异化的地方不在于能力,而更多是在成本,人机功效和速度上,这些才是区分点,你提到和OpenAI签了协议 [00:44:36]
Nathan Labenz:我猜具体细节肯定有保密协议之类的,但我很感兴趣,观察的一点是,一个明显的分歧在于 OpenAI现在如何定位,自己跟Tasklet这类产品,以及像OpenClaw这样的开源工具包的关系 OpenAI似乎非常倾向于,让你可以在这些其他场景里,使用自己的OpenAI核心账户,我想问的是,这到底会是怎样的形态,又会如何让你的处境变得更复杂,比如说,如果我能用OpenAI账号,登录并且带上我自己的Token 那你的定价模型就彻底变了,对吧,因为这样一来,你的商业模式就更像传统SaaS 智能成本不再从你这里流过,不过我不太确定,他们在这方面的进展到底如何,我知道他们允许我在OpenClaw上这么做,我还没在网上看到太多别的类似东西,说实话,我以为这会来得更早一些,我猜可能是他们算力受限,所以没有优先做这个,但我学到了一点,算力受限,这种说法简直是个万能答案,有时候是真的,有时候未必,但至少能交叉,那么你觉得未来我会不会跑到Tasklet 直接连上我的OpenAI账户,用我自己的token [00:46:20]
Andrew Lee:这又会怎么改变,或者说复杂化,你们现在做的事情,是的,这是个好问题,显然Anthropic选择了完全相反的方向,而且我们很庆幸自己没陷入那种情况,他们当时可是在切断别人的API访问权限,我也不确定,对吧,我们大概想看看这事会怎么发展,是不是会流行起来,感觉OpenAI会长期这么干,对我们来说整合进来,让用户使用他们自己的Token 完全说得通,而且我认为我们提供的价值,远不只是做个token转售商那么简单,所以我不觉得这一定是威胁,反而可能是个不错的用户上手体验,从竞争的角度来看,我们有没有担心 OpenAI是不是在考虑,把用户关系攥在自己手里,如果用户已经有了OpenAI账户,为什么还要在我们这里注册,我觉得我们现在可能比以前,更担心了一点,在他们砍掉Sora之前,我不知道你记不记得,那次关于Sora的大泄密,我们原本的印象是,他们非常专注于自己的模型,专注于消费者领域,但对商业生产力这块,并不太上心,在我看来,从他们去年秋天,推出Agent Kit的方式,就能看出来,感觉他们并没有拿出真本事,所以我们当时想太好了,我们在跟Anthropic激烈竞争,但OpenAI盯着的是,消费者和模型,我们可以趁这段时间,往前跑一阵,当他们砍掉SORA 并且那次泄密提到,嘿我们要进军商业生产力的时候,我们担心的,或者说目前有点担心的局面,基本上就是Codex当年的翻版 Codex从一个陪跑选手,在相对很短的时间里,摇身一变成了,可以说是最好的编程agent 所以,如果他们调集精锐力量,来专注做这件事,而这块又看起来很有竞争潜力,他们可能真的会跟我们正面交锋,不过话说回来,到目前为止,我们还没看到任何迹象,我还没遇到过哪个客户说,我离开Tasklet 去用OpenAI的产品了,所以我们等等看看,会不会真的出现这种情况,但是有可能的,是啊,整个局面里有太多奇怪的联盟,同床异梦的伙伴和合作,所有这些,对我来说最奇怪的是,那个Anthropic SpaceX的公告,你知道Elon之前,把他们骂得狗血淋头,而且双方明显在激烈竞争,结果转头就做了,这么大的商业交易 [00:48:31]
Nathan Labenz:所以现在这时候谈合作,真是太诡异了,对,毫无疑问,我倒是乐见其成,不管怎么说,我对Anthropic的感情,确实比较复杂,你刚才说的那些正面评价,我都有同感,我觉得他们在安全方面的工作,在好几个字方向上,都绝对是首屈一指的,这一点几乎没什么争议,那份宪法文件,我不夸张地说,当年读的时候差点落泪,因为我觉得,那真是一份非常美的文件,他们做的可解释性研究也非常了不起,但是,要是有人搞出一个,失控的递归自我改进循环,我得说,他们现在可能是最有可能的候选者,所以,这感觉特别奇怪,不过,我确实乐于看到,领先公司之间关系更紧密,因为哪怕只是稍微缓和一下,竞争气氛也是好的,哪怕他们只能在边际上分享彼此的成功 [00:49:57]
模型性格与共享上下文
Nathan Labenz:哪怕他们只能在边际上分享彼此的成功,对我来说,那都是巨大的胜利,所以我鼓励所有这些合作,尽管看起来很奇怪,我鼓励大家,把股权结构交织在一起,说到底,我觉得我们大家,要么一起崛起,要么一起沉没,这算是我对人类命运的底线,所以,让我们开始做这些交易吧,提前为那个现实做好准备,而且我认为,最终这会让我们受益良多,好了,这只是我的小众观点,最近有件事一直在唱反调,你肯定注意到了 Andon Labs那些人,他们做Vending Bench 现在又开了几家实体零售店,完全由AI模型管理,他们在旧金山有一家零售店,由Claude运营,在斯德哥尔摩有家咖啡馆,由Gemini运营,一个很大的惊喜,是他们说5.5,在经营业务方面是干净的,而Opus 4.6 和 4.7 模型,则被描述为无情,比如愿意对供应商撒谎,做一些不一定违法,但很可疑的事情来达到目的,但5.5完全没有出现这种情况,对于模型的这种性格,你有什么看法吗,你在构建系统时,是不是也必须考虑这一点,比如,如果一个模型很无情,愿意走捷径,另一个很干净,那这很可能会影响你在Harness里,要设置什么样的监督系统,之类的,所以,你有什么观察或计划吗,我之前倒没有听他们特别提到这一点 [00:50:50]
Andrew Lee:不过我得说这些都只是个人经验,我没做过任何深入研究,但这个说法并不让我意外,我自己的体验是Anthropic的模型,更有创造力,也更有同理心,它们似乎更能理解人类的体验,而OpenAI的模型则更偏临床一些,这各有优缺点,那些更理解人性的模型,可能也会展现出一些最糟糕的特质,我倒不觉得奇怪,我们目前还没遇到过什么问题,至少据我所知,没有用户反馈说,嘿这个东西干了什么不道德的事,也没出过什么状况,但这种性格特质和我的体验,倒是挺吻合的,这很有意思 [00:51:30]
Nathan Labenz:它们更有生物感,可能是好事,也可能是坏事,另外一件大事是,我现在各种工具都在用,我有一个Tasklet账户,而且已经用到上限了,我在笔记本上跑着 Claude Code Max 就通过终端在用旁边,这台Mac Mini上,我也装了另一个 Claude Code 还有OpenClaw 我其实非常关注,单个agent之外的上下文,这可能是你要面对的一个前沿问题,不过我不确定你是否觉得,这和我自己折腾时一样重要,你有没有想过,需要为用户构建一种第二大脑的功能,它位于单个agent之上或之下,总之就是提供更广泛的上下文,对吧,我现在有十个任务,有agent在跑,大部分时候他们都各管各的,他们可能通过工具调用来访问一些相同的上下文,但没有一个共享的元状态,比如,这是Nathan 他正在做这些事情,他关心什么,还有,这是他生活中的人,如果你碰到这些人,你就能知道是什么情况,这对组织来说,显然也非常重要,对吧,比如,团队里有谁,我们的优先级是什么,过去我们拒绝过什么,这种总体的态势感知 [00:53:02]
Andrew Lee:是你们想要去解决的吗,我向听众保证,我绝对没有提前给你透过风,让你来问这个,所以答案是肯定的,实际上我们已经有些组织功能了,可以说是这个方向的初步尝试,现在产品里就有,我们只是还没正式公布,如果你去设置里看看,可能会看到一些类似大规模组织,和工作空间的东西,里面有些配置选项,我们为这个功能打基础,已经有一段时间了,等我们觉得真正准备好,可以公开讨论的时候,我们会搞个发布会,造点声势在Twitter上发些内容,但现在还没到那一步,不过你现在其实就可以用,如果你想的话,可以邀请你的团队加入进来,我们对此的思考方式是,有一个上下文的层级,比如在组织层面,有一些属于整个组织的东西,对吧,你可以设定我们公司是做什么的,使命宣言是什么,价值观是什么,这些是你在组织层面,想控制的基本内容,你可以在那里设置一些上下文,然后在团队层面,还可以有额外的上下文,比如市场营销团队,可以访问这些资源,有这些目标,这是本季度的OKR 我们还可以定义各种业务流程,所需的一些技能,或者一些在做不同事情时,需要考虑的重要文件,这是我们的品牌调性之类的,然后在单个agent里面,你会看到非常具体的东西,比如这是运行这个特定工作流的计划,这是上传到这个agent的文件,这是有人专门为这次对话给我的指令,所以整体来看组织层面有公司级的东西,工作空间是团队级的,然后agent里有针对特定工作流的东西,我们基本上就是在围绕这个构建一切,到目前为止,大部分工作都放在了工作空间级别的agent上,现在我们唯一共享的上下文就是你的连接,这其实非常强大,举个例子,如果你有一家公司,想让团队的负责人去配置好所有的API密钥请求头等等,来连接你们自己的系统,这样他们就可以配置好API访问权限,然后交给其他用户使用,所以当有新成员加入团队时,他们不用再去到处找API密钥,直接就可以开始跟他们的agent对话,而且agent已经知道怎么连接各种服务了,这真的非常强大,这个功能现在已经实现了,但我们还想加入共享技能,还想加入某种形式的跨agent记忆,比如说我跟一个agent解释了某件事,他应该能记住,并且让其他agent也能知道,我们可能还会加入某种共享文件系统,这样你的文档就能在所有agent之间随时取用,现在你如果连接了Google Drive之类的也能做到,但我们大概能把它做成一个更加顺滑,更原生的体验,这些功能都在路上了,我觉得共享大脑可能是理解这件事的一个好角度,正好Zapier前几天刚发布了一个产品,我不知道你看到没有,他们好像就叫它Shared Brain 我觉得他们公布的很多东西,跟我们的愿景非常一致,不过我还没试用过,我的直觉是他们在大脑方面,走得更靠前,但agent部分就没那么强,这只是我的直觉,希望我们能在大脑方面赶上,并超越他们,同时在agent这边也继续保持领先,对我们来说这是绝对的重中之重,我也对我们接下来能做的事,感到非常兴奋 [00:56:06]
Nathan Labenz:要不我们先把视野拉远一点,最后再快速过一些,比较底层,比较硬核的细节,这些真正懂行的人会想听,虽然可能不像大图景那么重要,你觉得这一切最终会走向哪里,我的意思是,我们正处在一个很奇怪的转折点上,可以从几个维度来看,我们已经聊过几次计算机使用了,而且,你把命令形式的计算机使用,和基于UI 以UI为介质的计算机使用,给打包在了一起,这感觉,就像是同一个标签下,正在发生的一种范式转移,好像一切都在走向无头化,但与此同时,模型在操作UI方面又变得特别强,那么到底哪种方式会赢呢,是所有UI都会消失,还是模型会把它们用得特别好,也可能两者兼有,然后同样的,你刚才提到,所有人都在争着构建同样的东西,我从来没有像现在这样,强烈地感觉到这一点,你随便就能说出成千上万家公司,他们彼此之间都在以一种并不算间接的方式竞争,你在跟Claude竞争,但同时也在跟微软Word竞争,跟Zapier竞争,跟你能想到的所有东西竞争,甚至,对,跟人类劳动力竞争,真的,无穷无尽,所以你是怎么理解这一切的走向的,那个大愿景是什么 18个月后 [00:57:41]
Andrew Lee:我们会是什么样子,就在奇点降临的前一刻,大概一年前,就在我们开始这次转型之前,我们观察到一件很重要的事,给不太了解的朋友补充一点背景,我们当时有一个产品叫Shortwave,是一个AI邮件客户端,其实现在它还在,但已经不是公司的重心了,我们在里面嵌入了一个相当不错的agent 能做各种很酷的邮件操作,但我们意识到用不了多久,你就可以在一个像ChatGPT这样的产品里,直接说显示我的收件箱,它就能当场为你生成一个邮件的UI界面,一旦这种体验做得足够好,你就根本不需要一个专门的AI邮件客户端了,对吧,因为整个邮件这个环节都会被替代掉,我们原本整个差异化的构想就是 Hey 我们把这个agent嵌入到一个定制化的UI里,但这个UI是有保质期的,事实上那个产品现在还在增长,表现也还可以,但我觉得十年内它大概就不存在了,很可能远远用不了十年,我觉得它至少不会,以这种形式长久存在,所以我们说天哪,我们不能围绕一个,嵌入UI的AI agent 来建立业务,我们得做点别的,于是我们想,那就打造一个,非常通用的agent 不依赖UI 专注于特定类型的工作流,比如那种基于触发的,知识工作流,我们随后在10月份,推出了一个产品,但用户的反馈是,他们不想用一个工具,做流程自动化,又用另一个工具,处理日常工作,因为他们希望所有工具,共享相同的上下文,我可不想维护两个系统,让他们都得保存,共享大脑里的所有内容,我只想要一个系统,于是我们想好,看来我们不仅要做工作流这块,还得把同步协同的东西 [00:59:10]
未来软件平台与可靠控制
Andrew Lee:还得把同步协同的东西,也做进来,而且当我们从邮件,这个领域转型的时候,也发现,其实会有一个更通用的产品,把这些东西都涵盖进去,再后来我们又意识到,显然还会有一个,更通用的产品,把它们都包含在内 3月份我们推出了Instant Apps功能,这其实是一个生成式UI功能,它的想法是你能不能用一句prompt 就生成任何你想要的UI 调取任何数据和任何连接,瞬间就能工作,一次性生成一切,结果证明效果非常好,这个功能特别受欢迎,我们团队每天都在大量使用它,比如我们现在做任何数据科学的工作,都不再去BigQuery的UI里操作,也不用那些仪表盘工具了,我们直接进到Tasklet里面说,帮我生成一个探索式的仪表盘,分析一下价格调整,会对用户产生什么影响,它就会生成出来,上面有切换按钮,你可以调节阈值什么的,就是这么顺畅,特别好用,我们忍不住感叹,一年前我们担心的那种局面,关于邮件客户端会发生什么,现在已经成了现实,你今天走进Tasklet跟他说,给我一个能用的邮件 UI 它就能生成并正常运行,你可以在Tasklet里的UI里,操作你的收件箱,虽然现在还不如Shortwave那么好,但离那一天也不会太久了,所以我觉得,这些事情发展的速度,比我们预想的要快得多,很明显那些我们原本以为,会形成差异化的领域,正在一个接一个地消失,向前看,我看不到任何理由认为,这种趋势不会继续,也就是通用工具会不断扩张,而这一切都是因为,模型本身是通用的,如果所有的模型,尤其是最好的模型,在每件事上都是最强的,我觉得由于经济因素等原因,这种情况越来越明显,那么最好的工具,也会在各方面都智能,最多只是人体工学上有差异,但智能水平上全能,所以我们基本上必须假设,最终胜出的产品数量,会相对很少,我不认为我们将来,会有很多很多,各自内嵌AI的工具,我觉得我们只会有,少数几个非常横向的平台,而我们想做的就是,成为那个取代知识工作者,所有SaaS产品的AI Agent 平台,你看现在大多数知识工作者的工作方式,他们在不同标签页之间切换,或者在不同应用之间跳来跳去,一会儿用Word 一会儿用Notion 一会儿用Linear 一会儿又用Gmail 为了不同的事情不停地切来切去,我们认为这种模式会彻底消失,取而代之的是,你会有一个自带UI的应用,它就是你的AI Agent 希望就是Tasklet 如果你想访问某个工具里的数据,你通过API把它连接过来,如果你想做有趣的分析,这个分析不再是由工具里,某个定制的业务逻辑来完成,而是由agent生成代码,然后运行分析,如果你想要一个UI agent也能用一句prompt 一次性生成你需要的界面,我们认为这能基本上覆盖你,所有的生产力软件,在这样的世界里,我觉得软件公司最终只会剩下三类,第一类是横向平台,赢家会非常少,因为人们不想在多个平台之间,费力维护上下文和连接,他们大概会就一个平台用于知识工作,一个用于编程,可能再有一个个人使用的,但绝不会很多,所以会有横向平台,我们会努力成为其中之一,另一类是无头公司,就比如Stripe 对吧,我觉得支付这件事,总归还是需要有人做的,支付这块非常复杂,也非常重要,所以很可能会把它从Stripe剥离出来,你可能不再有Stripe的控制台了,可能再也没必要去打开stripe的界面,它就纯粹只是一个API工具了,然后还会有解决方案公司,他们的软件完全隐形,卖给你的就是一个产品,比如我觉得律师和房地产经纪人依然会存在,他们可能大量使用AI 但你可能根本看不到这一点,他们卖给你的是,我们帮你买卖房子,而不是卖给你软件,所以我认为未来就会是这三类横向平台,里面只会有极少数的赢家 [01:03:35]
Nathan Labenz:然后是Headless产品,再就是解决方案公司,那像Salesforce 这样的公司会怎样,它明显属于那个范畴,而且它最近还大举,转向了Headless 但我在想,像支付这块,你知道里面有很多深度,涉及很多司法管辖区的,合规问题,还有大量风险管理,你很难想象,一个通用agent 能在短期内,把Salesforce给吃掉,不过从另一个角度看 Salesforce到底是个啥,它本质上就是一个schema 一个非常非常复杂的schema 那是从,你只能维护一套系统的时代,遗留下来的,所以你必须把它做得面面俱到,覆盖所有客户,和所有他们可能想做的事,但绝大多数人,其实根本用不到Salesforce 为他们构建的那些所有功能,所以对很多人来说,用一个像Tasklet这样的工具 [01:04:08]
Andrew Lee:快速搭一个出来,看起来要现实的多,对吧,我觉得Salesforce 确实遇上大麻烦了,他们这些年来积累的大量代码,很可能已经过时了,在一个充满agent的世界里,作为system of record的价值,会大幅下降,因为在不同系统之间,迁移数据突然间变得容易太多了,我认为可能还有很多headless的事情可做,它们也挺有用,但构建竞争产品的能力,已经变得简单得多,它们现在有更多的竞争者,因为你现在随手写写代码,就能搞出一些类似的东西,所以对他们构建的很多东西,都已经过时了,如今转到竞争对手那里更容易了,竞争者也更多了,所以我并不认为Salesforce会死,但我觉得,未来的Salesforce会比今天小得多,我忽然想到 [01:05:00]
Nathan Labenz:System of Record和真正可靠的存储,并不是一回事,但真正可靠的存储,其实是支撑System of Record 价值的一个关键部分,就拿我自己来说吧,我在捣鼓自己的个人云代码,搭建本地AI生产力站的过程中,就曾经丢过一堆数据,比如,我试着从Slack导出东西,结果他发现第一次没导对,就干脆把所有东西删了,重新再导,可他没想到因为速率限制,这一删一导,实际上整整花了四天,才把我之前已经导出的东西重新弄回来,所以,我确实很看重Slack 不会随便误删我所有数据,这一点,但这也暗示了,横向平台可能有一个机会,我知道你以前是做数据库的,对吧,那么是不是存在这样一个机会,或者说是范式转移,横向平台可以站出来说,这就是为什么你可以信任我们,把数据交给我们,即使agent犯了错,或者出了这样那样的岔子,我们也会有快照回滚和持久性保证,确保错误不会导致数据丢失,我觉得,如果真能给人们这种保证,他们可能就会更安心地觉得,不再那么需要Salesforce了,完全同意,我认为这是一个Harness [01:06:44]
Andrew Lee:能发挥巨大作用的地方,我们可以讨论Harness 到底能不能让LLM更聪明,这或许有争议,但关键是Harness 能不能做到这类事情,我认为绝对能,我给你举几个例子,看看我们能怎么帮忙,一个就是你刚才提到的版本控制,现在有很多初创公司,在做agent的文件系统,其中一些就在做版本控制,基本思路是,如果你的agent行为出格了,你希望能回滚到之前的状态,对简单的聊天机器人来说,你只要把最后几条对话扔掉就行了,但如果agent是在跟真实世界交互,你就必须能把整个世界都回滚回去,所以这里可做的工作很多,比如如果只是文件系统,你可以直接改动文件系统,但如果涉及到了API调用之类,你可能就得保留操作日志,但总之,能够撤销agent所做操作的这个能力,我认为非常关键,另一个领域是监督和日志记录,让你能在关键环节,把人拉进循环里,也就是human in the loop 而且是用一种很聪明的方式,在我们现在的产品里,你需要激活工具才能用,我们很快会加入的一个功能是,你可以设置某些工具,每次运行都需要你批准,最好的例子就是电子邮件,大家会很放心地说,嘿你可以随便读我的邮件,想读多少读多少,你可以起草任意多的草稿,但只要我没同意,你就什么都不能发,我们希望做到的是,让这个过程非常顺手,举个例子,它可以给你发推送通知,告诉你邮件已经准备就绪,它会疯狂地阅读搜索起草,等一切就绪就给你发个推送,问嘿,发送前你要不要审一下,你只要说可以,整件事就自动推送给你了,所以我觉得权限控制,可以是一个很大的方向,另一个很大的方向是,更好的用代码,而且是更像Mac那种方式,比如说把数据从一个系统,迁移到另一个系统,最简单的做法是通过API 把数据灌给LLM 然后让LLM调用各种工具,把数据搬到别的地方,但这么做的话,每次你都是把数据,塞进语言模型的上下文里,指望它不瞎编,能精准复现这些数据,我觉得模型会越做越好,但想在这方面,有足够的信心真的很难,更好的做法是,让模型直接生成一个迁移脚本,然后去跑这个脚本,这样中间就多了一个,可以测试,可以让人工审批的产物,所以当你把数据,从一处搬到另一处时,你还是需要一个agent 来思考怎么解决这个问题,但他最可能做的是,生成迁移脚本,生成一些测试,跑一遍测试,然后把结果交给人,他会说,这是我们做的迁移计划,测试代码,以及我们认为可行的原因,你同意吗,你同意了,我们再执行,你甚至可以搭个测试环境,所以我觉得让agent内部具备这类工具,去处理高风险任务 [01:09:49]
供应商快问与收购传闻
Andrew Lee:去处理高风险任务,同时加入审批机制,这里面机会很大,好我知道时间不多了,快速问答环节我得抓重点
Nathan Labenz:首先有没有你想特别提一下的供应商,你刚才提到了一些,做那种世界回滚式存储的公司,你们在用哪些,或者有没有你觉得被低估了的,好问题
Andrew Lee:我们深度使用并且非常满意的一家供应商,是Blaxel 他们做沙盒,冷启动速度很快,性能也很好,让我们能把沙盒,放在产品的核心位置,所以我觉得Blaxel非常棒,我们还用Firecrawl做抓取,他们在性能方面,也有不少优点,我们也看了,不少存储技术公司,包括一些,做数据库和文件系统的,但到目前为止,我们还是选择,自己搭建这一块的基础设施,我不知道以后,会不会一直这样,这里面有个权衡,我们觉得这部分非常核心,如果要交给供应商,那他们最好能提供非常大的价值,得是那种,我们对他们的路线图很有信心的公司,所以目前我们还是全部自己做,当然还有各大实验室,模型本身就很惊人,可以说,没有他们那种近乎慈善的开放,我们也不会有今天 [01:10:19]
Nathan Labenz:我们也不会有今天,那有没有可能,你们会以某种按量分成的方式,转售其他服务,你看,现在已经有很多连接了,我可以接入自己的Gmail,接入自己的个人数据,但还有一大片更广泛的工具,我可能需要有账号才能用,但我又不想专门去注册,或者这些工具用起来很麻烦,没法做我想做的事,一个典型的例子就是Suno 我最近特别喜欢用它生成音乐,但它对Agent不太友好,我老是得跑到他们界面上操作,我就觉得这界面,本来应该是一个API调用才对,我只是想听音乐而已,但我也会想,也许我可以用我在Tasklet的积分,去支付这些第三方服务的生成费用,像这种,不是高度个性化的服务,用我的账号还是别人的账号,其实无所谓,虽然长远来看可能会有区别,但至少目前没太大关系,你们有没有打算做这种事,就是打造一个瑞士军刀,里面集成各种付费服务,我用我买的积分,就能通过你们直接访问? [01:12:02]
Andrew Lee:是的,我觉得我们最终肯定会做这件事,其实我们已经有了一些很初步的尝试,比如网页浏览或者说搜索,对吧,我们用了Firecrawl 你可以说这其实就是某种API转售,另一个很快就要上线的,很可能是图像生成,现在你可以把我们的系统连到 Nano Banana来生成图像,但这个需求太普遍了,所以我们很可能会内置,原生的图像生成功能,你直接用积分就行,不需要额外注册账号,我其实挺希望最终能把这块做得更开放一些,已经有上万人给我发邮件问X402的事了,只是目前这还不是我们的优先事项,我希望这件事能成,有一点我想提一下,就是我们特意设计了这个积分系统,之所以用积分,而不是设定一个固定的token 使用量之类的东西,是因为我们希望能够支持多种不同类型的消费,比如你花 token 那当然会消耗积分,生成图片也会消耗积分,搜索网页创作歌曲,同样都会消耗积分,所以它给了我们一种很好的中间货币,可以用来支付各种各样的东西。
Nathan Labenz:好,再问三个问题,我会很快。目前你们用于 Tasklet 开发的 token 支出,和 payroll 相比,比例大概是多少,先不算用户,那部分API调用产生的成本,单说你们通过API花的钱,跟人工成本比,大概是什么情况?
Andrew Lee:我快速算一下,先说明一下,我们至少有三个产品,会产生大量的内部token消耗 Claude显然是一个,还有Codex 然后Tasklet 其实也在我们内部流程上,花了大量的token费用,我估摸着目前内部token支出大概占 payroll 的5%到10%。
Nathan Labenz:你对Mythos有多兴奋,你觉得它会给你能做的事情,以及公司的发展轨迹,带来多大的不同? [01:13:57]
Andrew Lee:这个很难说,我还没试过。大部分人都还没试过,所以对于一个摸不着的东西,确实很难太兴奋,我感觉这有点像市场炒作,就好像在说,嘿我们现在没有算力,来实际提供这项服务,那就先通过营销赚点好处吧,就算不能真的用上,它听起来当然很厉害,基准测试看着也挺酷,说是能找到各种,零日漏洞什么的,所以我很想体验一下,但如果真能用上
Nathan Labenz:我印象会更深刻,好最后一个问题,你肯定关注了,最近CCP强制解除 Meta对Manus收购的事,说个我的小故事,当年我和马克,扎克伯格,以及其他Facebook创始人,住在同一栋宿舍楼,可不是想显老啊,我们的20周年同学聚会,就快到了,他当年没毕业,这事儿,大家都知道,不过我想,他如果想来,应该还是会收到邀请,假如我在聚会上碰到他,我应该告诉他 Tasklet 现在的价码是多少亿美元? [01:14:35]
Andrew Lee:我们当然一直在密切关注这件事,其实在Manus那笔交易,宣布之前不久,我收到过Nat的消息,我们本来约好喝咖啡,但后来他就没再跟进,这事就没下文了,然后就出了这笔交易,被解除的事,我特别好奇,这是到底要怎么收场,他们的人都已经在那,工作一段时间了,这种情况下,怎么解除,真是够疯狂的,那之后我又追了一封邮件,写了句,嗨还想喝咖啡吗,人家也没回我,所以我不知道,他们还有没有聊天的兴趣,不过真想联系的话
Nathan Labenz:我的邮箱并不难找,我也很乐意聊聊,我看看能不能在同学聚会上,帮你埋个种子 Andrew Lee,Tasklet的CEO 这次访谈太棒了,感谢你来参加Cognitive Revolution
Andrew Lee:再次感谢邀请 [01:15:55]