#540.AI Agent 的达尔文时刻：技术重构、多模型博弈与未来软件三分天下

产品重构与文件系统上下文 [00:00:00 - 00:10:00]
上下文压缩与模型进展 [00:10:00 - 00:20:00]
Anthropic竞争与平台定位 [00:20:00 - 00:30:00]
Harness机甲与多模型适配 [00:30:00 - 00:40:00]
模型分化与OpenAI合作 [00:40:00 - 00:50:00]
模型性格与共享上下文 [00:50:00 - 01:00:00]
未来软件平台与可靠控制 [01:00:00 - 01:10:00]
供应商快问与收购传闻 [01:10:00 - 01:15:57]

产品重构与文件系统上下文

一凯：欢迎收听跨国串门儿计划。这是一档专注于让中文听众无障碍，欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术，我们不仅将内容翻译成中文，还完美保留了原主持人和嘉宾的独特声音，为您呈现全球顶尖的AI、财经健康与科技领域精品内容。我是主播一凯，一位热衷于AI领域的产品经理，很荣幸能为您搭建这座跨越语言障碍的桥梁，接下来让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话，本期我们克隆的是知名播客Cognitive Revolution的一期深度对谈，主持人Nathan Labenz与Tasklet创始人兼CEO Andrew Lee坦诚交流了通用AI Agent 平台的技术战略与商业博弈。Andrew是第四次来到这档节目，他坚信速度是唯一的护城河，过去半年带领团队，把整个产品技术栈彻底重写了一遍，在节目里，他有三句原话让我印象特别深刻，过去六个月里，基本上每一行代码可能都被动过了，我们大多数基础假设都被推翻了，我们真正需要的是一个保存你历史的文件系统，然后实际发送给LLM的指示提示，我们想做的就是成为那个取代知识工作者，所有SaaS产品的AI Agent 平台，这些话背后有着很长的故事，现在就让我们一起走进这期完整的对话，大家好 [00:00:54]

Nathan Labenz：欢迎回到Cognitive Revolution。今天我很高兴，请来了观众最爱的嘉宾 Tasklet的CEO Andrew Lee。这是他第四次来我们播客。Andrew一向非常透明坦诚，他相信速度是唯一的护城河，这让他毫无保留地分享Tasklet的Agent 架构细节，你接下来会听到，过去六个月里 Tasklet又完全重写了他们的技术栈，现在他们大量利用文件系统，上下文和agentic搜索，来充分利用已有信息，同时节省token。另外，他们还大幅加强了多个分辨率级别的摘要总结，这次我们也会深入探讨Andrew和Tasklet 面临的微妙战略局面，他们一直压住模型的产品策略，被证明是正确的 Andrew对Claude的选择也得到了回报，但Andrew观察到，现在大家其实都在做一样的东西，如今他最激烈的竞争对手，实际上来自于他的关键供应商 Anthropic 后者通过Claude Max账户，让他们的直接客户，能以同样的价格，比Tasklet通过API购买，多出大约5倍的token 从微观层面看，这种token成本较高的情况，导致Tasklet继续使用Opus 4.6 而没有升级到新的4.7 从宏观层面看，这正推动Andrew和团队变成一个水平平台，能够接入，或者用Andrew的话说，给任何提供商的先进模型穿上机甲套装，来利用他们这种演变，我认为Andrew的应对和时机把握的差不多是最好的，这非常关键，因为水平平台，是Andrew认为，能在AI转型中存活下来的，三种软件公司类型之一，另外两类，是API优先的公司，比如Stripe 以及那些开发解决方案，直接售卖结果的公司，最好的例子，或许是Fin的模式，每解决一张客服公单收费 99美分，我们还聊了很多，别的，包括Tasklet新功能 Instant Apps 它们对于深度个人，与共享组织上下文的思考 Andrew看好的那家云容器公司 Tasklet的Token与人力成本比，以及扎克伯格在收购Manus被中国政府否决后是否找上门来，这一期很有趣，有很多宝贵细节，分享者正在赛场上拼搏，想成为少数通用AI Agent 平台的赢家，并且居然还愿意把所有事情讲给我们听，请欣赏我与Tasklet创始人，兼CEO Andrew Lee的对话 Andrew Lee 我们的回归冠军Tasklet的CEO 欢迎回到Cognitive Revolution。谢谢很高兴来到这里，你是观众的心头好，我今天会连珠炮四地问你一堆问题，确保我们能为包括我自己在内的开发者，观众们挖出尽可能多的干货，第一个问题，据我们上次聊天已经大约六个月了，你那个速度是唯一护城河的信条，几乎每周都在我脑海里回响，所以我想问，在我们上次聊完后的这六个月里，你们重建了什么，或者说得更直接点，有什么是你们还没重建的？ [00:04:14]

Andrew Lee：对，我觉得这个信条没变，但基本上所有东西我们都重建了，我之前还在想，有些部分我觉得，哦这个没变，但实际上不完全重写了，所以从产品角度看，产品现在非常不同了，我们10月份发布时，他完全专注于工作流自动化，我们当时想，嘿如果人们能进来，描述一个工作流，然后我们帮他们运行起来，那会很酷，但很快我们就收到了反馈，一旦我把所有的上下文都给了这个agent 把它连到了我所有的工具上，我就不只是希望它运行我的工作流，我还希望能跟它同步的对话，所以它不再只是工作流自动化工具了，现在它是一个非常通用的agent 做工作流很棒，做其他类型的事情也很棒，因此这要求我们对产品体验进行彻底重建，结果背后的大量技术也相应重建了，举个例子，在工作流自动化工具中，在产品的上一版里，你基本上有一个主agent 你会跟他简短对话，来设置好你的工作流，一旦设置完成，你基本上就不再跟那个agent对话了，所以对话都很短，然后我们的系统会根据事件，定期启动我们所谓的任务 agent去执行，所以每个agent都挺短的，你可以用相当简单的上下文工程，就让它跑起来，但在那种你想要的能同步对话，还能运行这些自动化的，通用agent的世界里，产品体验上大家想要的，其实就是一个大一统的线性聊天，所有东西都在一个聊天里，从产品体验角度，这非常棒，但工程实现上会变得特别复杂，因为你不能直接把无限长的聊天历史，都喂给LLM 即便你能这么做，成本也会奇高无比，而且你也不想让每一次自动化任务，都把之前运行中产生的，一千万个token都发过去，所以我们不得不彻底重新思考，上下文工程的工作方式，提出这样的想法，如果我们不把历史，作为发送给LLM的内容，而是把历史放在文件系统里呢，让文件本身成为agent 马克之前也提到过这个想法，我觉得大家也已经摸索出来了，我们大概在11月做了这个切换，我们说好吧，我们真正需要的是一个，保存你历史的文件系统，然后实际发送给LLM的指示提示，提示它文件系统里有什么，以及需要读取哪些东西来完成工作，这样一来，我们就能把agent的规模扩展上去，包括能够发送的聊天消息数量，还有很多简单的部分，我们未来会扩展，但基本上你能从只能装进context window的内容，扩展到能装进文件系统里的内容，文件系统里能塞进多的多的东西，还有一堆其他东西我们也重建了，另一个我们重建的大模块是computer use功能，我们刚发布的时候 computer use起初只是一个附加组件，你可以配一台Linux机器，其实最开始是Windows机器，后来才换成Linux机器，它像是外挂上去的，也确实有点像是事后才想起来的功能，你可以用它来做某些事，它勉强能用，但你用agent做的大部分事情，其实跟它没关系，而现在computer use成了产品的绝对核心，所以基本上你做的所有事情，都是在跑shell命令，接触文件系统，接触数据库，我们现在有一个高度集成的浏览器使用体验，每个agent都有一个headless VM和一个浏览器虚拟机，这些虚拟机的状态能在多次运行间保持，让你能做出很多很酷的事情，而且它已经处于关键路径上了，所以现在如果我们的computer use功能挂了，整体就都挂了，而以前它只是个事后想到的东西，我们也重新思考了集成的工作方式，从产品体验上看，可能大家看不出太大差别，但我们把其他系统接入Tasklet agent的底层架构，彻底重新设计了，基本上是要让agent 对这些连接，有更多的控制和管理，一个简单的例子，产品体验上的改进，以前不能把多个，同类型的实例连进来，比如你不能在一个agent上，连三个不同的Gmail账号，而现在可以了，所以底层的架构都重建了，可以说在过去六个月里，基本上每一行代码，可能都被动过了，我们大多数基础假设，都被推翻了，但产品依然能做很多以前能做的事，而且希望比以前好得多。 [00:08:12]

Nathan Labenz：是啊，这很酷，所以基本上你是想不出，有什么东西，在过去六个月里还没变过的吧？

Andrew Lee：真没什么重要的留下来了，视觉设计完全变了，应用结构也完全不同，对，连接系统不一样了，我们使用计算机的方式不一样了 agent的核心不一样了，上下文管理不一样了，我们做compaction的方式也不一样了，所以全都是新的。

Nathan Labenz：好，我们聊聊这个 compaction 因为我觉得，大概在两次对话之前，我们得出的一大要点，就是缓存的极端重要性，你当时说长上下文，确实非常有效，但显然也很贵，而缓存，尤其是Claude那种，有90%折扣的缓存定价，对于让某些功能真正跑起来，而不把你的公司拖垮，是至关重要的，就像那个经典的梗，我的公司要挂了，听你这么说，现在情况变了很多，更偏向于指针提示这类方式了 [00:09:34]

上下文压缩与模型进展

Nathan Labenz：更偏向于指针提示这类方式了，那现在具体是怎么做的？而且显然，大家现在在token上花的钱都很多。我自己在Tasklet上，哪怕是最高订阅计划，最近也经常碰到用量上限。所以你是为我做上下文管理的，我应该了解什么，从你这儿我能学到什么，关于现代环境下最好地管理上下文的经验。

Andrew Lee：对，缓存实际上变得更重要了。因为现在真实的上下文都在文件系统里 agent做基础操作时，需要执行的工具调用，就多得多了，你得把一堆文件，加载进来，等等，所以我们如果不想，让成本飙到天上去，就真的必须让缓存，发挥好作用，这一直是我们，最关注的重点，我们在12月份上线了，一种新的上下文管理方法，基本思路是这样的，你把整个聊天历史，放进文件系统，这样所有内容，都可以在文件系统中，访问到，然后你找到一种方式，用固定数量的token 来归纳整个历史，其中把最近的内容，高粒度的放进去，比如你最后说的那句话，可能大部分，甚至全部都还在里头，还有越早的内容，保真度基本上是逐渐降低的，如果你有一段很长的对话，在当前这一轮，也就是正在运行的那个部分，所有的东西可能都还在，包括所有的思考块，所有工具调用的响应，还有各种文件什么的，大概率会根据运行的长度，发送给LLM 不过对于大多数较短的运行来说，情况就是这样，上一轮的内容，大部分也会在完整的用户消息，助手的回复，工具调用的参数，工具调用的响应，还有思考块，这些可能都有，但当你再往前回溯，我们就会开始去掉思考块，开始去掉工具调用的响应，或者至少是截断这些响应，再往前我们会截断工具调用的参数，接着干脆去掉参数，然后开始折叠工具调用压缩助手消息，最后我们会用基于LLM的摘要来处理，我们是按时间段分桶来做的，这样能尽量减少对缓存的影响，基本上你是想尽可能避免动到前缀，所以时间越往前你就会进入不同的桶，每个统有不同的压缩级别，这些桶越旧，添加新内容的速度也越慢，一旦达到某个阈值我们就把它们压缩，这个系统实际上运行的挺不错，核心理念就是你通常更关心近期的东西，并且你信任agent在需要时自己去查，我得说它并不完美，确实有人反馈agent会忘事，运行成本也确实很高，但我觉得整体还行，我们的计划是继续深耕这种架构，而且我们有很多改进的想法，不过这种越往回保真度越低，并且分桶做缓存感知的方式，我认为是正确方向，那么这个缓存多久更新一次，比如我有一个每天运行的agent 你们会尽量让缓存在

Nathan Labenz：隔天仍然有效吗，还是说，每天都会有一个全新的缓存，走完整个会话和所有交互，然后第二天又重新开始，或者说，重新开始的频率是怎样的 [00:12:49]

Andrew Lee：这里面有两部分，一是我们这边何时更新，也就是我们决定，送入LLM的压缩历史是什么样的，二是在LM端，我们做怎样的缓存，前者的答案是，每次有任何操作时，它都会增量更新，甚至在运行中间也可能更新，如果一个轮次特别长 token很多，可能就会在那一轮里，开始压缩，我们持久化这些，压缩结果的原因，是因为计算压缩的成本很高，比如对较早的部分，做基于LM的压缩，会吃掉大量token 如果你每个小时都跑触发器，每次启动都要压缩一大段历史，那就太贵了，所以我们会把这些都保留下来，在模型侧的缓存，则取决于具体用哪家供应商，以Anthropic为例，我们用的是五分钟缓存，所以它不会保留很久，这背后的假设是，你要么在活跃绘画中，要么在一轮对话的中间，这种情况下，五分钟缓存就够了，或者你是在等，下一个触发器运行，而大多数人的触发器，不会每半小时跑一次，而是每几小时，甚至每天跑一次，所以那种要跨长远缓存的情况，并不常见，不同的供应商，有不同的缓存方案，比如OpenAI 就有更好的缓存原语，我也很乐意聊聊那些，这挺有意思，所以基本上是持续维护 [00:13:57]

Nathan Labenz：高层摘要，用来喂给LLM 然后用很短的那种，单次突发式缓存，来降低单次agent运行中的，增量调用成本，听起来至少，对于Anthropic来说，缓存命中

Andrew Lee：通常只限于一次运行期间，大部分跨运行的缓存，是命不中的，这是目前的做法，有一点我想提一下，我们现在的系统构建方式，基本上跨用户，是没有缓存收益的，实际上即使是，每个agent缓存，也是按agent独立的，我们可以做一些改动，跨agent甚至跨组织和用户，做大量缓存优化，但我现在不想谈具体细节，因为那还是将来的事 [00:14:32]

Nathan Labenz：但我觉得跨agent这块，确实有很大的省钱潜力，好的这很重要，好我想绕回来，聊聊OpenAI那个问题，因为你们一直算是 Claude的坚定派，而且你们另一句，让我经常想起的话，就是永远押注在模型上，我觉得可以说，这个押注在过去六个月，确实走得很顺，很明显我们看到了一些，最引人注目的模型，发布社区普遍把4.5和4.6 看作某种质变，不少任务，从跑不通变成了跑得通，大家的反应是，哇，我现在真能靠这些模型，稳定地完成挺通用的知识工作了，现在我很想听听，你如何描述我们看到的这些进展，或许你可以谈谈，哪些新用例被打开了，有没有什么让你意外的地方，还有考虑到已经能做这么多事，有哪些事居然还做不好，这也挺让人意外的，然后我们再来聊最新的模型，所以先给我讲讲 4.5、4.6的历史 [00:15:53]

Andrew Lee：然后再谈 4.7 和现在的 5.5。是的，我觉得整体上永远压住模型的策略，我完全同意，确实经受住了考验，我们刚开始做Tasklet的时候，用的是Claude 4 那个模型其实能走挺远，效果相当不错 4.5是一个重大的突破，它在做计算机操作上，好用了很多，能更好的处理各种连接工具和启用流程这些，而且它是在Tasklet非常早期的阶段发布的，对我们来说是个很大的加分，另外 Opus的成本下降对我们也很关键，我记得大概是12月，价格一下子就降了下来，一开始我们基本上只能让大家用Sonnet 后来Opus的价格从15 降到了 5 这对我们又是一次大解锁，我觉得4.6是一次扎实的渐进式提升，在计算机操作上又更好用了，这对我们来说越来越重要，无论是headless还是headful，场景还是代码生成方面，而且它让我们能做Instant Apps这个功能，我觉得我们待会可能会聊到，那个功能非常酷，至于4.7我们实际上还没有推 4.7在某些方面强了很多，比如在写代码，做那种长项目的单次生成上，表现好很多，但对于我们支持的那种迭代式知识工作，它好像并没有带来特别大的飞跃，而且成本高了很多，他们做的token化改动，让我们的成本增加了大概30% 这对我们影响很大，因为我们基本上会把成本转嫁给用户，所以我们决定不把4.7作为默认推荐模型，我们还是会推出4.7 但会作为高级用户选项，如果用户想用的话，并且会注明它实际上贵不少，所以我觉得这方面的进展还是很棒的，我们一开始就一直这么专注 Anthropic原因是我们的agent的核心基础，比如它能在连接发现过程中导航，在agent里激活正确的工具，然后按它自己的方式管理上下文，这些核心内部机制需要一定的基础智能，其他模型根本做不到，你基本上没法用同一套harness在它们上面跑，还指望能正常工作，但现在情况变了，这让我们特别兴奋，不过完全依赖这一家供应商，也有点吓人，虽然他们很棒 Anthropic 的降档模型确实厉害，别误会我的意思，如果用那种思路，供应链风险其实无处不在，没错，但最近GPT-5.5已经变得非常好用了，我觉得对我们的用例来说，它比5.4有了巨大的进步，到播客播出的时候，我们大概已经公开宣布了，所以它很快就能上线，而且它在我们那套Harness上跑得非常好，我认为在大多数用例中，它都能和Opus 4.6 一较高下，所以这真的挺让人兴奋，而且我对OpenAI今年的路线图相当乐观，我觉得他们去年在算力上下了很大的赌注，现在正在显现出来，他们可能还会保持一段时间的领先，而且很明显，他们已经把业务重心更多的转向了我们这类用例，你看到Codex在大概六个月里的进展，如果他们把这股劲花在围绕这类agent用例的模型上，我觉得影响会非常巨大，我们前一天跟OpenAI签了协议，也会在那边发布东西，我们在那边也下了很大的赌注，不过其他地方也有进展，最新的Google模型已经相当扎实了，但在我看还没到Anthropic或OpenAI的水平，不过他们进步非常快，已经接近很多了，另外我们也在试用DeepSeek 和 Kimi 最新的Kimi据我们看可能比Haiku还要好，而且更便宜，所以我觉得我们很可能会看到这些模型被整合，进Tasklet 我预计在未来几个月里，我们会有Anthropic模型 OpenAI模型，开源模型、Google模型，我敢说Anthropic的模型仍然会是最好的，在大多数情况下也是最推荐的，但用户会有多种选择

Nathan Labenz：对某些场景也会有不错的成本优化选项，这么多后续问题啊，要不我们先聊聊，你和Anthropic之间那种微妙的舞蹈吧，我想象内挺微妙的 [00:19:51]

Anthropic竞争与平台定位

Nathan Labenz：我想象内挺微妙的，然后再对比一下OpenAI现在带来的东西，我不知道你可能清楚，当你买一个Claude Max订阅并用到上限时，API成本跟有效token成本的比例是多少，而且，很显然，自从我们上次聊过之后，出现了整个OpenClaw现象，它本身也带着跟你们之间的一堆戏剧性，你们可以用不能用，我们得付API价格，我们降低限额，我们从xAI买算力，然后又提高限额，从你的角度看，在一个你，一边在它上面搞构建，一边又在某种程度上和它竞争，而且它还在定价上，在不同层面压你一头的平台上，干活是什么感觉

Andrew Lee：没错，这确实是一种挺有意思的关系，一方面这些模型是真的很棒，对我们的用例超级好用，而且它们的团队也很帮忙反应快，我们经常和它们沟通，它们也在很努力地支持我们，我们能提前拿到东西，它们也听取我们的反馈诸如此类，所以他们绝对是完全催生了我们的业务，并且在努力让它运转起来，这很棒，所以是很棒的合作伙伴，我不想让任何人觉得我有什么别的看法，但另一方面，如果你看我们的数据，当有人离开Tasklet时，他们去了哪里，大约80%的用户都流向Anthropic的产品，他们是非常直接的竞争对手，我认为在不同的用例中，我们或者他们的产品会各自胜出，但很明显他们是非常直接的对手，而用户选择他们的头号原因，就是他们已经有了Max计划，不想再额外花一笔钱在Tasklet上，所以基本上，每次他们发布新模型更新时，我们都觉得这很棒很厉害，但每次他们发邮件说，你的Max计划现在更酷了，我们就惨了，这只会让事情更难办，而且他们肯定会补贴那个计划，这确实让用户对某个价位，能换来什么，形成了某种扭曲的预期，所以成本问题，一直是我们非常头疼的事情，我们得尽量帮助用户，更高效地使用产品，并让他们理解，嘿，我们其实是在，非常微薄的利润下运作，想尽办法让它对你们便宜一些 [00:21:37]

Nathan Labenz：这确实是一场有趣的博弈，你知道这个比例是多少吗，还是说，对你们来说也是不透明的，我不知道这个比例，不知道，对，有意思，感觉这个比例应该不小

Andrew Lee：凭直觉我猜，大概得有5比1 或者更多，但我不确定，我也会这么猜 5比1甚至可能更高，看起来确实相当可观，对，是的，那确实影响很大

Nathan Labenz：那么关于Anthropic的博弈，再问一个问题，显然，这也给了你们很大的动力去拓展，并尝试让自己定位得更独特一些，你怎么看这样一个事实，他们在打造产品体验，以最大化自己模型能力方面，具备先天优势，我意思是，我们现在越来越多地看到，模型是在第一方Harness中训练的，而且我对Harness这个词还有个问题，不知道，这到底是不是该用来思考，这件事的正确范式了，但你如何给自己定位呢，你之前提到，在某些用例下，你觉得Tasklet超过了你们，能从第一方Claude产品中获得的东西，我想问的是，这怎么可能会发生，考虑到他们掌握所有的内部知识，有提前准备的时间，还有那种紧密耦合的优势 [00:22:38]

Andrew Lee：你们要怎么去和他们自己，将要构建的东西竞争，从高层次看，我倾向于认为，大家其实都在构建同样的东西，现在有这么多不同的agent公司，基本上随着模型变聪明 agent也有了更多通用工具，比如计算机使用文件系统之类的，你就能够做非常多相似的事情，你可以用Claude Code 也能在Claude Code里，做各种非编码的事 Codex和Claude Code 还有好多其他创业公司的产品，都能相当好的完成编码和非编码任务，我觉得你可以在一定程度上做出差异化，而差异化的点真的在于你优化的是什么，以及人机工程学是怎样的，以我们Tasklet为例，你完全可以用Tasklet写代码，比如把它跟GitHub连上，让它生成PR 它做这个完全没问题，我们自己的市场营销工作就这么用，假如我们要发新博客文章什么的，我会在Tasklet里写好内容，然后让它自动生成PR 这都行得通，但如果是重度编码，它就不如专门的编码Harness 那么聪明，也肯定不如那个划算，而且使用起来也肯定没有那么顺手，因为专门的编码Harness 会嵌入到类似Conductor这种，针对编码工作流设计的东西里，而我们的产品并不是这么设置的，所以我看到一个未来，你可以随便挑一个AI Agent 然后几乎什么事都能做，但不同的agent 会有不同的成本和性能取舍，也会对不同类型的工作，有不同的人机功效，我们真正擅长的是，为公司提供7×24小时的知识，工作自动化，特别是那些不是个人工作，而是公司共同拥有的工作，举个简单的例子，比如公司有个复杂的开票流程，你不想让它在你本地，自己的工作环境里运行，对吧，万一你合上笔记本电脑，但公司还得给别人开票，那就糟了，你也不想把它放在OpenClaw里，再丢到角落的Mac mini上，因为万一有人绊掉电源线，你的开票就没法运行了，你真正想要的是它在云端运行，能让多人管理，而且周围有大量基础设施来做管理和监督，有审计日志有护栏，还可以控制不同agent的成本，所以团队支持这类功能，大家其实非常在意，而这也正是我们特别出彩的地方，要把这些做好，很多底层工作，其实和agent的构建方式紧密相关，我之前提到过，我们的上下文管理器，之所以把它设计成那样，就是因为你们希望能够用触发器，像定期消息那样发到agent里，这意味着，如果你有一个每次收到邮件，就触发的agent 它一年可能会运行个一万次，所以你需要的是一个，能运行一万次，还能记住对话开头的那些事情，并且行为始终靠谱的agent 这跟去优化一次编程会话，完全是两码事，你再看Claude Code那种重置上下文的方式，在编程环境里非常合理，但放到一个要处理你所有邮件的世界里，就说不通了，我觉得这就是我们的差异化所在，关于差异化我还想提几点，第一这个市场实在太大了，你看编程agent这个领域，你可能会说Claude Code和Codex明显已经赢了，但Cursor的估值都要干到600亿美元了，而且就算是排名第四第五第六的，比如Cognition活得挺好 Factory也活得挺好，连Windsurf虽然被卖了，也算是个很不错的退出，所以如果我们最后真成了第一名，我当然开心，但就算只是第五或第六名，那仍然可能是一个非常巨大的退出，最后一点可能也是最重要的一点，当我们去向企业推销时，我们真正想帮他们做的是在公司内部，真正把AI用起来，实现自动化，而典型的企业，他们可不想把所有时间都花在研究AI模型上，或是去读哪家实验室最终会赢，他们想选一个能持续服务好他们的平台，并且能随着时间享受到各家模型进步的好处，所以我们就可以进去跟他们说，嘿把注押在我们身上，不等于只押Anthropic或者只押OpenAI 或是任何一家；押我们，等于押注所有人，我们会给你提供Anthropic的模型 OpenAI的模型、Google的模型，还有所有开源模型，然后我们会在中间做一个中立的仲裁者，帮你决定具体用哪个，如果我们能进一步做出，帮你按任务选最合适的模型，帮你优化在不同模型上花销的功能，你就会信任我们，因为这些东西没有一件是我们自己的，我们从中赚的利润是一样的，我们是纯粹的中立方，但反过来，要是你回头去找Anthropic 他们目前就只有自家产品，即便他们以后决定在自己的产品里，也提供别的模型，虽然我觉得他们不会这么做，但即便做了，你有多大把握，他们会用一种中立的方式来做呢，所以我觉得这确实是我们推销词里，相当有说服力的一点 [00:27:59]

Nathan Labenz：我觉得你把这件事处理得算是最巧妙了，在能力曲线，还在跨越关键门槛那段时期，你先是压住Anthropic 几乎把宝都压在当时最强的模型 Claude上把它优化到极致，然后现在市面上已经有好几个模型，都能提供人们想要的那种性能了，你又顺势转向，变成了模型层，织上一个更中立的抽象层，这在当时可不那么显而易见，我不太确定，你是不是早就看透了这一步，但对我来说，真不是那么明显，大概半年前，我可能会觉得，你们那种all-in Claude的处境，挺玄的，但我觉得你在好几个层面上，时机都踩得很准，那你觉得，这里面有多少是远见和天才，又有多少是运气好呢，哈哈，我很高兴你这么想，这确实在很大程度上都是计划好的 [00:28:24]

Andrew Lee：而且我觉得效果真的非常好。对，我对现在这个结果很满意。

Nathan Labenz：好，我们先聊一下 harness 这个概念 harness 这个词本身总让我想到，要控制和驾驭某种野性难驯的动物，让它为你出力，尽管它可能更想干别的，过去十天，我带着孩子，开着特斯拉FSD 车跑了一趟长途，去了好多古迹，马跟我这FSD并置在一起，还挺滑稽的，不过我想说的是，就像对付一头不听话的牲口，我们现在也想让模型，老老实实走在正轨上，对吧，让它照你的意思做，而如今就像你刚才说的，我们有了更多办法去给模型提示 [00:29:32]

Harness机甲与多模型适配

Nathan Labenz：我们有了更多办法去给模型提示，比如告诉它，这儿有个文件系统，你需要什么可以自己去拿，我越来越觉得 Harness这个概念，或许已经有点过时了，现在我们在做的，更像是在说，这就是你活动的世界，重点不再是限制模型能干什么，而是拓展它能干什么，你怎么看这种在收窄和聚焦，与放开权限，解锁新可能之间的张力

Andrew Lee：现在模型的能力，有些时候，甚至会给用户带来惊喜，我之前倒没把harness想成一种约束，不过你提的这点很好，大家平时确实是那么理解这个词的，我更愿意把它想成一套机甲，对吧，我同意你的看法，目标就是让那个agent 或者那个LLM 能在真实世界里真正去做事，要做到这一点，它就需要存储，需要算力，得能伸手去连接各种API 还得能和用户对话，这里头涉及的东西非常多，我跟那些不太深根Harness圈子的人聊的时候，发现大多数人会以为 WireLM产品就是在模型上面，直接搭了一个很原生你打字，它回复的东西，他们以为屏幕上看到的东西，直接发给模型，模型就全搞定了，但那种印象已经越来越不准确了，把你看到的界面翻译成，对语言模型调用的背后，代码正变得越来越复杂，而且我觉得这趋势还会继续，这些Harness的复杂程度，将来可能会再往上翻十倍，但我觉得这里也会出现一些重大突破，让他们的能力大幅提升，尤其是在我们处理记忆的方式，进行监督和控制的方式，还有连接其他工具的方式上，所以我非常看好这里的机会，这些系统只会越来越复杂，而且说不定我们该起个新名字，也许应该叫它机甲而不是缰绳，你怎么看这个，我觉得这是现在AI开发者社群里，最有意思的争论之一了，到底哪个更重要 [00:31:20]

Nathan Labenz：是模型还是Harness 两边的极端观点都有，我收到过一些邮件说，模型已经不重要了，全是Harness的天下，反过来也一样，显然这两种极端都不对，不过我从历史上看，可能稍微偏向某一方，不知道你看没看过英国AI安全研究所BC 对，是安全研究所出的一张图，上面是能力随时间变化的曲线，一条是用极简Harness 就是那种最基础的原生配置，另一条是用当时最好的Harness 当然，两条线都在往上走，但一年前用最好的Harness 跟用原生Harness 能达到的能力水平，中间的时间差还比较大，现在这个差距已经有点缩小了，一部分原因，可能仅仅是模型发布更频繁了，这基本上把每个优势窗口都缩短了，一部分原因，也可能是模型被更深入的训练来使用Harness 所以它们开箱即用就很好，你不需要花那么多功夫去补偿它们的弱点，但我想我的总体总结是，看起来模型本身似乎更重要，而且这一点你没法改变，对于任何给定的模型，用当下最好的Harness 你能提前享受到多少未来的优势呢，似乎量并不大 [00:32:49]

Andrew Lee：但听起来你可能有不同看法，所以，如果你觉得我说的不对，那理由是什么，我觉得随着模型变得更好，他们能够替代好的Harness 比如一个现在的模型配上个糟糕的Harness 也会比一年前的模型配上很好的Harness要强，我同意这个看法，而且我认为这个趋势会持续下去，但我也认为效果是倍增的，它们彼此是正交的，不同维度上的东西，没有理由不把最好的模型，放到最好的harness里，你可能会说，考虑到指数级的进步，这实际上只能给我们，争取到六个月的时间，或者类似的，好吧，但这是六个月，不过我觉得更重要的是，唯一的衡量标准并不是智能，对吧，在这些真实的生产系统中，智能只是其中的一部分，以Tasklet为例，我们做的事情大部分是，一旦模型加上Harness足够聪明了，就可以自动化特定的工作流，比如每天订午餐，它确实能做到，我们这样运行了大概六个月，不会频繁地去改它，智能上的渐进式提升，其实没那么重要，但性能和成本却很重要，所以如果你看Harness 并觉得它的唯一作用，就是让东西更智能，那好吧，它只是给你在模型的指数进步之上，争取了一段固定的时间，听起来可能不错，但没那么惊人，但是它可能在成本上，带来显著的差异，还有其他属性，成本可靠性，可监督的能力，以及速度，我觉得这些东西，对商业产品来说非常关键，就我们的Harness而言，你得到的好处，包括有好看的UI侧边栏，会在合适的时候，弹出来展示信息，有很好的工作状态指示，你能实时看到它在做什么，你可以让任务状态，跨长时间保留，还有很好的性能，和成本之间的权衡，我觉得这些对于商业产品来说，绝对不能被低估，对，如果你能让它用Haiku 而不是Opus来跑，那效果会有很大改观，尤其是在一个算力稀缺的世界里，我们似乎越来越处于这样的状态了，好，如果可以让我插一句一个很好的例子，我甚至不知道你是否把这叫做Harness 但你看看Anthropic正在做的事情，我印象中他们称之为Supervisor Agent 或者我忘了具体怎么叫的，基本上它们有一个系统，可以让你注入一个工具，允许一个较小的模型，去调用更大的模型，这是它们最近一直在谈论的，相对较新的东西，你基本上可以做到，接近大模型的性能，但绝大部分工作，都用小模型来完成，这是一个很大的胜利，如果你有这样的能力

Nathan Labenz：为什么不用呢，对有道理，所以当你考虑最好的Harness 是什么样子，特别是当你转向，多供应商的模式时，你觉得你会在多大程度上，为每个模型去构建一个专门的Harness 而不是尽量在所有的模型之间保持统一呢？传统上大家会想，我们不可能为所有这些不同的模型，去定制构建这么复杂的产品，我们必须保持一致，但显然，旧的规则已经不适用了，那么你的策略是什么？对于你想要推出的每一个新模型，你会在多大程度上为Harness做定制？对，这实际上，正是我现在脑子里，想的事情 [00:35:52]

Andrew Lee：我觉得理想情况下，越少越好，因为我们想支持，很多模型，而且要有一个东西，你知道，要在两边都维持住，其实是很难的，但我们又希望，这些agent 能在不同模型之间切换，所以呢，比如你让一个opus 去跑某条路，它维持了一组状态，但接着你换到，同一个agent 让它跑另一个模型，这时候你就得想办法，把东西做好翻译，这真的会变得很复杂，所以我们希望尽可能让它们保持相似，我觉得到目前为止我们还做得不错，而且我们的做法大概是你懂的，也许我们会在prompt上做一些微调，试着去解决其中一个模型里的问题，同时又尽量不破坏另一个模型的表现，我觉得目前来看这套做法基本上行得通，我觉得随着时间推移，这些东西的API已经趋于统一，基础能力也趋于统一了，所以我希望以后会越来越容易，而不是越来越难，不过我也能想象，我们将来可能会针对特定模型，做一些特别的harness之类的东西，我也在想怎么用一种，非常模块化的方式来做这件事，这样就不会产生太大的额外开销，但是这绝对是我一直在想的事情，除了模型能力这个层面，你之前还提到过，不同供应商的缓存原始能力，也是不一样的，所以呢

Nathan Labenz：从这个层面讲，你至少是别无选择，就算不是完全没得选，我意思是，你也许可以用相同的上下文，但你终究会需要，某种不同的实现，对吧，去应对那些就是不一样 [00:37:53]

Andrew Lee：跟模型本身分不开的东西，对是这样的，就拿Anthropic和OpenAI来举例 OpenAI有一个，非常简单的缓存API 基本上就是，它们会自动缓存任何前缀，并保留24小时，而Anthropic的缓存API 就明确的多，你在调一次调用里，最多只能缓存4个点，而且需要写多的多的代码，才能让它跑起来，所以在这个例子里我们还算幸运，因为一旦你做好了让Anthropic正常运行的工程，再去适配OpenAI就相当容易了，但你说的对，在那个具体场景下，我们确实有不同的代码来把我们的上下文

Nathan Labenz：翻译成各自可缓存的上下文，另外啊，你刚才提到了五家供应商 Anthropic、OpenAI、Gemini、DeepSeek和Kimi。Grok 不在这个名单上，还有那个叫什么的新Meta模型，以及GLM 或者 MiniMax 像这类其他的，还有没有呢，划分的界限在哪里，你怎么考虑谁入选，谁出局，要跟得上这些东西的最新动态，真的太难了 [00:38:41]

Andrew Lee：内部我们倒是有能力，很快地去测试模型，但是真要把它发布到，生产环境里，难度就大多了，因为举个例子来说，不同供应商，在Thinking Blocks的工作方式上，就是不一样的，而且比如万一有bug 你可能只是去，调调prompt什么的，所以我们并没有，推出那么多的模型支持，不过像GLM我们内部测过 Google模型也测过，还有DeepSeek 大概还有其他一些，我一下想不起来的，我现在觉得吧，而且这类事一开始，大多是凭感觉对吧，你就是进去上手玩一玩，然后判断这东西，是不是离前沿水平足够近，比如我们值不值得，在这里投入一些精力，通常的答案都是否，我觉得那些我们认定值得做的，比如Kimi DeepSeek和Google模型，当然显然还有OpenAI 这些事我们觉得好吧，这确实挺接近前沿的，所以值得做 [00:39:06]

模型分化与OpenAI合作

Andrew Lee：所以值得做，但将来这个名单里估计还会有别的，我对Grok一直没太关注，也许我应该多关注一下他们，我很少听到有其他开发者，用他们的模型，但他们确实他们看起来

Nathan Labenz：真是投了非常多的钱，所以说不准情况也许会变，是在我看来，只要埃隆自己没有退出，我们就不能把他排除在任何竞赛之外，但我同时也同意你的看法，我自己也不怎么用，只不过，我上周在特斯拉里写东西的时候，刚好有机会用了不少，它做得还不错，你懂的，而且那个语音模式挺好的，不过，还是多少，有点感觉，当然，这不只是模型的问题，也跟整合有关系，但我会说，我在特斯拉的控制台里，用Grok的体验，肯定比我用Anthropic、OpenAI 和Google模型要粗糙

Andrew Lee：我们的用户还挺厉害的，我们的用户对这类东西是很精明的，不是所有人，但有相当一部分用户，会主动去尝试这些东西，所以我们就能开始看到相关的需求，你记得吧，回想当初，那是pre-shortwave时代之前了，我们当时大概在用GPT-4吧，我们以为自己用的是最好的模型，我们用它打败了一堆东西，然后呢在非常短的时间内，大概是Claude 3.5 发出来之后，我们就开始收到一堆人的邮件，质问说你们怎么还在用那个老模型，我们当时的反应是，这些人肯定是消息有误，我们用的可是市面上最好的模型，结果证明他们完全是对的，所以我们也算是被用户推着走了一路，但话说回来，我还没见到有用户跳出来说，你们得上Grok 那才是最前沿的模型 [00:40:51]

Nathan Labenz：虽然也有一些用户问过OpenAI的东西，你认为最可能出现分化的地方在哪里，这是另一个大问题，你刚才提到，你觉得在能力方面，各家正在趋同，这对你来说，支持这么多不同的供应商，希望会让复杂性变得可控，但我也听到另一种说法，那就是，我们正在看到越来越多有意义的差异化，而且老实说，我也不知道哪种说法正确，我自己有时候也会两种感觉都有，但如果你要聚焦在特定领域，你认为在未来一段时间里，模型最可能在哪里出现有意义的差异，我想到的一个候选是 Agent 和团队，比如跨实例的委托，这类事情怎么运作，好像还没有人真正，我认为有一个元观点是，那些还没有人真正搞清楚的东西，可能是人们会采取最不同策略的地方，然后一旦有赢家出现，大家又会趋同，但目前，似乎还没有人有超棒的方法，让模型的多个不同实例一起协作 [00:42:38]

Andrew Lee：这是我的一个想法，但你怎么看，最可能出现重大差异的地方在哪里，在主流实验室里，我看到的所有情况都告诉我，它们正在趋同，而且是因为它们互相盯着对方，举个例子，拿Opus 4.7来说，我觉得基本发生的，这可能是我随口说的，是，它们开始意识到 Codex在很多事情上比Claude Code更好，于是它们就想，嘿我们怎么把我们的模型做得更像Codex 接着他们就做了一堆RL调整，让模型有点不一样的个性，变得更精确一些，结果Opus 4.7用起来，感觉就更像在和Codex对话了，而我觉得Codex之所以变得好，也是因为模型在AI方面改进了，而且他们在观察心想，哇Claude Code在写代码上变得非常强了，我们怎么也能做到，所以在我看来这两家实验室，是在互相盯着互相模仿，比如说5.5，在通用长文，工具调用方面好了很多，我觉得就是因为，他们也在互相偷师，至少这两家，我认为他们互相盯得非常紧，而且我看到一种，你来我往的态势，不过让我兴奋的是，有很多新实验室，融了大笔钱，在做完全不同的东西，要是有人突然，从左场杀出来，用一种完全不同的方法，我不知道你了不了解 JEPA，就是Yann LeCun的那个东西，我昨天终于看了一个长视频，它看起来真的很迷人，非常不一样，我不知道它最终能不能成，但毕竟有10亿美元压在这上面，赌这种完全不同的LLM方法能成功，我们拭目以待吧，另外还有像Flapping Airplanes这样的，他们的方法是让我们用少得多的数据，所以我的感觉是，所有主流大实验室确实都在互相盯着对方的肩膀，而有一批新实验室在尝试彻底不同的路线，这就是我对当前格局的看法，所以是趋同，除非有人能靠某种算法层面的洞见，像摇晃雪花玻璃球一样带来突破，这是我对Harness方面的猜测，其实我也在想Harness在能力上也在趋同，这很大程度上是因为，事实证明，最好的Harness做的都是底层原语，对吧，比如我们这边，就没有特意为处理邮件准备的高级功能，我们有文件系统，数据库Shell 还有浏览器，以及一些简单的原语，比如写代办，设置触发器，这些都是非常底层的东西，里面没有特定工作流的内容，我觉得这才是正确的做法，我们差异化的地方不在于能力，而更多是在成本，人机功效和速度上，这些才是区分点，你提到和OpenAI签了协议 [00:44:36]

Nathan Labenz：我猜具体细节肯定有保密协议之类的，但我很感兴趣，观察的一点是，一个明显的分歧在于 OpenAI现在如何定位，自己跟Tasklet这类产品，以及像OpenClaw这样的开源工具包的关系 OpenAI似乎非常倾向于，让你可以在这些其他场景里，使用自己的OpenAI核心账户，我想问的是，这到底会是怎样的形态，又会如何让你的处境变得更复杂，比如说，如果我能用OpenAI账号，登录并且带上我自己的Token 那你的定价模型就彻底变了，对吧，因为这样一来，你的商业模式就更像传统SaaS 智能成本不再从你这里流过，不过我不太确定，他们在这方面的进展到底如何，我知道他们允许我在OpenClaw上这么做，我还没在网上看到太多别的类似东西，说实话，我以为这会来得更早一些，我猜可能是他们算力受限，所以没有优先做这个，但我学到了一点，算力受限，这种说法简直是个万能答案，有时候是真的，有时候未必，但至少能交叉，那么你觉得未来我会不会跑到Tasklet 直接连上我的OpenAI账户，用我自己的token [00:46:20]

Andrew Lee：这又会怎么改变，或者说复杂化，你们现在做的事情，是的，这是个好问题，显然Anthropic选择了完全相反的方向，而且我们很庆幸自己没陷入那种情况，他们当时可是在切断别人的API访问权限，我也不确定，对吧，我们大概想看看这事会怎么发展，是不是会流行起来，感觉OpenAI会长期这么干，对我们来说整合进来，让用户使用他们自己的Token 完全说得通，而且我认为我们提供的价值，远不只是做个token转售商那么简单，所以我不觉得这一定是威胁，反而可能是个不错的用户上手体验，从竞争的角度来看，我们有没有担心 OpenAI是不是在考虑，把用户关系攥在自己手里，如果用户已经有了OpenAI账户，为什么还要在我们这里注册，我觉得我们现在可能比以前，更担心了一点，在他们砍掉Sora之前，我不知道你记不记得，那次关于Sora的大泄密，我们原本的印象是，他们非常专注于自己的模型，专注于消费者领域，但对商业生产力这块，并不太上心，在我看来，从他们去年秋天，推出Agent Kit的方式，就能看出来，感觉他们并没有拿出真本事，所以我们当时想太好了，我们在跟Anthropic激烈竞争，但OpenAI盯着的是，消费者和模型，我们可以趁这段时间，往前跑一阵，当他们砍掉SORA 并且那次泄密提到，嘿我们要进军商业生产力的时候，我们担心的，或者说目前有点担心的局面，基本上就是Codex当年的翻版 Codex从一个陪跑选手，在相对很短的时间里，摇身一变成了，可以说是最好的编程agent 所以，如果他们调集精锐力量，来专注做这件事，而这块又看起来很有竞争潜力，他们可能真的会跟我们正面交锋，不过话说回来，到目前为止，我们还没看到任何迹象，我还没遇到过哪个客户说，我离开Tasklet 去用OpenAI的产品了，所以我们等等看看，会不会真的出现这种情况，但是有可能的，是啊，整个局面里有太多奇怪的联盟，同床异梦的伙伴和合作，所有这些，对我来说最奇怪的是，那个Anthropic SpaceX的公告，你知道Elon之前，把他们骂得狗血淋头，而且双方明显在激烈竞争，结果转头就做了，这么大的商业交易 [00:48:31]

Nathan Labenz：所以现在这时候谈合作，真是太诡异了，对，毫无疑问，我倒是乐见其成，不管怎么说，我对Anthropic的感情，确实比较复杂，你刚才说的那些正面评价，我都有同感，我觉得他们在安全方面的工作，在好几个字方向上，都绝对是首屈一指的，这一点几乎没什么争议，那份宪法文件，我不夸张地说，当年读的时候差点落泪，因为我觉得，那真是一份非常美的文件，他们做的可解释性研究也非常了不起，但是，要是有人搞出一个，失控的递归自我改进循环，我得说，他们现在可能是最有可能的候选者，所以，这感觉特别奇怪，不过，我确实乐于看到，领先公司之间关系更紧密，因为哪怕只是稍微缓和一下，竞争气氛也是好的，哪怕他们只能在边际上分享彼此的成功 [00:49:57]

模型性格与共享上下文

Nathan Labenz：哪怕他们只能在边际上分享彼此的成功，对我来说，那都是巨大的胜利，所以我鼓励所有这些合作，尽管看起来很奇怪，我鼓励大家，把股权结构交织在一起，说到底，我觉得我们大家，要么一起崛起，要么一起沉没，这算是我对人类命运的底线，所以，让我们开始做这些交易吧，提前为那个现实做好准备，而且我认为，最终这会让我们受益良多，好了，这只是我的小众观点，最近有件事一直在唱反调，你肯定注意到了 Andon Labs那些人，他们做Vending Bench 现在又开了几家实体零售店，完全由AI模型管理，他们在旧金山有一家零售店，由Claude运营，在斯德哥尔摩有家咖啡馆，由Gemini运营，一个很大的惊喜，是他们说5.5，在经营业务方面是干净的，而Opus 4.6 和 4.7 模型，则被描述为无情，比如愿意对供应商撒谎，做一些不一定违法，但很可疑的事情来达到目的，但5.5完全没有出现这种情况，对于模型的这种性格，你有什么看法吗，你在构建系统时，是不是也必须考虑这一点，比如，如果一个模型很无情，愿意走捷径，另一个很干净，那这很可能会影响你在Harness里，要设置什么样的监督系统，之类的，所以，你有什么观察或计划吗，我之前倒没有听他们特别提到这一点 [00:50:50]

Andrew Lee：不过我得说这些都只是个人经验，我没做过任何深入研究，但这个说法并不让我意外，我自己的体验是Anthropic的模型，更有创造力，也更有同理心，它们似乎更能理解人类的体验，而OpenAI的模型则更偏临床一些，这各有优缺点，那些更理解人性的模型，可能也会展现出一些最糟糕的特质，我倒不觉得奇怪，我们目前还没遇到过什么问题，至少据我所知，没有用户反馈说，嘿这个东西干了什么不道德的事，也没出过什么状况，但这种性格特质和我的体验，倒是挺吻合的，这很有意思 [00:51:30]

Nathan Labenz：它们更有生物感，可能是好事，也可能是坏事，另外一件大事是，我现在各种工具都在用，我有一个Tasklet账户，而且已经用到上限了，我在笔记本上跑着 Claude Code Max 就通过终端在用旁边，这台Mac Mini上，我也装了另一个 Claude Code 还有OpenClaw 我其实非常关注，单个agent之外的上下文，这可能是你要面对的一个前沿问题，不过我不确定你是否觉得，这和我自己折腾时一样重要，你有没有想过，需要为用户构建一种第二大脑的功能，它位于单个agent之上或之下，总之就是提供更广泛的上下文，对吧，我现在有十个任务，有agent在跑，大部分时候他们都各管各的，他们可能通过工具调用来访问一些相同的上下文，但没有一个共享的元状态，比如，这是Nathan 他正在做这些事情，他关心什么，还有，这是他生活中的人，如果你碰到这些人，你就能知道是什么情况，这对组织来说，显然也非常重要，对吧，比如，团队里有谁，我们的优先级是什么，过去我们拒绝过什么，这种总体的态势感知 [00:53:02]

Andrew Lee：是你们想要去解决的吗，我向听众保证，我绝对没有提前给你透过风，让你来问这个，所以答案是肯定的，实际上我们已经有些组织功能了，可以说是这个方向的初步尝试，现在产品里就有，我们只是还没正式公布，如果你去设置里看看，可能会看到一些类似大规模组织，和工作空间的东西，里面有些配置选项，我们为这个功能打基础，已经有一段时间了，等我们觉得真正准备好，可以公开讨论的时候，我们会搞个发布会，造点声势在Twitter上发些内容，但现在还没到那一步，不过你现在其实就可以用，如果你想的话，可以邀请你的团队加入进来，我们对此的思考方式是，有一个上下文的层级，比如在组织层面，有一些属于整个组织的东西，对吧，你可以设定我们公司是做什么的，使命宣言是什么，价值观是什么，这些是你在组织层面，想控制的基本内容，你可以在那里设置一些上下文，然后在团队层面，还可以有额外的上下文，比如市场营销团队，可以访问这些资源，有这些目标，这是本季度的OKR 我们还可以定义各种业务流程，所需的一些技能，或者一些在做不同事情时，需要考虑的重要文件，这是我们的品牌调性之类的，然后在单个agent里面，你会看到非常具体的东西，比如这是运行这个特定工作流的计划，这是上传到这个agent的文件，这是有人专门为这次对话给我的指令，所以整体来看组织层面有公司级的东西，工作空间是团队级的，然后agent里有针对特定工作流的东西，我们基本上就是在围绕这个构建一切，到目前为止，大部分工作都放在了工作空间级别的agent上，现在我们唯一共享的上下文就是你的连接，这其实非常强大，举个例子，如果你有一家公司，想让团队的负责人去配置好所有的API密钥请求头等等，来连接你们自己的系统，这样他们就可以配置好API访问权限，然后交给其他用户使用，所以当有新成员加入团队时，他们不用再去到处找API密钥，直接就可以开始跟他们的agent对话，而且agent已经知道怎么连接各种服务了，这真的非常强大，这个功能现在已经实现了，但我们还想加入共享技能，还想加入某种形式的跨agent记忆，比如说我跟一个agent解释了某件事，他应该能记住，并且让其他agent也能知道，我们可能还会加入某种共享文件系统，这样你的文档就能在所有agent之间随时取用，现在你如果连接了Google Drive之类的也能做到，但我们大概能把它做成一个更加顺滑，更原生的体验，这些功能都在路上了，我觉得共享大脑可能是理解这件事的一个好角度，正好Zapier前几天刚发布了一个产品，我不知道你看到没有，他们好像就叫它Shared Brain 我觉得他们公布的很多东西，跟我们的愿景非常一致，不过我还没试用过，我的直觉是他们在大脑方面，走得更靠前，但agent部分就没那么强，这只是我的直觉，希望我们能在大脑方面赶上，并超越他们，同时在agent这边也继续保持领先，对我们来说这是绝对的重中之重，我也对我们接下来能做的事，感到非常兴奋 [00:56:06]

Nathan Labenz：要不我们先把视野拉远一点，最后再快速过一些，比较底层，比较硬核的细节，这些真正懂行的人会想听，虽然可能不像大图景那么重要，你觉得这一切最终会走向哪里，我的意思是，我们正处在一个很奇怪的转折点上，可以从几个维度来看，我们已经聊过几次计算机使用了，而且，你把命令形式的计算机使用，和基于UI 以UI为介质的计算机使用，给打包在了一起，这感觉，就像是同一个标签下，正在发生的一种范式转移，好像一切都在走向无头化，但与此同时，模型在操作UI方面又变得特别强，那么到底哪种方式会赢呢，是所有UI都会消失，还是模型会把它们用得特别好，也可能两者兼有，然后同样的，你刚才提到，所有人都在争着构建同样的东西，我从来没有像现在这样，强烈地感觉到这一点，你随便就能说出成千上万家公司，他们彼此之间都在以一种并不算间接的方式竞争，你在跟Claude竞争，但同时也在跟微软Word竞争，跟Zapier竞争，跟你能想到的所有东西竞争，甚至，对，跟人类劳动力竞争，真的，无穷无尽，所以你是怎么理解这一切的走向的，那个大愿景是什么 18个月后 [00:57:41]

Andrew Lee：我们会是什么样子，就在奇点降临的前一刻，大概一年前，就在我们开始这次转型之前，我们观察到一件很重要的事，给不太了解的朋友补充一点背景，我们当时有一个产品叫Shortwave，是一个AI邮件客户端，其实现在它还在，但已经不是公司的重心了，我们在里面嵌入了一个相当不错的agent 能做各种很酷的邮件操作，但我们意识到用不了多久，你就可以在一个像ChatGPT这样的产品里，直接说显示我的收件箱，它就能当场为你生成一个邮件的UI界面，一旦这种体验做得足够好，你就根本不需要一个专门的AI邮件客户端了，对吧，因为整个邮件这个环节都会被替代掉，我们原本整个差异化的构想就是 Hey 我们把这个agent嵌入到一个定制化的UI里，但这个UI是有保质期的，事实上那个产品现在还在增长，表现也还可以，但我觉得十年内它大概就不存在了，很可能远远用不了十年，我觉得它至少不会，以这种形式长久存在，所以我们说天哪，我们不能围绕一个，嵌入UI的AI agent 来建立业务，我们得做点别的，于是我们想，那就打造一个，非常通用的agent 不依赖UI 专注于特定类型的工作流，比如那种基于触发的，知识工作流，我们随后在10月份，推出了一个产品，但用户的反馈是，他们不想用一个工具，做流程自动化，又用另一个工具，处理日常工作，因为他们希望所有工具，共享相同的上下文，我可不想维护两个系统，让他们都得保存，共享大脑里的所有内容，我只想要一个系统，于是我们想好，看来我们不仅要做工作流这块，还得把同步协同的东西 [00:59:10]

未来软件平台与可靠控制

Andrew Lee：还得把同步协同的东西，也做进来，而且当我们从邮件，这个领域转型的时候，也发现，其实会有一个更通用的产品，把这些东西都涵盖进去，再后来我们又意识到，显然还会有一个，更通用的产品，把它们都包含在内 3月份我们推出了Instant Apps功能，这其实是一个生成式UI功能，它的想法是你能不能用一句prompt 就生成任何你想要的UI 调取任何数据和任何连接，瞬间就能工作，一次性生成一切，结果证明效果非常好，这个功能特别受欢迎，我们团队每天都在大量使用它，比如我们现在做任何数据科学的工作，都不再去BigQuery的UI里操作，也不用那些仪表盘工具了，我们直接进到Tasklet里面说，帮我生成一个探索式的仪表盘，分析一下价格调整，会对用户产生什么影响，它就会生成出来，上面有切换按钮，你可以调节阈值什么的，就是这么顺畅，特别好用，我们忍不住感叹，一年前我们担心的那种局面，关于邮件客户端会发生什么，现在已经成了现实，你今天走进Tasklet跟他说，给我一个能用的邮件 UI 它就能生成并正常运行，你可以在Tasklet里的UI里，操作你的收件箱，虽然现在还不如Shortwave那么好，但离那一天也不会太久了，所以我觉得，这些事情发展的速度，比我们预想的要快得多，很明显那些我们原本以为，会形成差异化的领域，正在一个接一个地消失，向前看，我看不到任何理由认为，这种趋势不会继续，也就是通用工具会不断扩张，而这一切都是因为，模型本身是通用的，如果所有的模型，尤其是最好的模型，在每件事上都是最强的，我觉得由于经济因素等原因，这种情况越来越明显，那么最好的工具，也会在各方面都智能，最多只是人体工学上有差异，但智能水平上全能，所以我们基本上必须假设，最终胜出的产品数量，会相对很少，我不认为我们将来，会有很多很多，各自内嵌AI的工具，我觉得我们只会有，少数几个非常横向的平台，而我们想做的就是，成为那个取代知识工作者，所有SaaS产品的AI Agent 平台，你看现在大多数知识工作者的工作方式，他们在不同标签页之间切换，或者在不同应用之间跳来跳去，一会儿用Word 一会儿用Notion 一会儿用Linear 一会儿又用Gmail 为了不同的事情不停地切来切去，我们认为这种模式会彻底消失，取而代之的是，你会有一个自带UI的应用，它就是你的AI Agent 希望就是Tasklet 如果你想访问某个工具里的数据，你通过API把它连接过来，如果你想做有趣的分析，这个分析不再是由工具里，某个定制的业务逻辑来完成，而是由agent生成代码，然后运行分析，如果你想要一个UI agent也能用一句prompt 一次性生成你需要的界面，我们认为这能基本上覆盖你，所有的生产力软件，在这样的世界里，我觉得软件公司最终只会剩下三类，第一类是横向平台，赢家会非常少，因为人们不想在多个平台之间，费力维护上下文和连接，他们大概会就一个平台用于知识工作，一个用于编程，可能再有一个个人使用的，但绝不会很多，所以会有横向平台，我们会努力成为其中之一，另一类是无头公司，就比如Stripe 对吧，我觉得支付这件事，总归还是需要有人做的，支付这块非常复杂，也非常重要，所以很可能会把它从Stripe剥离出来，你可能不再有Stripe的控制台了，可能再也没必要去打开stripe的界面，它就纯粹只是一个API工具了，然后还会有解决方案公司，他们的软件完全隐形，卖给你的就是一个产品，比如我觉得律师和房地产经纪人依然会存在，他们可能大量使用AI 但你可能根本看不到这一点，他们卖给你的是，我们帮你买卖房子，而不是卖给你软件，所以我认为未来就会是这三类横向平台，里面只会有极少数的赢家 [01:03:35]

Nathan Labenz：然后是Headless产品，再就是解决方案公司，那像Salesforce 这样的公司会怎样，它明显属于那个范畴，而且它最近还大举，转向了Headless 但我在想，像支付这块，你知道里面有很多深度，涉及很多司法管辖区的，合规问题，还有大量风险管理，你很难想象，一个通用agent 能在短期内，把Salesforce给吃掉，不过从另一个角度看 Salesforce到底是个啥，它本质上就是一个schema 一个非常非常复杂的schema 那是从，你只能维护一套系统的时代，遗留下来的，所以你必须把它做得面面俱到，覆盖所有客户，和所有他们可能想做的事，但绝大多数人，其实根本用不到Salesforce 为他们构建的那些所有功能，所以对很多人来说，用一个像Tasklet这样的工具 [01:04:08]

Andrew Lee：快速搭一个出来，看起来要现实的多，对吧，我觉得Salesforce 确实遇上大麻烦了，他们这些年来积累的大量代码，很可能已经过时了，在一个充满agent的世界里，作为system of record的价值，会大幅下降，因为在不同系统之间，迁移数据突然间变得容易太多了，我认为可能还有很多headless的事情可做，它们也挺有用，但构建竞争产品的能力，已经变得简单得多，它们现在有更多的竞争者，因为你现在随手写写代码，就能搞出一些类似的东西，所以对他们构建的很多东西，都已经过时了，如今转到竞争对手那里更容易了，竞争者也更多了，所以我并不认为Salesforce会死，但我觉得，未来的Salesforce会比今天小得多，我忽然想到 [01:05:00]

Nathan Labenz：System of Record和真正可靠的存储，并不是一回事，但真正可靠的存储，其实是支撑System of Record 价值的一个关键部分，就拿我自己来说吧，我在捣鼓自己的个人云代码，搭建本地AI生产力站的过程中，就曾经丢过一堆数据，比如，我试着从Slack导出东西，结果他发现第一次没导对，就干脆把所有东西删了，重新再导，可他没想到因为速率限制，这一删一导，实际上整整花了四天，才把我之前已经导出的东西重新弄回来，所以，我确实很看重Slack 不会随便误删我所有数据，这一点，但这也暗示了，横向平台可能有一个机会，我知道你以前是做数据库的，对吧，那么是不是存在这样一个机会，或者说是范式转移，横向平台可以站出来说，这就是为什么你可以信任我们，把数据交给我们，即使agent犯了错，或者出了这样那样的岔子，我们也会有快照回滚和持久性保证，确保错误不会导致数据丢失，我觉得，如果真能给人们这种保证，他们可能就会更安心地觉得，不再那么需要Salesforce了，完全同意，我认为这是一个Harness [01:06:44]

Andrew Lee：能发挥巨大作用的地方，我们可以讨论Harness 到底能不能让LLM更聪明，这或许有争议，但关键是Harness 能不能做到这类事情，我认为绝对能，我给你举几个例子，看看我们能怎么帮忙，一个就是你刚才提到的版本控制，现在有很多初创公司，在做agent的文件系统，其中一些就在做版本控制，基本思路是，如果你的agent行为出格了，你希望能回滚到之前的状态，对简单的聊天机器人来说，你只要把最后几条对话扔掉就行了，但如果agent是在跟真实世界交互，你就必须能把整个世界都回滚回去，所以这里可做的工作很多，比如如果只是文件系统，你可以直接改动文件系统，但如果涉及到了API调用之类，你可能就得保留操作日志，但总之，能够撤销agent所做操作的这个能力，我认为非常关键，另一个领域是监督和日志记录，让你能在关键环节，把人拉进循环里，也就是human in the loop 而且是用一种很聪明的方式，在我们现在的产品里，你需要激活工具才能用，我们很快会加入的一个功能是，你可以设置某些工具，每次运行都需要你批准，最好的例子就是电子邮件，大家会很放心地说，嘿你可以随便读我的邮件，想读多少读多少，你可以起草任意多的草稿，但只要我没同意，你就什么都不能发，我们希望做到的是，让这个过程非常顺手，举个例子，它可以给你发推送通知，告诉你邮件已经准备就绪，它会疯狂地阅读搜索起草，等一切就绪就给你发个推送，问嘿，发送前你要不要审一下，你只要说可以，整件事就自动推送给你了，所以我觉得权限控制，可以是一个很大的方向，另一个很大的方向是，更好的用代码，而且是更像Mac那种方式，比如说把数据从一个系统，迁移到另一个系统，最简单的做法是通过API 把数据灌给LLM 然后让LLM调用各种工具，把数据搬到别的地方，但这么做的话，每次你都是把数据，塞进语言模型的上下文里，指望它不瞎编，能精准复现这些数据，我觉得模型会越做越好，但想在这方面，有足够的信心真的很难，更好的做法是，让模型直接生成一个迁移脚本，然后去跑这个脚本，这样中间就多了一个，可以测试，可以让人工审批的产物，所以当你把数据，从一处搬到另一处时，你还是需要一个agent 来思考怎么解决这个问题，但他最可能做的是，生成迁移脚本，生成一些测试，跑一遍测试，然后把结果交给人，他会说，这是我们做的迁移计划，测试代码，以及我们认为可行的原因，你同意吗，你同意了，我们再执行，你甚至可以搭个测试环境，所以我觉得让agent内部具备这类工具，去处理高风险任务 [01:09:49]

供应商快问与收购传闻

Andrew Lee：去处理高风险任务，同时加入审批机制，这里面机会很大，好我知道时间不多了，快速问答环节我得抓重点

Nathan Labenz：首先有没有你想特别提一下的供应商，你刚才提到了一些，做那种世界回滚式存储的公司，你们在用哪些，或者有没有你觉得被低估了的，好问题

Andrew Lee：我们深度使用并且非常满意的一家供应商，是Blaxel 他们做沙盒，冷启动速度很快，性能也很好，让我们能把沙盒，放在产品的核心位置，所以我觉得Blaxel非常棒，我们还用Firecrawl做抓取，他们在性能方面，也有不少优点，我们也看了，不少存储技术公司，包括一些，做数据库和文件系统的，但到目前为止，我们还是选择，自己搭建这一块的基础设施，我不知道以后，会不会一直这样，这里面有个权衡，我们觉得这部分非常核心，如果要交给供应商，那他们最好能提供非常大的价值，得是那种，我们对他们的路线图很有信心的公司，所以目前我们还是全部自己做，当然还有各大实验室，模型本身就很惊人，可以说，没有他们那种近乎慈善的开放，我们也不会有今天 [01:10:19]

Nathan Labenz：我们也不会有今天，那有没有可能，你们会以某种按量分成的方式，转售其他服务，你看，现在已经有很多连接了，我可以接入自己的Gmail，接入自己的个人数据，但还有一大片更广泛的工具，我可能需要有账号才能用，但我又不想专门去注册，或者这些工具用起来很麻烦，没法做我想做的事，一个典型的例子就是Suno 我最近特别喜欢用它生成音乐，但它对Agent不太友好，我老是得跑到他们界面上操作，我就觉得这界面，本来应该是一个API调用才对，我只是想听音乐而已，但我也会想，也许我可以用我在Tasklet的积分，去支付这些第三方服务的生成费用，像这种，不是高度个性化的服务，用我的账号还是别人的账号，其实无所谓，虽然长远来看可能会有区别，但至少目前没太大关系，你们有没有打算做这种事，就是打造一个瑞士军刀，里面集成各种付费服务，我用我买的积分，就能通过你们直接访问？ [01:12:02]

Andrew Lee：是的，我觉得我们最终肯定会做这件事，其实我们已经有了一些很初步的尝试，比如网页浏览或者说搜索，对吧，我们用了Firecrawl 你可以说这其实就是某种API转售，另一个很快就要上线的，很可能是图像生成，现在你可以把我们的系统连到 Nano Banana来生成图像，但这个需求太普遍了，所以我们很可能会内置，原生的图像生成功能，你直接用积分就行，不需要额外注册账号，我其实挺希望最终能把这块做得更开放一些，已经有上万人给我发邮件问X402的事了，只是目前这还不是我们的优先事项，我希望这件事能成，有一点我想提一下，就是我们特意设计了这个积分系统，之所以用积分，而不是设定一个固定的token 使用量之类的东西，是因为我们希望能够支持多种不同类型的消费，比如你花 token 那当然会消耗积分，生成图片也会消耗积分，搜索网页创作歌曲，同样都会消耗积分，所以它给了我们一种很好的中间货币，可以用来支付各种各样的东西。

Nathan Labenz：好，再问三个问题，我会很快。目前你们用于 Tasklet 开发的 token 支出，和 payroll 相比，比例大概是多少，先不算用户，那部分API调用产生的成本，单说你们通过API花的钱，跟人工成本比，大概是什么情况？

Andrew Lee：我快速算一下，先说明一下，我们至少有三个产品，会产生大量的内部token消耗 Claude显然是一个，还有Codex 然后Tasklet 其实也在我们内部流程上，花了大量的token费用，我估摸着目前内部token支出大概占 payroll 的5%到10%。

Nathan Labenz：你对Mythos有多兴奋，你觉得它会给你能做的事情，以及公司的发展轨迹，带来多大的不同？ [01:13:57]

Andrew Lee：这个很难说，我还没试过。大部分人都还没试过，所以对于一个摸不着的东西，确实很难太兴奋，我感觉这有点像市场炒作，就好像在说，嘿我们现在没有算力，来实际提供这项服务，那就先通过营销赚点好处吧，就算不能真的用上，它听起来当然很厉害，基准测试看着也挺酷，说是能找到各种，零日漏洞什么的，所以我很想体验一下，但如果真能用上

Nathan Labenz：我印象会更深刻，好最后一个问题，你肯定关注了，最近CCP强制解除 Meta对Manus收购的事，说个我的小故事，当年我和马克，扎克伯格，以及其他Facebook创始人，住在同一栋宿舍楼，可不是想显老啊，我们的20周年同学聚会，就快到了，他当年没毕业，这事儿，大家都知道，不过我想，他如果想来，应该还是会收到邀请，假如我在聚会上碰到他，我应该告诉他 Tasklet 现在的价码是多少亿美元？ [01:14:35]

Andrew Lee：我们当然一直在密切关注这件事，其实在Manus那笔交易，宣布之前不久，我收到过Nat的消息，我们本来约好喝咖啡，但后来他就没再跟进，这事就没下文了，然后就出了这笔交易，被解除的事，我特别好奇，这是到底要怎么收场，他们的人都已经在那，工作一段时间了，这种情况下，怎么解除，真是够疯狂的，那之后我又追了一封邮件，写了句，嗨还想喝咖啡吗，人家也没回我，所以我不知道，他们还有没有聊天的兴趣，不过真想联系的话

Nathan Labenz：我的邮箱并不难找，我也很乐意聊聊，我看看能不能在同学聚会上，帮你埋个种子 Andrew Lee，Tasklet的CEO 这次访谈太棒了，感谢你来参加Cognitive Revolution

Andrew Lee：再次感谢邀请 [01:15:55]