目录
- 未来的 AI 设备会是什么样? [00:00:00 - 00:03:46]
- 戴上 Meta 眼镜的一天 [00:03:46 - 00:07:12]
- 为什么是眼镜,而不是别的形态? [00:07:12 - 00:13:08]
- 智能眼镜为什么这次可能成功 [00:13:08 - 00:17:25]
- AI 还不是最强卖点 [00:17:25 - 00:20:40]
- 新的室内 AI 眼镜 [00:20:40 - 00:24:32]
- 代理式 AI 如何进入可穿戴设备 [00:24:32 - 00:35:37]
- 谁会赢得最佳 AI 助手之战? [00:35:37 - 00:45:30]
- 人脸识别、隐私与边界 [00:45:30 - 00:51:34]
- 端侧推理、Ray-Ban Meta 的转向,以及现有产品线 [00:51:34 - 00:58:21]
未来的 AI 设备会是什么样?
Alex Kantrowitz:未来的 AI 设备,或者说未来的几种 AI 设备,会长什么样?我们先聊这个话题,稍后请出 Meta 负责可穿戴设备的人。欢迎来到 Big Technology Podcast,这里讲科技世界及其之外的一切,但会尽量保持冷静和有分寸。今天我们会聊 AI 设备的未来,以及 Meta 一直在推进这件事的人 Alex Himel。Alex,欢迎来到节目。 [00:00:25]
Alex Himel:谢谢邀请。能遇到另一个叫 Alex 的人,总是挺有意思的。我很高兴来到这里。
Alex Kantrowitz:我们今天想聊新机型,尤其是我手上这副 Ray-Ban Meta Optics。音频听众可以把它理解成我们正在拿着的这款产品。它们更纤薄,设计上就是为了室内场景,或者至少是为了更适合在室内使用,这一点以前那些型号并没有做到。它一下就打开了很多新的 AI 可穿戴设备使用场景,而这也正是你们这条眼镜产品线在做的事。不过我还是想先从更大的问题开始。带 Meta 助手的这类眼镜已经在市场上出现很久了,但我觉得大家,包括我自己,还是在努力搞清楚它的使用场景到底是什么。拍照当然很棒,也可以听音乐,但“AI 设备”这个更大的概念,在很多人脑子里还没有真正成型。你能不能先给我画一幅图:也许是几个月后、一年后,或者几年后,如果这个产品真的按你设想的方式工作,我的日常生活会怎么变?
Alex Himel:我先往前讲,但不会跳得太远。很多公司和很多人在进入这个领域时,一上来就喜欢说“未来会怎样”,却忽略了怎么到达那里。我不想那样。我的判断是,如果你已经戴着一副本来就舒服、而且本来就有价值的眼镜,比如太阳镜或者处方镜,就像我们现在推出的这款,以及你刚才提到的那款,那它就能在你白天做事情的时候,给你更多帮助。眼镜可以看到你看到的东西,听到你听到的东西,你也可以直接跟它说话。我现在最常用的,就是问一些简单的查找问题。比如我在开车,6 岁的儿子坐在后排不停问我问题,我就可以直接问眼镜,不用把眼睛离开路面,也不用把手离开方向盘。随着 AI 以惊人的速度继续变好,你会看到更多用例不断冒出来。比如不再只是问“我眼前是什么”,而是说“帮我把这件我通常得去 YouTube 找视频学的事做出来”,或者“帮我总结一下咱们刚才那段对话,给我提炼几个重点”。所以它会更像一种主动式帮助,一直跟着你,但不会把你从物理世界里拽出去,只是帮你把本来就在做的事情做得更顺。 [00:01:59]
Alex Kantrowitz:好,那你给我具体讲讲“戴着这些眼镜过一天”的样子。假设技术已经达到了你想要的程度,你早上起床、把眼镜戴上,然后你一天会怎么过?给我讲个故事,让我知道戴上一副这样的眼镜,生活会怎么变。 [00:03:28]
Alex Himel:早上起床后,我第一件事是去跑步,所以我会戴上 Oakley Meta Vanguard 太阳镜,同时戴着 Garmin 手表。跑步的时候,眼镜会自动录几段视频,帮我自动拼成一条短视频,这个功能现在已经上线了。跑步时我还可以问眼镜:我今天跑了多远?我的训练计划有哪些更新?这些功能也已经在做,而且还在持续变好。跑完回家,我开始给孩子准备午饭,给他们装书包、带去学校。我发现 Ziploc 袋和 Nutella 都用完了,就直接让眼镜帮我下单补货,几个小时后就送到家。我开车送孩子上学,他们会问我下午放学后做什么、几点训练、今天小联盟比赛是跟谁打之类的问题,眼镜会把答案告诉我,这样我不用掏手机查。我去上班,开一连串会议,AI 会替我记笔记,整理后续行动项和负责人,然后自动发给所有参会者,方便大家跟进。我还会在和你聊天的时候,想不起一个我们俩都认识的纽约朋友叫什么,眼镜会帮我在当下想起来。它就是一个一直跟着我的伴侣,把我原本就在做的事情稍微变简单一点。
Alex Kantrowitz:首先谢谢你,这个例子非常具体。我觉得当我们开始想象 AI 助手如何帮助生活时,这种场景真的很有帮助。比如运动这个场景,可穿戴设备已经用了很多年了,跑步的人都知道可穿戴世界是什么样的。我自己也在戴 Garmin。最让我烦的,就是跑步时总得低头看表,那动作很不自然。所以如果能在眼镜上看到这些信息,当然很好。但我想挑战你一下:眼镜真的是最合适的形态吗?你刚才说的那些用例,比如跑步时看更新,为什么不能用耳机?做午饭的时候,为什么不能用 Alexa 这种智能音箱?开会的时候,也许耳机就能接收输入,电脑当然也不会消失,所以很多事情还是会在笔记本上完成。我们现在就在 Meta Menlo Park 总部,面前摆着好几种眼镜。它们最初并不是作为 AI 设备设计的,更多是拿来拍照、拍视频、听音乐,后来 AI 才加进去。这背后其实挺有故事。可为什么偏偏是眼镜?为什么不是别家在谈的那些其他形态? [00:05:26]
为什么是眼镜,而不是别的形态?
Alex Himel:这正好是个“往回退一步”的邀请。 [00:07:12]
Alex Kantrowitz:现在你可以这么做。
Alex Himel:好,那我就往回退一步,但不会退太远。因为我觉得最喜欢的一种比喻是,自动扶梯不会坏,它只是变成了楼梯。眼镜也一样。就算它没电了,或者你只是把它关掉了,如果你本来就戴处方镜或者太阳镜,它还是你会戴的东西,依然对你有价值。我们这条眼镜路线和有些公司走的路不一样。我们不是想着“怎么一下子靠技术完成巨大的跃迁”,而是先承认:哪怕眼镜什么都不做,它也得先是个好看的、舒服的、让人愿意戴的眼镜。Ray-Ban Wayfarer 本身就是世界上最经典、最流行的款式之一,所以它们本来就舒服、好看。我们有很多颜色、样式和 SKU,你总能找到一副适合自己、戴起来也好看的。我们的判断是:如果它本来就提供价值,那 AI 只是再往上叠加一层价值;等 AI 变得更好,它还能继续提供更多价值。
Alex Kantrowitz:对,这就意味着它不仅是 AI 本身,还有日常之外的价值,所以你不会觉得它是在身上额外加了一件东西,因此它才更有机会赢。 [00:08:09]
Alex Himel:没错。如果它在 AI 之外就已经在提供价值,那 AI 继续变好以后,它就会提供越来越多的价值。我们也不认为眼镜会是唯一的形态,但我确实认为它会是最常见的形态。你想想看,我认识的人里,包括孩子在内,有多少人不戴太阳镜或者处方镜?我能想到的只有一个人,真的只有一个。
Alex Kantrowitz:那个人到底什么情况? [00:09:06]
Alex Himel:他是个很特别的人,我就不展开了。我只能说,他早上会盯着太阳看 20 分钟,因为他觉得这样对眼睛好。总之,他是个非常独特的人,我们不会采纳他的建议。
Alex Kantrowitz:是,大家可千万别直接盯着太阳看。
Alex Himel:对,别那样。可如果你把这个极少数例外放在一边,绝大多数人都已经在戴眼镜或太阳镜了。我喜欢这样理解这个领域:人类已经进化到某些形态就是更顺手、更舒服、更适合长期佩戴。所以你大概率会先看到那些人们本来就在戴、也本来就在用的东西。眼镜排第一位,但我同样看好其他人已经在穿戴、只是还没那么兴奋的设备。相反,那些你几乎看不到人真正在用的形态,比如某些要夹上去的设备,我就不太看好。如果某个东西在模拟形态上都没人经常用,我觉得它的 AI 版本大概率也很难起来。
Alex Kantrowitz:也就是说,这类设备如果本来就常见、又确实有 AI 之外的用途,那你只是把一个额外能力加到了已经会佩戴的东西上,所以赢面更大。 [00:10:02]
Alex Himel:对。如果它本来就在给你带来价值,那 AI 就会继续叠加出新的价值。
智能眼镜为什么这次可能成功
Alex Kantrowitz:那我们聊聊这个 AI。Meta 正在做所谓的个人超级智能(personal superintelligence)。我猜这种个人超级智能最终也会进入这些眼镜里。所以我很想听听你怎么定义“个人超级智能”。
Alex Himel:我们更愿意把它理解成:AI 怎么帮助你成为更好的自己。至少在可穿戴设备这个语境里,我们并不想象这样一个世界:你戴的设备把你从你所处的世界里拽出去。我们的思路是“在场,但保持连接”。你想保持连接,这样才有工具帮你,但重点还是要和你身边的人、你所处的本地商家、你正在经历的场景保持在一起。最好的例子之一就是,我去孩子学校看演出时,不再举着手机对着屏幕看,而是直接透过眼镜看,眼镜帮我录下来。这样我能更在场,而不是为了留住一个视频,就把自己从那个瞬间里抽离出来。
Alex Kantrowitz:我也有过类似经历。我在泰国看日落,那个时刻特别美,我差点伸手去拿手机,但我想起自己戴着眼镜,就直接录了下来。我留下了记忆,但我人还是在那个场景里,而不是隔着屏幕看它,这种感觉真的很好。 [00:11:38]
Alex Himel:对,我们就是往这个方向走。我觉得你完全可以想象这类东西。AI 可以一点点把体验变得更好,比如 auto capture。我们正在推出这个功能,眼镜能自动判断某个瞬间值不值得记录。你可以想象自己在孩子生日派对上,不用一直手动按拍照键或录视频,也不用总是掏出设备,眼镜可以自己捕捉那些微笑、生日蛋糕、或者你不想错过的瞬间。
Alex Kantrowitz:真的吗?但问题是,你真的信任它吗?因为这也意味着,它有机会在你做任何事情时都去记录。我自己有时候就算戴着眼镜,也不一定想让它录。 [00:12:29]
Alex Himel:所以你是明确进入一个 live capture 会话的。比如你在派对上,你先说“开始实时记录”,它才会录。你可以在生日派对、日落来临、或者任何你觉得“这里可能会发生点我不想错过的事情”的时候这样做。你肯定也有过这种经历:某个时刻已经发生了,你才突然想起,天啊,我居然没来得及把手机或者眼镜拿出来录下它。
Alex Kantrowitz:对,这确实挺酷的。 [00:13:08]
Alex Kantrowitz:那我们再往历史上看一看。我觉得对我们这些深处科技圈的人来说,戴着 AI 出门好像很自然,但从历史上看,之前也有人尝试过这么做,可结果并不好。比如 Humane AI Pin,或者 Google Glass。所以你觉得这次为什么不一样?
Alex Himel:我觉得最大的不同,首先是它本质上就是一副好看、舒服、时髦的眼镜。这也是我们要和 EssilorLuxottica 深度合作的原因。他们是我们多年合作的伙伴,也是 Ray-Ban、Oakley 的制造方,同时还拥有和授权了很多其他品牌,也有很多门店。他们在镜片和制造上都很专业,而我们之所以和他们合作,就是因为他们真正懂得,一副好看、时髦、舒服、而且真的适合人戴的眼镜到底意味着什么。这正是我们做这件事的核心。我们先推出了 Ray-Ban Wayfarer,后来又有了其他 Ray-Ban 款式。现在又推出了 Oakley Meta Vanguard 这种运动款,以及 Oakley Meta Houston 这种生活方式款。这只是一个开始,我们希望未来能给大家提供更广泛的品牌、款式和 SKU。每个人脸型不同,审美也不同,所以我们必须确保它戴起来舒服,而且人们喜欢它戴在脸上的样子。
Alex Kantrowitz:所以我完全同意你说的,之前这些产品的“长相”一直是很大的阻碍。Google Glass 就没拿过什么时尚大奖吗。你看 Ray-Ban Meta,至少真的挺好看。我在眼镜店里看到它,可能也会想:也许就它了。可另一半问题还是功能,对吧?它们到底能帮你做什么?我觉得以前那些产品就算样子不错,给你的提升也远远不够,不足以让人愿意再给另一台设备充电,然后戴在脸上。你要改变消费者行为这件事,真的太难了。人一旦形成习惯,就会按那样去生活。手机也是一样:你已经能在手机上用 AI 了,再把使用场景搬到别的地方去,光是“看上去还不错”远远不够。你怎么理解这个问题?你们其实是在创造一种全新的消费者行为。 [00:14:44]
Alex Himel:我们眼镜目前最重要的使用场景其实是音频。也就是说,打电话或者听音乐。我的通常建议是:如果你要在户外走路,而你本来就应该多走路,这对身体健康有好处;如果你白天需要活动、晒晒太阳、还得打电话,那这款产品就特别适合你。它戴起来很舒服,音量也很大,麦克风表现甚至比你能买到的任何耳机都好,因为我们放了 5 个麦克风,而且噪声抑制非常强。所以如果你要打电话,它特别合适。我前阵子刚去滑雪,穿着 Oakley Meta Vanguard 从坡上以每小时 40 英里的速度往下冲,正好接到一个朋友的电话。我在滑雪途中跟他聊了几句,还问他:你能听出来我现在正在滑雪吗?结果他居然没听出来。这个场景很适合打电话,海滩上扔球也一样,想听音乐也一样,它会让体验更好。照片和视频是另一个大场景。Instagram 上很多内容原本根本拍不下来,或者说如果没有这种设备就不会被拍下来。最近奥运会预赛就有很多很棒的素材;我一个当消防员的朋友前天还从消防车上给我发了一段视频,他正开着车去现场救人。你会看到很多本来会错过的精彩画面。然后 AI 才是我认为下一条真正增长曲线:人们开始发现,自己能够做一些过去根本想不到的事,而且和眼镜结合起来特别方便。所以你会发现,音频排第一,拍照录像排第二,AI 现在还在后面。那是因为 AI 不够好吗?还是因为它还没到那个阶段? [00:15:54]
AI 还不是最强卖点
Alex Kantrowitz:我想先接着问这个。你刚才其实已经把顺序说得很清楚了:音频是第一,拍照录像是第二,AI 还排在后面。可为什么 AI 现在不是最主要的卖点?是不是因为 AI 还不够好?如果照人们平常谈 AI 的方式来看,按理说它应该是第一用例才对。 [00:17:25]
Alex Himel:AI 的潜力,毫无疑问要比现在任何别的功能都高。只要看整个行业的进步速度,就会发现那种进步是非常夸张、几乎难以置信的。不过对很多人来说,AI 现在看上去还是一块空白画布:如果我递给你一张纸和一支笔,让你“做点厉害的东西出来”,你一时半会儿也不知道从哪儿开始。所以我们现在先做 auto capture,还有一些很快会上线、而且非常贴近日常的功能,就是想给人们提供一些容易理解、容易上手的 AI 用法。接下来,随着时间推移,你会越来越多地做一些更复杂、更高级的任务,去利用底层能力。其实我觉得大家还在学习怎么最好地使用 AI。最开始,AI 大体上是帮你写东西的工具;现在你会看到人们开始用它写代码,而且方式越来越新、越来越疯狂。你也开始看到 agent 和 agentic 行为真正冒头,也就是你给 AI 一个目标,它会在你没有持续提示它的情况下,自己去完成任务。所以我觉得这种进展正在很快发生。我们相信,可穿戴设备最终会成为 AI 最好的形态,因为它们一直跟着你,可以看到你看到的、听到你听到的,而且当你需要时可以随时跟它说话;它还能主动做一些你没明确要求、但确实有帮助的事。
Alex Kantrowitz:所以我们现在讨论的是一个新世界:AI 变得更 agentic,也开始真正替我们做事。可之前那几代 Ray-Ban Meta,主要还是偏户外场景。我手上这副 Oakley 其实就是运动场景的东西,特别适合跑步、骑行、滑雪。更早前我还和带领 Google Glass 项目的人聊过,他最大的一个遗憾,其实就是一开始把它做成了一个室内产品,因为如果你在户外戴这些东西,大家对它的接受度会高很多。现在你们推出了 Ray-Ban Meta Optics,它更小、更轻,电池也更持久,显然比起户外更适合室内使用。这一下就进一步打开了空间:如果你在上班、在室内、在日常环境里戴它,它能做什么?从产品决策的角度,你们是怎么思考这类设计的? [00:20:40]
Alex Himel:我们现在非常兴奋地推出 Ray-Ban Meta Optics。之所以先从太阳镜开始,有几个原因。一个很现实的原因,就是使用场景。我们一开始谈的就是打电话、拍照、拍视频,而这些很多都发生在户外:你在外面走动,需要双手空出来,同时又在打电话。太阳镜在这种场景里非常合适。还有一个原因,是我们在做的事情本质上就是把电子元件尽量压缩进一个很紧凑的外形里,而太阳镜的体积和风格通常都比你整天戴的处方镜更大一些。你只是更短时间地戴它,所以可以稍微重一点;而且从风格上讲,它也通常比处方镜更厚一些。现在我们在小型化和电子布局上进步了很多,所以才有了这副更小、更轻的 Optics。更重要的是,我们已经从数据里看到,用户的使用和留存,在清晰镜片或者变色镜片上是最高的。这说明人们其实已经在把它往室内戴,或者在室外和室内之间切换。变色镜片的意思是:我在外面做事、在打电话,走进室内以后镜片自动变清,我还能继续做原来的事。Ray-Ban Meta Optics 不只是“更轻”这么简单。我们把镜腿做薄了,前框也更薄了,而且更平一点,更适合配镜。鼻托是可替换的,会附带三四种不同的鼻托,让它更适合你的鼻梁。镜脚末端也可调,配镜师可以把它加热后再弯一点,让它更稳地贴在脸上。镜腿还有过度展开的铰链,所以戴上去和夹在头上都更舒服。这些都是硬件上的改进,目的就是让它更像一副真正适合配镜的眼镜。我们前阵子还在 Orlando 的一个 EssilorLuxottica 活动上,把这件事正式讲给验光师们听。所以我们预计它会进入验光渠道。也就是说,你现在去买处方镜的地方,验光师应该就能帮你配出合适的镜片,让这副眼镜真正适合你的度数和使用需求。我们观察到的数据趋势非常明确:人们希望把它当作日常处方镜来戴,尤其是在室内。我们希望它正是这样一款产品。
代理式 AI 如何进入可穿戴设备
Alex Kantrowitz:说到这个,我觉得我们其实正处在某种“开放式代理”时刻。人们开始愿意把自己很多正在做的事情交给 AI,让它替自己采取行动。我想到的是,如果我整天坐在工作电脑前,戴着一副带处方的 Optics,可能会出现新的使用场景。你们有没有想过这些场景?它们又是怎么嵌入你们构建 AI 可穿戴设备的整体愿景里的? [00:24:32]
Alex Himel:我觉得这里面其实有很多层。你从我们今天体验 AI 的方式,走到 agent 的方式,跨越的是这样一步:你不再只告诉 AI “帮我写点什么”或者“帮我写代码”,而是直接给它一个目标,它会自己想办法完成。比如说,我是软件工程背景,所以请容我举个偏技术的例子。我可以跟它说:我现在遇到一个问题,电量低的时候,耳机里的提示行为不对。它现在电量低时会说某句话,我想改成另一句话。接下来,agent 就能自己去找这段代码定义在哪儿、怎么改,然后给你生成一个 diff,最后你再作为工程师去提交。OpenClaw 带来的进步,你会看到两件事。第一,你可以把它理解成一个会定期执行的 cron job。也就是说,像工程师说的那样,你可以安排它定期替你办事。比如我现在每周日晚上都会让我的 claw 去帮我生成一份下周的日程,再发给保姆,里面包含孩子一周每天的安排,这整个过程是自动完成的。第二,它还能自己去想办法完成一件它还不知道怎么做的事,也就是它能推理出新技能。对于可穿戴设备来说,这就打开了很多可能性。
Alex Himel:我每天都会记一些东西,提醒自己晚点要处理。比如我们刚才聊到,你想去纽约试一家你朋友开的 Detroit pizza 餐厅。平时我会记下来:纽约的 Detroit pizza,然后再安排一个后续跟你跟进。但现在我可以直接告诉我的 claw:“这是我接下来打算跟进的事。”它就能替我处理。 [00:26:00]
Alex Kantrowitz:我其实很想听更多例子。比如你会说:这个周末对我来说很激动,洋基队来打开幕系列赛,对阵巨人队,周三到周六都有比赛。我几个月前就买好了周六的票,因为我从小在纽约长大,是洋基球迷。我的孩子们,我也在努力把他们培养成洋基球迷。我们还组织了一大批朋友一起去,我手里有 20 张票。平时我会写下“记得给要来的人发一封邮件,里面带上票务信息”。但你可以直接告诉你的 claw:帮我给这四个人起草一封邮件,只要写名字,不要写邮箱地址,把我邮件里能找到的票务细节都带上。然后它就真的会做。你现在就是这么用的吗?
Alex Himel:对,我们现在在试很多不同的工具,我当然自己也在用,而且今天就在这么用。 [00:27:14]
Alex Kantrowitz:所以你设想的其实是:你工作的时候,身边有一副这样的眼镜,而你和 OpenClaw 的交互是通过 WhatsApp 完成的,对吧?大多数人都是这么做的。
Alex Himel:对,你也可以用别的聊天应用,不过很多人确实是通过 WhatsApp 来用。
Alex Kantrowitz:所以我的理解是,你工作时就带着这副眼镜,然后对它说句话,后台的 agent 引擎就会替你完成那些用例。
Alex Himel:对,这个概括挺准确的。我会从两个方向理解它。第一,是当我过日常生活时,很多人会奇怪,为什么科技圈里那么多人一创业就想做一个任务 App,仿佛下一家创业公司要做的核心事情就是帮你记录待办。但我觉得,真正更自然的方式是:当事情突然冒出来时,比如“糟了,我忘了给球赛那封邮件发出去”,或者“我忘了给快过生日的孩子发生日邀请”,你就直接说:我忘了做这件事,你先帮我起草,我今晚再看。将来某个时候你也许能直接让它替你发出去,但现在我们大体上还在草稿阶段。第二,我喜欢这样描述:想象你身边坐着一个完美的人,能在合适的时刻轻声在你耳边提醒你。比如我妻子就很擅长在我快要说出会后悔的话时,用胳膊肘轻轻捅我一下,提醒我“你快别说了”。可我就是太快,老是脱口而出,所以我很替她受罪。眼镜也可以变成这种东西:当你想不起来某个电影、某个演员、某家餐厅或者某个词的时候,它可以帮你补上;或者你在聊天时说“你要去圣路易斯?我回头发你一份我推荐的地方清单”,这种事我大概只有 5% 的时候真的记得做。比如我其实想告诉别人,我推荐的纽约布鲁克林和曼哈顿的那家 Nate’s Detroit Pizza,但完全可以直接说给这个智能东西听,然后它替我发 WhatsApp 或短信,让我自己不会忘。 [00:28:04]
Alex Kantrowitz:如果你把它放在播客里说,传播范围肯定比 agent 自己发出去的更大。 [00:30:16]
Alex Himel:希望如此,但也说不准。
Alex Kantrowitz:不过这确实挺有意思的。比如“提醒”这个概念,我觉得如果有一样东西能持续注意我在做什么,那会很棒。以前我和 Meta 的 CTO Boz 聊过,他说这些眼镜可以感知你的处境。我想这有可能会变成一种类似 OpenClaw 的功能,但我们得等到我那段对话结束、我说完“拜拜”以后,它再在我耳边轻声说:顺便问一句,要不要我把你刚才说的那件事做掉?
Alex Himel:对,我觉得很多人现在都有这种感觉:白天的通知太多了,不管是手机在震,还是手表在震,都会让人被打断。而很多人对更多可穿戴设备的担忧,也是完全合理的:如果你戴的是更亲密的设备,尤其是带屏幕的眼镜,你最不想要的就是又多一个地方堆满通知,把你从当前的事里拉走。但可穿戴设备真正的潜力在于:如果它们知道我是不是正在说话、我在说什么、我在和谁说话,它们就应该能非常聪明地判断,现在是不是该把某个信息送给我,还是应该再等等。 [00:31:07]
Alex Kantrowitz:对,这很有意思。其实我和我妻子已经在家里用智能音箱做其中一部分事情了。
Alex Himel:嗯。 [00:32:01]
Alex Kantrowitz:但我还是觉得,如果这些事能在眼镜里完成,会更有意思。尤其是那种“情境感知”的能力。我真正好奇的是,AI 现在几乎被说成要把一切都抬到一个新层级,像是某种革命性的东西。可我会想,这真的有那么革命吗?我们是不是应该对它期待更多?也许我只是总觉得不够满足、不够感激,但我确实想听听你怎么看。它真的算一场革命吗?还是说,它只是在让我们更高效一点?
Alex Himel:你说的是 AI 整体,还是更智能的通知管理,也就是把通知做得更聪明?
Alex Kantrowitz:我想说的是,我们刚才聊的那种 AI:它在听、它能替我们处理这些任务。
Alex Himel:我觉得它会相当革命性。我觉得两者都会发生:一方面,会有很多单项功能看起来都很小,比如“哦,这只是一个小改进”;但如果你把它们加在一天、一周、一个月里,累积起来就会很有意义。另一方面,我也确实认为,AI 会替你做出一些让你很震惊的事情,那种能力会很革命。我举个小例子:我不带手机去跑步的那天,对我来说就是件大事。我会跑很长的距离,而且我还得在外面随时能联系别人,因为事情有时会出岔子;而且我也是父亲,所以我必须保持可联系。后来我有了一个支持蜂窝网络的手表,于是我终于不用把手机也带上了。很多人会觉得,这有什么大不了的?现在手表也能打电话了,我平时还是会带手机。但对我来说,那是很大的变化。不过这就是那种“小事很多,最后加起来就很大”的例子。我确实认为,agentic AI 会替人做很多事,而且其中不少会让人觉得“这也太有用了”。
谁会赢得最佳 AI 助手之战?
Alex Kantrowitz:好,我们继续。还有一个问题是,最后到底会是“最好的设备”赢,还是“最好的 AI 助手”赢?我想等会儿回来再聊这个。我们马上回来。 [00:34:04]
Alex Kantrowitz:我们回到 Big Technology Podcast,今天的嘉宾是 Meta 可穿戴设备副总裁 Alex Himel。Alex,刚才在广告前我们在聊,究竟什么能决定一家公司的 AI 可穿戴设备之战是赢还是输:是外形,是设备有多精致,还是里面那个助手本身?我觉得这场仗大概率会有好几家公司一起打。显然你们在市场上走得最早,已经做了很久;但 OpenAI 正在规划的不只是单个设备,而是一整套设备;Google 也有自己的设备;Amazon 早就有 Echo;Apple 也可能会加上某种形式的 AI,也许是内部模型,也许是某种 Gemini 版本被放进耳机里。
Alex Himel:这些都只是外界在说的东西。 [00:35:06]
Alex Kantrowitz:所以我想说,有一个很强的理由认为,最终会是“助手最好”的那家公司拿走一切。因为如果你真的把这个东西交给它,让它深度进入你的生活,并对你的一部分活动负责,你当然会想用最好的那个。你同意吗?如果同意,是不是意味着 Meta 要赢这场仗,就必须在市场上拥有最好的 AI 助手?
Alex Himel:我觉得这会是多种因素的组合。做可穿戴设备这件事,如果用户不喜欢这件设备,他们根本不会戴。它必须舒服,必须好看,尤其如果它是眼镜,甚至包括手表在内。你要是不喜欢它戴在你身上的样子,也不喜欢它代表的风格,那就算它功能上比替代品强 20%,你也未必会戴。我也觉得软件必须足够惊艳。至于你刚才提到的那些设备,大家谈的很多都还是传闻。我从很多渠道都听过这些传闻,所以它们大概还是有些可信度的。
Alex Kantrowitz:不过我得说,OpenAI 这件事肯定不是传闻,他们确实在做一整套设备。Google 也已经公开宣布在做这些设备,Amazon 也已经把 Echo 放在市场里了。严格来说,唯一还算传闻的,大概就是 Apple。 [00:36:31]
Alex Himel:那你说得也对,Apple 那些确实还是传闻。其他不少公司已经公开宣布了,所以这是公允的。我只是想说,我不能对那些还没真的上市场的东西做出太具体的反应,所以也没法评论它们到底做得好不好或者坏不坏。与此同时,Meta 这边重金投入 AI 这件事大家也都知道。我们招了一大批人,在模型训练和其他事情上都在大力投资。我认为我们的 AI 和软件必须特别强,因为如果大家都进场了,我们会和那些已经发布高质量、性能稳定、而且用户每天都能依赖的设备公司竞争。所以我们的质量必须非常好,AI 也必须非常强。我们内部一直在做这些事,这也不是什么秘密。我们正在内部使用一堆新模型,对目前取得的进展感觉还不错。我认为,在今年上半年,我们会拿出一些很令人兴奋的东西:既有新模型,也有建立在这些模型之上的新功能,既会出现在手机上,也会出现在可穿戴设备上,而且我觉得都挺不错。
Alex Kantrowitz:明白了。我想说的其实是,这件事看起来比别的计算形态更像赢家通吃。也许这只是我的看法:如果你真的要有一个你特别信任的 agent 去处理生活里的一切,那你大概率只会用一个。听起来不就是这样吗?就像你只会有一个邮箱收件箱;你不会真的想维护很多个邮箱地址。 [00:37:56]
Alex Himel:我觉得大家通常会更倾向于用一个助手,而不是很多个。原因之一是你得为每一个都付费,所以你大概率会想少付一点,而不是多付一点。第二,和它用得越久,它越了解你,性能也会越好,尤其是在底层能力之外的那些部分。所以我确实认为,大多数人最终会选择一个主要助手,但他们也可能会按任务选择不同助手。 [00:38:23]
Alex Kantrowitz:对,我大概算个例外,因为我几乎就泡在这个行业里,所以我会用好几个助手,而且会按任务选不同的工具。这个可能只是因为我正好身在技术圈里。
Alex Himel:对,也可能只是一个时间点上的问题,谁现在更好,你就用谁;等模型成熟了,也许会逐渐收敛。不过我们的重点很明确:我们想让眼镜在品牌和款式上提供最广的选择,也想把软件做成最好的。市场上的竞争对手已经有一些了,但未来还会有更多竞争,比起我们过去面对的要多得多。原因之一就是,很多人都试过做眼镜,但一开始都没成功,包括我们自己。我们最早那次发布也没有达到我们预期的效果。可是在其他人从市场上撤退的时候,我们反而加倍、再加倍地投入。你会发现,现在我们几乎每年,甚至更频繁地发布新硬件,这就是因为我们已经持续投入很多年,而现在这些投入开始开花结果了。 [00:39:13]
Alex Kantrowitz:我记得大概在 2017 或 2018 年,我和编辑在这里和 Mark Zuckerberg 聊过一次,主题是某个和 Facebook 相关的技术或者新发布。聊到最后,他几乎像顺口一提一样,说到了像眼镜这样的可穿戴计算设备有多重要。我当时就想,哎,这就是个故事。后来我们没有写,但这件事确实说明,Meta 对这件事想了很久。今天我们看到的这些真正能用、而且大家愿意用的设备,很可能是 Metaverse 和 Oculus 工作的延伸,但也不只是“我们试试看”这么简单。对我来说,这件事似乎已经是你们这里将近十年的核心方向了。 [00:40:06]
Alex Himel:没错,这一点绝对是真的。我们收购 Oculus 的一部分原因,就是它不只是一个虚拟现实头显,让你看一个沉浸式画面。当时我们收购 Oculus 的逻辑之一,是那边有一个由 Michael Abrash 领导的研究部门,正在研究增强现实技术,而增强现实最后会落到眼镜和可穿戴设备上。我们一开始就投资了 Orion 原型机,这就是我们大约一年半前第一次公开展示、之后又持续展示的那一款。它从 Oculus 还在的时候就一直在做,最开始就是这个大愿景的一部分。Mark 一直有一种非常强的信念:这件事会非常关键,我们必须在这个领域投资。即便中间有高峰,也有低谷;有些技术模块在某些阶段并没有达到我们希望的进展,我们还是坚持投了下去。回头看,当然很庆幸我们这么做了,但这确实需要很强的信念。我也很感谢 Mark,当然也很感谢 Boz,他们都对我们在做的事情有很强的信心。
Alex Kantrowitz:说到 Boz,我之前听了你上 Boz to the Future 播客的那期节目,你谈到过这个雄心。让我觉得很有意思的是,你提到 Orion 眼镜有屏幕,但它们还没有公开发售;不过实际上,确实已经有一款带显示屏的版本可以让大家买到。你说人们第一次试戴 Orion 时,会觉得眼镜第一次有了替代手机的可能。所以我很好奇,因为 AI 设备最大的一个问题就是:它会成为一个全新的类别,每个人都多拥有一个?还是它会变成替代品?所以这里的雄心,究竟是不是要替代手机? [00:42:24]
Alex Himel:我觉得手机当初的雄心,也是要替代笔记本和台式机。可结果大家都知道,这些设备并没有消失。其实在 AI 的世界里,我反而更频繁地用回了它们。可手机确实后来起飞了,卖出去、用起来的数量都非常惊人,几乎无处不在。我觉得可穿戴设备也应该是类似的:我们预期它们最终会被大量使用,会给人们带来很多价值,但这并不意味着手机会消失。更准确地说,你会看到可穿戴设备承担起今天你在手机上做的一部分事情,也会承担一些今天你根本不会拿手机做的事情。因为有些事你就是不会这么做,这其实很有意思。比如,有些技术其实很早就在手机上能识别你眼前是什么东西,但你不会真的举起手机去理解眼前的世界,因为那种行为本身就很怪。有人会这么做,但并不算正常。可对可穿戴设备来说,这就是非常自然的行为。我们眼镜上最常见的 AI 用例之一,就是“我眼前这是什么?”——这是栋楼、那个地标、那种植物,别吃那朵蘑菇。
Alex Kantrowitz:这个提醒很重要。 [00:44:35]
Alex Himel:对,当然,也可能告诉你“可以吃”,但你本来就不应该随便吃眼前的蘑菇,所以我们还是尽量给出该给的建议。
Alex Kantrowitz:你说得对。
Alex Himel:所以我觉得,Orion 之所以让人反应那么强烈,是因为你真的做了 demo。我们会给你看一堆你能用眼镜做的示例。而那个拥有超大视场显示的版本,能把内容放到你眼前的空间里,让人很容易想象出还能做什么。比如,那个 demo 里其实没有演示这一点,也许拿这个举例有点怪,但我还是想说,因为当时正好赶上那个时间点:我们没有展示“你可以在和别人待在同一个房间里时,把虚拟电视打开看 March Madness 篮球赛”。上周这就是一个很棒的使用场景。
Alex Kantrowitz:你真的这么做了? [00:45:16]
Alex Himel:当然,效果挺棒的。你只要打开一个浏览器窗口,把它放到你想放的位置——如果你围着我坐,我就能把它放在那儿——然后就能看锦标赛。NCAA 摔跤锦标赛那会儿也正好同时在打,我的母校 Stanford 表现也很好。所以那也是你会想看的东西。
人脸识别、隐私与边界
Alex Kantrowitz:那你的脸部识别计划是什么?《纽约时报》之前有篇文章提到一个叫 Name Tag 的功能。文章说,这个功能会让智能眼镜佩戴者识别出某个人,并通过 Meta 的人工智能系统获取这个人的信息。
Alex Himel:我看过那篇文章,我知道你说的是哪一篇。先说明一下,我们目前并没有一个已经上线、能帮你做到这件事的功能。眼镜里没有一个叫这个名字、或者能实现这个功能的已上线功能。不过这确实是用户最常提的需求之一。比如盲人和低视力社区经常会跟我们说:要是我能知道站在我面前的人是谁、从我旁边走过的人是谁就好了。参加会议和活动的人也会这么说,因为你去那里就是为了见人,能认出正在见的那些人当然会很方便。还有很多人也会很自然地说:我最希望这些眼镜能帮我记住以前见过的人的名字。我们确实收到很多这样的请求。我不认为只有我们听到过这个诉求;很多公司都做过原型,我们也听说过。但要推出这种功能,就必须非常谨慎:要真正以隐私优先的方式去做,要确保它不让人反感,要让它在提供价值的同时不让人不舒服。因为这类设备最基本的前提就是,如果我戴着它而你因此不舒服,那我大概率就不会继续戴了。
Alex Kantrowitz:对,确实不值。 [00:47:17]
Alex Himel:没错。所以我们必须非常在意这一点。我们现在在考虑的每一个功能,也都必须考虑这一层。这个功能确实经常被提起,但从隐私、用户感受和法律层面看,它都比较棘手。所以我们绝不会轻率对待这件事,一定会认真思考。市面上现在已经有一些类似能力的版本了,尤其是在盲人和低视力社区里,你会看到这类变体。微软就有一个应用可以做这件事。但我们这边还没有准备好发布,也没有任何已发布版本。它只是我们在认真思考的功能之一。
Alex Kantrowitz:先说一句,去年半我去过一位叫 Nolan Arbaugh 的人家里,他是第一位 Neuralink 患者。他瘫痪了,但因为 Neuralink 又重新能用电脑了。我觉得穿戴设备,甚至脑机接口里最被低估的一个部分,就是它在无障碍和辅助功能上的价值,真的太惊人了。他在使用这个设备前已经瘫痪了 8 年,之前基本没法用互联网,只能靠语音,后来开始重新玩电子游戏,还和我打过一局,居然把我赢了,这真的很厉害。 [00:48:05]
Alex Himel:是的。
Alex Kantrowitz:所以我完全理解这些隐私担忧,也知道你们很清楚这一点。我能理解为什么人们不想生活在这样一个世界里:别人戴着一个设备就能认出我。
Alex Himel:完全理解。 [00:49:01]
Alex Kantrowitz:如果一个你从来没见过的人走到你面前,冲你说“嗨,Alex”,还开始问你问题,那确实很怪。
Alex Himel:真的很怪,这会违反很多社会规范,也会让人觉得很诡异。我觉得我们想做的所有功能,都是把正常的互动变得更容易一点。比如 Name Tag 这个想法,本质上是什么场景下你不会戴名牌?如果我现在在办公室里,一个同事知道我叫什么,这一点根本不会奇怪,因为我整天都戴着印有我名字的工牌。那数字版的名牌也不会奇怪。类似地,最适合“记住别人名字”这件事的场景,是我确实已经见过你、你也告诉过我名字,但我就是记不起来。也许是新会议,10 个人围桌介绍完,我脑子里有 9 个名字,偏偏忘了第 10 个;也可能是孩子在同一个班,我们两个月前见过一次,我知道你孩子叫什么,却怎么也想不起你的名字。要是有一个应用能让我把你加个好友,顺手建立连接,那也挺好。但你得让它在真正合适的时刻出现。它应该帮到我,而不是让我更尴尬。
Alex Kantrowitz:我脑子里确实能想起一些类似的 App,但一时想不起名字。可能得你帮我补一下。它不是 Meta 的,不过这话题很有意思。 [00:50:38]
Alex Himel:对。
Alex Kantrowitz:所以我就把这一段收个尾。你刚才说的是“不会上线”,但这并不意味着它完全不在研发中。
Alex Himel:对,这个方向几乎每家公司都会想到。它绝对还没上线,但确实是大家反复会讨论的一个方向。我们不会排除在这个领域里做点什么的可能性,但前提一定是:它必须经过非常深思熟虑、做得非常好,而且要让用户真的感觉舒服。否则它根本说不通。
Alex Kantrowitz:所以基本上,你可以排除这样一种想法:我戴着眼镜走在街上,看一眼陌生人,就能知道他叫什么。 [00:51:22]
Alex Himel:对,我就是觉得那不是人们想要的功能,也不是真的会让人舒服。
Alex Kantrowitz:好,明白了。这个观点很重要。
端侧推理、Ray-Ban Meta 的转向,以及现有产品线
Alex Kantrowitz:我们再聊聊这会怎么改变 AI 基础设施的故事。现在这件事很有意思,因为我们正在走向一个更小模型的世界,其中有些模型甚至不需要跑在几百亿美元的巨型数据中心里,直接在设备上跑就可以。Meta 很有意思,因为一方面你们正在做那种大规模的数据中心扩建,另一方面你们又有一些设备,我想它们将来大概也会希望把 AI 模型直接跑在设备上。你能聊聊这两者之间的平衡吗?它们会不会互相抵消,还是说两者都需要?
Alex Himel:公司正在建设的服务器和数据中心,Meta 也包括在内,其实主要服务两大核心功能。第一是训练模型,这件事肯定发生在数据中心里,而且未来也会继续发生。现在大量投资也都投在这一块。第二,就是你说的推理,也就是模型在你使用的时候,到底在哪里运行,去回答你的提示,或者更 agentic 地帮你做任务。前者,也就是模型训练,我觉得会持续留在数据中心。后者则有很多理由要往设备端迁移。第一,延迟和可靠性会更好。你在手机上也体验过,事情越本地化,网络中断、带宽低、数据包丢失之类的问题就越少。第二,是用户成本。你现在用的很多助手,之所以要收费,就是因为背后真的是要花钱去服务你。你也会看到使用额度限制。如果模型直接跑在你的设备上,这些限制就会少很多。再往下说,能耗也是一部分成本;如果它跑在你的设备上,当然就变成你自己要负责给设备充电。还有一个最明显的好处,就是隐私:如果数据留在设备上,你对自己的数据就有更多控制权。 [00:52:11]
Alex Himel:但反方向也有现实限制:小模型在某些任务上能力还不如大模型。所以真正要做的数学题是,针对一组特定任务,小型、本地运行的模型表现到底如何。如果它表现得足够好,那无论对使用它的人,还是对像我们这样提供它的公司来说,都有很强的动机把它本地化。不过最后大概率还是会是一个混合方案:更复杂的任务仍然要在服务器上跑,或者跑在更大、更强的个人设备上。 [00:54:08]
Alex Kantrowitz:我想用这个问题收尾,也就是这项 AI 是怎么进入 Ray-Ban Meta 的?因为它最开始并不是按“内置 AI 助手”这个思路设计的。然后有一天,你开着车带着孩子,事情就开始变化了。
Alex Himel:对。当时我们已经有了 Ray-Ban Meta 眼镜,它是我们和 EssilorLuxottica 合作推出的第二代 Ray-Ban 产品。那其实是我们讨论最激烈的一款设备之一,因为第一代没有达到我们的预期,而且它也并不是相较前一代的重大技术跃迁。我们当时就在想:这事到底值不值得继续做,还是干脆直接上带屏幕的眼镜?那时候带屏幕的眼镜已经有多个版本在开发中了。后来,AI,尤其是生成式 AI 和大语言模型,突然起飞了。我不记得具体是哪一天了,但我记得那是一个周六。我把孩子放在后排儿童座椅里,结果 Mark 在 WhatsApp 上给我发来一大段文字,开头就是:“嘿,我觉得这些眼镜可能会是一个很棒的 AI 设备。”然后后面一条接一条,全是思路。作为一个负责任的家长,我当时把车停到高速边上,跟他来回聊。那是周六,到周一,我们团队里就已经有 200 个人被转去做这些眼镜的 AI 了。后面的故事大家都知道了。AI 其实给了我们一个更高天花板的愿景:这副眼镜未来到底可以变成什么样。讽刺的是,我们当初那些不确定“技术跃迁够不够大”的功能,最后都证明是足够大的跃迁,也给我们带来了最早的用户使用和增长。音频效果已经好到可以打电话、听音乐了,图像质量也已经好到可以把视频分享到 Instagram,或者分享到你愿意用的任何别的应用里,而大家也愿意参与。
Alex Kantrowitz:我就想象一下,后排孩子开始有点闹腾,你还在那儿说:听着,爸爸现在正在发布一个新的设备类别,咱们得先安静一下。 [00:56:42]
Alex Himel:对。两年后,我家里最常被问到的问题,就是什么时候会出儿童版眼镜。
Alex Kantrowitz:真的?
Alex Himel:因为他们真的想要一副自己的镜框,戴着到处走。
Alex Kantrowitz:好,在我们结束之前,最后把现在已经有的这些眼镜梳理一遍。
Alex Himel:当然。现在有标准版的 Ray-Ban Metas;然后是 Oakley 版本,也就是 Oakley Meta Houston Lifestyle;还有你我这边看到的那副带屏幕的显示眼镜,它是可以直接买到的。 [00:57:01]
Alex Kantrowitz:那副多少钱?
Alex Himel:799 美元,已经包含 neural band。
Alex Kantrowitz:哦,这比我想象的便宜。
Alex Himel:另外还有一条可以配合使用的手环,它会读取你的神经脉冲,帮你控制屏幕。除此之外,还有我们刚刚说的 Ray-Ban Meta Optics,它更轻,4 月 16 日上市。我们是在 3 月底发布的,到了 4 月上中旬就能在货架上买到。
Alex Kantrowitz:明白了。
Alex Himel:你还漏掉了 Oakley Meta Vanguard,也就是我们的运动眼镜。
Alex Kantrowitz:对,没错。
Alex Himel:它特别适合骑行、滑雪、跑步。
Alex Kantrowitz:是啊。跑步这个场景确实挺有趣,我觉得它可能还能帮我保住后背。我前阵子跑步时一边跑一边看手机,结果因为总看配速,最后把腰给闪了。所以如果能把这些信息直接放到屏幕里,那光这一点就足够值回你们的努力了。
Alex Himel:那你就得买一块蜂窝手表,省得把手机带上。 [00:58:10]
Alex Kantrowitz:说得对。Alex,很高兴见到你。非常感谢你来做客。
Alex Himel:谢谢你,Alex。
Alex Kantrowitz:也谢谢大家收听和收看,我们下期 Big Technology Podcast 再见。