166: 许华哲再次具身创业:不想错过最大的西瓜

完整转录稿

Podcast 晚点聊 LateTalk 2026-05-26 07:15
摘要

整体概括

这期播客的核心,是许华哲解释自己为什么从星海图离开后再次创业,并把新公司破壳的目标直接定成“通用家庭机器人”。他的判断非常明确:具身智能真正的机会不在把单一场景做得更像“机器人演示”,而在于把智能本身做通用,让机器人能进入家庭、连续工作、并逐步适应更复杂的现实世界。相比“先做落地、先做量产”,他更相信大模型、多样化数据、scaling law 和 agent 式主动性会把具身智能推到一个新的阶段。

主要内容

许华哲先回顾了自己重新创业的过程。最初他一直把“家庭机器人”当成长期技术追求,后来在 2025 年下半年越来越确信,行业时机已经接近,而且自己更适合亲自主导这件事。他和程曼祺讨论了从星海图离开的背景,强调这更像是因为他产生了新的判断和新的使命感,而不是简单的分歧。对他来说,创业不是一时兴起,而是长期思考后对“现在应该由我来做”的确认。

在产品形态上,他用“备菜机器人”的设想做了第一轮发散,又很快通过和朋友、同学、工厂场景的交流意识到,很多看似需要人形机器人的地方,实际只需要“稍有智能的机械臂”就能解决。工业物流、生产线、鞋厂、食品厂等场景看似需求明确,但它们真正要的是效率和稳定,不一定要人形,也不一定需要最强的通用智能。这个判断推动他把目光重新拉回到家庭场景:家庭才是更复杂、更开放、也更能检验通用能力的地方。

他多次强调,具身智能的核心不是“机器人这个铁疙瘩”,而是里面的智能是否足够通用。传统机器人学、自动驾驶式的数据闭环、小模型叠小模型的路线,在他看来都很难通向他想要的物理 通用人工智能。相反,大模型已经证明,只要数据足够多样、模型架构合适,通用性就会逐步涌现;agent 的意义,则在于它展示了主动串联、填补缝隙、把模糊意图变成行动的能力,这种能力对家庭和物理世界都非常关键。他特别强调,不能在一个封闭环境里不断补数据,却期待最终得到真正通用的能力。

他还用 OpenAI 的故事来解释“科学家的信仰”为什么重要。在他看来,真正改变世界的往往不是短期工程折中,而是对远景的坚定判断。无论是 OpenAI、DeepMind,还是他提到的几位科学家创业者,都是在别人还不完全相信的时候,坚持把数据、模型和长期路线推到底。许华哲把自己也放在这样的叙事里:他是 impact-driven 的,关心的不是“卖杯子”式的短期收益,而是能不能做出一个长期改变人类生活方式的东西。

公司方法上,他主张“聚焦”和“极致”,但不是闭门造车。他和另一位创业者交流时,确认了两个关键假设:一是具身智能会很快进家庭,二是公司要相信生态分工,不会把摄像头、电机、线圈、所有零部件都 in-house 做掉。破壳更想把注意力放在最重要的两件事上: AI 和产品。产品不是单纯的本体硬件,而是机器人加上 AI 之后,能不能真正服务好用户、让人愿意长期使用。苹果和小米是他反复提到的参照系:前者代表新品类的定义能力,后者代表和用户一起定义产品的参与感。

在家庭场景上,他也谈到了很多现实约束:楼梯、楼层、家庭结构、电池大小、充电方式、不同国家家庭的差异,都会影响机器人能不能真正进屋。他认为这些问题不能靠想象解决,必须深入场景去做产品定义。正因为如此,他希望未来的办公室像一个家,能开会、录播客、训练机器人,也能让团队在同一个场景里一起工作。这也是他对组织和文化的期待:不是一个什么都做的大公司,而是一个能把少数最重要的事情做到极致的团队。

最后,许华哲把自己的成长经历也串了进来。他从高中开始就一直对创业有兴趣,后来因为成绩好、又投身 AI,逐渐走向学术和研究;现在重新创业,他觉得像是找回了更小时候的自己。他也承认自己很享受这种高强度、主动做决定的状态。对他来说,这次创业不只是职业选择,而是一次把“使命感、技术信仰、个人愿望和创业冲动”重新对齐的过程。

关键 takeaway

1. 许华哲押注的是“通用家庭机器人”,而不是单点任务机器人。
2. 他判断机器人真正进家庭的时间窗口大约是 18 到 24 个月。
3. 他认为具身智能的核心是智能通用性,不是机械形态本身。
4. 大模型、多样化数据和 scaling law 是他最看重的底层前提。
5. 他明确反对传统机器人学、自动驾驶闭环和小模型叠加路线。
6. 破壳的组织哲学是聚焦、极致和生态分工,不追求全栈包办。
7. 他希望产品框架先出来,再让全球用户一起定义真正的机器人形态。
8. 这次创业本质上是他回到长期使命感、创业冲动和影响力驱动的自己。

目录

为什么要做通用家庭机器人

许华哲:他是一个机器人,然后他就跟工厂里的机械臂一样,只不过他是人的样子,他不相信那个physical 通用人工智能会诞生,我想象的,甚至不是渗透,我觉得就是因为我们其实,最终我们要做的事情,就是造一个人,尽管我们现在是家庭机器人,但最终我们是想造一个人,所以他下班以后,他出去以后,他可以是一个在酒吧里跳舞的人,他可以是一个在田里种地的人,他可以是一个在课上教书的人,但是都是同一个机器人,因为它是通用的,我觉得这样就可以算得过来了,如果它是专门在那干那件事的人,我觉得人形机器人很难算得过来 [00:00:53]

程曼祺:欢迎收听晚点聊,我是曼琪,本期的嘉宾是许华哲,从26年3月开始,他有了一个新身份,破壳机器人的创始人,之前两年多里,许华哲是星海图的联创和首席科学家,这次重新创业,华哲想自己主导推动一个大梦想,通用机器人,第一步就是家庭机器人,他也想跳出此前,中国具身智能行业的一些路径依赖,更回归通用智能的探索,他说具身智能不是robotics 不是自动驾驶,也不是史前的深度学习,这并不是现在最流行的叙事,他是怎么想的,破壳会怎么做,我们进入本期节目吧,华哲你可以先和我们的听友和观众,简单打一个招呼,简单自我介绍一下 [00:01:07]

许华哲:好的,大家好,我是华哲,我目前在创业,刚刚成立了一个新的公司叫破壳机器人,然后同时我也在清华大学交叉信息研究院在做助理教授,在做最新智能相关的研究,另外也在做自媒体,对,就是录一些播客,录一些,记录一些生活,在一些自媒体平台上面也都有很多分享,对,这可能是我主要在做的工作。

程曼祺:三件事,我们可以从你,这次创业开始聊,也是我现在最好奇的问题,就是你之前,其实是在星海图,是联创,就是23年成立的,一家军事智能公司,然后26年年初,这个时间点,你是出来,就是重新做这一次创业,然后关于你和星海图,是怎么分开的,我觉得外界有很多传闻,就有的人会说,比如说是和平分手,然后有的是说是孵化,有的时候是你们闹掰了,你可以自己讲讲,这是一个什么过程 [00:02:27]

许华哲:我觉得更多的是,我产生了一些新的想法,然后这个想法其实也不算新,只是后来想到,可能只有我自己去做,才有可能做到

程曼祺:才有可能做出来,所以就觉得,还是要自己来做这件事,对,那你可以描述一下,这个想法是什么吗,你什么时候开始,去思考这件事情的,包括当时后来,怎么和季阳和赵涵和天威,他们去沟通的 [00:03:07]

许华哲:就首先这个事情,我之前都有提,就是做家庭机器人,对吧,就是那条松鼠桂鱼,我也反复提过很多次,但是我觉得到现在为止,就是更多的是技术上面,其实我是最初是想把这个,当做我的人生的追求,因为机器人的这个进展,其实可慢可快对吧,所以一定程度上,那个时候不是一个创业的想法,而是说我在技术上,我要做到这件事,但是在25年的后半段吧,然后就会觉得

程曼祺:OK这件事情好像到来的时间不会太晚,而且这件事情可能更适合我自己去主导去做,你可以把这件事情可以描述一下,就你说你比你想象中会更快到来的

许华哲:其实一个事情发生的时间可以是一年,可以是十年,可以是五十年,很多时候像具身智能,这个家庭机器人到来这件事呢,确定性还比较高的,原因是什么呢,原因是大模型已经蹚出了一条路,所以在有足够的数据,在有足够的这个算力的情况下,那个智能模型一定会变得很好,所以再加上社会的关注度,然后加上这个资本政策,其实关注度也很高嘛,所以一定程度上加速了,这个未来的到来,我觉得在未来的18到24个月,这个世界会有一台机器人,真正走到家里面去做一点事,可能服务了一些人类,也许他还不足以稳定的,一个产品的形象存在在那,但至少他已经,可以连续地工作很长时间了,至少他可以在家里面,把相当多的事情做了,他可以让一个人觉得相信,产生体感,相信那个未来已经来了,其实这个过程是一个,既是渐变也是突变,像比如大模型的到来,我们体感上,其实是一个渐变的过程 23年我们就开始用了,对吧,然后每天跟他聊着聊着天,怎么过了过几天,他就更聪明点,过了几天就更聪明点,到现在的这个OpenAI 对吧,这个Llama等等,大家发现OK 这个事情好像突变了,突然变得特别好事,突然变得能干所有事了,我觉得具身智能,也会是这样一个过程,就是我预测的,那个可以产生体感的时间点,大家会发现 OK它还有提升空间,对吧,然后可能六个月后,你会发现,它变得更好了,再过三个月,可能变得更好了,也许过一年以后,它就变成,好像突然可用了 [00:05:03]

程曼祺:家里只需要一个机器人,别的都不需要了,对,所以我会觉得,它不会太晚到来,所以我可以理解成,其实你要是在星海图,继续做你想做的,家庭机器人这件事情,不是星海图,他们现阶段的重点,至少我看到的不是,我觉得是,可能跟中国的,一个行业现象有关,就是我觉得中国的,比如23年 24年这一波成立的,具身智能公司,很多,首先大家是比较强调,去量产和落地,然后很多选的第一个场景,是偏工业物流这种,生产的场景,是,然后我看你在年终总结,你也写了,你add了很多人,有赵航王赫,还有高扬等等,就是你觉得,可能我们,花了更多的精力,在这个量产和应用上,然后在模型,在智能的突破上的一些努力,目前看起来,是没有一些美国公司进展快的

许华哲:比如说派等等,从我的视角来看,具身智能本身最核心的还是智能,机器人其实只是一个铁疙瘩,它里面有电机,有它的结构件,有它的一些电路,但是实质上产生变化的是,里面的智能,让他真正能做各种各样的事情,那在工业场景里面去做落地,往往做的那个事情不太需要智能,往往需要的是一定程度的智能,而做那件事,我觉得离我们追求的,那个physical 通用人工智能 对吧,通用的具身智能体,我觉得是有一个巨大夹角的,换成大模型的这个语言,就是说我在今天,我会希望做一个,所有问题都能回答的客服,智能客服,还是我应该做,今天在做的这个大模型,我觉得答案是显而易见的,这是为什么我觉得,我并不排斥落地,或者我并不觉得它不好,我只是说,我们同时也应该多去看一看,怎么样把智能的能力,真正做上来,让它真的变得通用,因为变得通用这件事,才使得这个具身智能,真正能改变人类的存在的方式,所以我觉得这个是它最大的一个价值,如果今天告诉你你可以用DeepSeek 你可以问它一些数学题,只能问它一些数学题,你觉得它会有一个巨大的影响吗,我觉得不会,它可能就成了一个小升初,大家专门去刷一刷数学题的一个软件,它可能绝对不是现在所有人都必争的一个高地,我觉得同样的,我们要的那个Physical 通用人工智能,是我在家里面,让他干点什么事情,他就可以干,在社会上面,在这个外面的空间里面,我让他做一件事,他就可以做,那这个时候,才变成了必争之地,因为所有的生产力结构,都会发生改变,而不是单纯的,降本增效的提高生产力,你正式决定创业,是在什么时候,我觉得这个很难说,就是产生这个想法,是去年的八九月份,然后其实也在中间做了各种各样的思考,对,然后我们公司是3月3号注册的 [00:08:40]

程曼祺:然后我觉得是在过年前吧,过年前算是这个事情正式敲定吧,从八九月份到春节前,中间也是有差不多三个多月的时间,是,这个过程中间你在想一些什么,有哪些是让你就是非常想纵身一跃来创业的,然后有哪些点是可能你会比较担心要去考虑一下呢,对 [00:09:20]

许华哲:首先这段时间,手头上还是有一些活要干,所以还是要干点活,然后,但在这个过程中,我觉得,我却在想创业能干什么,虽然我想做这个家庭机器人

从备菜机器人看产品形态

许华哲:虽然我想做这个家庭机器人,但是,他究竟应该长成什么样子,他究竟应该干哪些事情,他究竟多长时间会到来,我觉得这些事情,都是我在仔细思考的,以及我其实中间也,就是我习惯先发散,然后再收敛,这样的去思考,所以我之前也想过,比如说我能不能做一个,专门备菜的机器人,就是因为大家都挺喜欢,炒菜这个环节的,但备菜一般,大家都不是很喜欢,我去给我在美国生活的同学,中国的好朋友都打了电话,或者是一起约了个饭,我说我要做这么一个事,你觉得你会花多少钱买,然后因为我觉得美国物价贵点,就两边我都问问,然后他们的答案就是出奇的一致,他们都会找一个厨房里面

程曼祺:最相关的东西去跟他做比较,就是厨房里有一个设备,或者一个电器是吧,没错,中国的同学相对大方一些,他跟我说是冰箱,原来是中国同学相对大方,没错 [00:10:53]

许华哲:他会觉得,这个备菜这件事,对他来说很重要,所以他觉得,他可以付一个冰箱的钱,大概一万块钱,或者六千块钱,对,然后,美国同学相对,更加,对这个事情,他觉得没有那么,那么对他有吸引力,因为他说备菜过程,他也很喜欢,所以,所以他会觉得,那可能是一个,买一个高压锅,或者电饭煲的钱,可能更便宜一点 200美元,就1000多,对所以,聊到这的时候,就这个话题就进行不下去了,因为,我们的一个关节,可能要1000块钱,而一个机械必须要7个关节,光是这7个关节,就已经超过了,他的购买预算了,所以我,去想了想家里面的,这种某某机,对吧,就是电视机洗衣机,冰箱没带机,对但他也是个机,对,它的价格就在这,对,所以这是我第一个去想 OK 我可能也许如果要做某某机,就不是机器人,它一定不是机器人,至少在机器人的成本大幅的下降之前,是很难,很难去做这样的事情,第二件事呢,我也因为有很多朋友嘛,跑了很多地方,车厂里面的生产线,然后物流厂里面的这个,做物流传递的,然后一些传统的制造业,包括一些轻工业,就是比如说鞋厂,我去跑了很多地方,还有一些食品工业,还有布草间,对,这些地方我也去看了看,因为当时反正发散,就看看哪需要点啥,我发现他们都很需要机器人 [00:12:00]

程曼祺:但他们需要的,不是人形机器人,是能够把人的那个活干了的机器人,你当时想的是智能,家庭机器人,但是你也去看了这些,物流和生产的环节,我觉得我在想事情的时候

许华哲:是发散的过程,我希望我不漏掉任何事情,我希望能够仔细的去知道,知道事实,然后根据这些事实,做出判断,而不是,而不是我一拍脑袋 [00:13:04]

程曼祺:因为我喜欢,所以我做了,那你可以据说,你说这些场景,你觉得他们其实不需要,人性或者类人性的,对,它其实某种意义上,当我们提到说,你们需不需要的时候,他会说非常需要,我们太好了,来一个人性机器人帮我们干了

许华哲:但你在深入聊的时候,他其实在乎的不是人性机器人,他在乎是能不能把那件事干了,而那件事本身的价值,是由现有的干那件事的人的工资,和他做的产品的价值,共同决定的,但实际上最主要的,还是干那件事的人的工资,很显然并不是特别高,并不是特别高,我们看了相当多的这样的地方,发现去做替换,其实它更需要一个,稍有智能的机械臂,稍有智能的机械臂,而不是一个真正通用的人性机器人,而且它在效率的追求上

程曼祺:是非常极致的,对,他们对节拍,对精度各方面的要求都很高,是的,所以在这样的一个情形下,我们发现,还是有很多的企业是很大方的 [00:14:11]

许华哲:他就说只要你能做到这个事,我就立刻怎么怎么样,给你支付一些报酬或者怎么样,对当然也都是只是聊聊天,没有任何实质性的动作,但是聊完这个以后,我产生了一个点,就是那些非常高价值的事情,其实已经都被自动化了,其实那些特别困难,但是价值不高的事都留给我们了,对,然后这件事其实我觉得值得做,但是我又想,其实我很喜欢去想,那这个事情到底谁来做,我们的一个结论就是,因为它足够困难,但是价值又没有那么高,所以我觉得应该是一个,通用的东西降维去做的,而不是专门去解决它,因为一旦你专门去解决它,你会花费相当多的精力和资源,去解决一个低价值的事情,所以这个很显然是,在很长的一段时间内,没有办法打正,或者是没有办法 [00:15:18]

程曼祺:产生一个比较好的收益的,所以你觉得这个顺序,是先有一个比较通用的机器人,再适应它的场景,它有一定的规模,它到一定的纯熟度,然后它再渗透到这些,更分散

许华哲:更像毛血血管一样的这种场景,对我想象的,甚至不是渗透,我觉得就是因为我们其实,最终我们要做的事情,就是造一个人,尽管我们现在是家庭机器人,但最终我们是想造一个人,然后它就像现在人类社会一样,他可以很通用,所以那边需要他干点事的时候,他就过去了,他下班以后,他出去以后,他可以是一个在酒吧里跳舞的人,他可以是一个在田里种地的人,他可以是一个在课上教书的人,但是都是同一个机器人,因为他是通用的,我觉得这样就可以算得过来了

程曼祺:如果他是专门在那干那件事的人,我觉得人行机器人很难算得过来,这是你当时,你说发散吗,这你想的第二件事,去看了一些生产和物流的场景 [00:16:15]

许华哲:然后中间还有一个点,就不是技术上的点了,就当时我的宝宝快出生,就是我宝宝12月初出生的,所以正好2025年的下半年的这段时间,也是一个等待宝宝叫声的这样的一个时间点,所以我也在想能不能忙得过来,对,以及,是不是,应该更稳定一点,或怎么样,对,所以这个也是我的一个思考的点,对,我觉得这是个很真实的想法,本来我也想问的,因为同时开始新创业

程曼祺:和当新手奶爸,我觉得在经历上,各方面都是很大的挑战,对,你后来最后你是怎么得出结论,觉得还是要在这个时间点创业,对,我觉得,时代在召唤 [00:17:06]

许华哲:我很喜欢那个小时候的,呃广播体操的那个名字,时代在召唤啊,我觉得呃,我我在我上周在刚在那个,呃组里面跟大家也在讲,就是说呃当年对吧,这个房子变得越来越贵的时候,我们还是小朋友,那你没有买房子,呃那说明你这个可能你还小,对吧,但是你爸妈没有看到这个这个东西,后面创造了巨大价值的这个互联网,那时候我们在读书,我们在积累,所以大家也没有勇气去退学创业,再往后去看移动互联网,等等O2O之类的,我觉得那个时候你都可以说,有很好的理由,就我不ready 然后到今天了,我觉得这个AI的时代,你又恰好是一个搞AI的人,没有理由不,没有理由不接受这个时代的邀请,这个舞台已经打好了,然后你说我要忙着带娃 [00:18:14]

程曼祺:你说我要这个谢谢,我觉得没道理,我无法拒绝这个offer 从去年八九月份,到你思考创业这个过程中间,有什么特别具体的,时代在召唤的信号吗,或者技术上的一些具体的进展,让你觉得你来做这件事,可能是刻不容缓了,我觉得非常多,你可以讲一个具体的

许华哲:比如我们自己做的,强化学习的东西,当然后面派也做了,它的派star 0.6 就是我们看到了,在一件具体的任务上面,它可以做到非常高的成功率,百分之百,可能一百次,一千次的这样的一个,验证量级上面,可以做到这样的一个成功率,那一定程度上,那个定点的任务,已经某种意义上解决了,点点的任务已经摸着我衣裳解决了,大模型,我觉得给大家看到了 scaling law的上限,是非常非常高的,只要数据到位,加上合适的模型,那个通用性是,有一个人已经保证了,对吧,伊利亚已经保证了你会有的,对吧,所以你也不用太担心这个不确定性,只不过路径在哪还在探索,但是那个答案就放在那,就像我就喜欢的,那个海贼王里面一样,就说我把所有的一切,都藏在那个one piece 对吧拉夫德鲁,然后只不过你找很费劲对吧,你得过关斩将去找,但是反正就在那 [00:19:41]

agent 让物理世界更通用

许华哲:但是反正就在那,大家都说真实的存在的,对吧,那个白胡子说谁也说,那你就去找嘛,你没有必要去,这个说我就不信,对吧,然后第三个呢,我觉得这个agent 我觉得是可以看到一些,更厉害的东西,就它也是大模型,但agent某种意义上,它产生了一种主动性,产生了一种,把所有的缝隙都填上的这个能力,我觉得这个是,对机器人来说也是有巨大意义的,就是为什么我们家里有那么多机,因为它每个都是专用的,它们的缝隙都靠一个东西叫人,对吧,一个生物叫人,把它们填起来,我的洗衣机,把东西挪到烘干机,我的冰箱把东西挪到微波炉,然后我这个,对的就它每一个东西都是专用,但中间怎么串起来,因为家里不是一个流水线,你没有办法说,冰箱有一个出口,按一个按钮,然后它就吐出来一个东西,到微波炉,但agent 智能体这件事,让大家看到了,是有可能的,它可能主动去做,或者你给它模糊的一个意象,它就去做,因为他操作电脑对吧 computer use 这件事情本质上跟,在家里面去做这个物理的串联,意义是一样的,厨房use 对厨房use 他可以,他可以现在可以帮你上传小红书,他可以帮你这个,管理我的非熟日历,对我来说 OK我看到了这个非常了不起的变化,因为以前我需要自己点开日历,然后拉一个条,然后如果是跟美国的人开会,我要算脑子里算时差,再拉一个条,这件事我只要跟他说,他就像我的一个助理一样,那谁不想要一个机器人的,这样的一个助理呢,你再也不用说 OK帮我把昨天剩的锅包肉,拿出来热一下,你说那个午饭,帮我大概准备一下,好吧,然后我把昨天剩菜热热就行了,然后他就都搞好了,我觉得这个也是 [00:21:46]

程曼祺:看到了未来会是非常不一样的,他就不再是一个什么什么机,而是一个人,而是一个人,那这个agent的这个思路,它是一个思路上说,对巨神非常有启发,还是说它具体的,这个agent的框架,就有些具体的东西,其实是可以用在,具身智能的系统里,我觉得就是可以,直接可以用的,可以直接用,对,只不过就是,那个,它的那个skills 就是agent 它不是要调用一些,它的技能吗,对 [00:22:03]

许华哲:那些东西是巨神的 AI的能力,就是比如说干活,对吧,就是它说它要倒水,那你起码有一个模型,得真的能倒水,它说它要叠衣服,你得有一个模型,真的能叠一幅,但那个框架,把这些能力串起来的,那个框架

程曼祺:我觉得,不能说直接可以拿过来用,但是至少可以高度借鉴的,对因为在就是,纯虚拟世界的这个skills 其实它大量的skills 就是一些prompt 就是一些markdown的文档

许华哲:但这个可能在物理世界,要比较复杂很多,对它,它是prompt 但它也是实打实的,这个computer use 对吧,就是它是实打实的,点开了你的一些东西的API 帮你把一个东西上传了,或者帮你把一个东西下载了,挪到了什么地方了,对吧,它其实也是在,如果你认为虚拟的那个世界,也是一个世界的话,它其实也是在发生交互,我觉得发生交互这件事,其实是很相似的,只不过物理世界的交互,要困难得多,所以我们的智能上面的决心,当然是把这个,物理世界交互这件事也解决,那就可以创造一个

程曼祺:物理世界的很好的产品,在讲这个信号的时候,你没有特别提到数据,是因为你觉得数据在,比如说25年8 9月份之前,其实已经很明朗了吗,我觉得数据 [00:23:33]

许华哲:数据其实是一个卡点,数据大家认为是一个卡点,是因为那个时候,大家还是很多的用 Aloha的方式去采集,就是摇操,对,但所以在今天我觉得,比如说现在有的UMI 就是手持的,无本体的采集方式,包括视频数据,我觉得肉眼可见的,实在变多,实在变得好用,但这件事我觉得,对我来说,从一开始就觉得是这样的,所以对我来说,没有太多变化,我在21年的 22年的时候,就在做一件,很有意思的事,那个论文到最后,也没有种在一个,很好的会议上面,做一个很有意思的事,就是做长视频分割,当然现在可能Gemini 直接就把你做了对吧,为什么我要做这件事呢,因为我要,用王刚师傅或者是,这个不知道能不能提,就是一些网红的,做饭的视频,然后我要,因为他们的视频有很多剪辑,因为很多都是多机位的,然后对有很多剪辑,我要把他的,干活的那些东西,给提出来,从这个视频里面,去学机器人该怎么做,我觉得视频数据在,从一开始就是,会被大量用到的,只不过为了,因为阿罗哈太容易展示进展了,所以大家就是用那种,同构的这种摇操作 [00:24:39]

程曼祺:我觉得更容易看到很多进展,但是终局的话,肯定还是视频数据是终局,当你这次开始决定创业之后,你取名字的时候,给公司取名叫破壳,为什么取这个名字,什么意思 [00:25:16]

许华哲:贱名好养活,贱名好养活,就是那个什么狸狗蛋,什么之类的,就是这个容易活下去,然后当然还有一个原因,当然这是白笑了,就是更主要是,我觉得很有生命力,很有生命力,很多新的想法,新的人,就像是一个,这个破壳而出的这种感觉吧,然后另一个就是,我觉得它是一个原点,就是,我们还是希望追求原始创新嘛,原始创新,所以我们希望,这个外面有一个壳,但我们里面的东西是那个,是那个精华的东西

程曼祺:然后有一些从零到一的东西,在我们这发生,所以起了这样的一个名字,因为我也看你自己写的一些东西,就跟你的,对巨星的一些思考,还包括你创业相关的一些东西,我觉得你想做的这件事情,一个是你非常想聚焦在智能本身,还有一个就是,你提到就想去做家庭场景的智能机器人,这个很多公司都认为,可能会更远才到来,所以可能外界对你创业,也有一个标签,就觉得你是,带着更多技术理想的科学家的创业,你自己会怎么看这个观察,你自己是怎么定位的,科学家创业不好吗,科学家创业有利有弊吧 [00:26:20]

许华哲:你可以自己回答一个,这个问题,科学家创业不好吗,肯定有投资人也问你了,我觉得科学家创业,在几年前呢,大家会不喜欢,大家不喜欢的主要的点呢,就是我觉得两个吧,一个叫做,科学家有的时候,不太重视商业,对技术的这个热情过高,以至于就只做技术,但是做一个公司,很显然不能只做技术,我觉得这是一个,大家可能会担忧的点,另一个就是退路的问题,就是大家会觉得 OK 技术人员,不光是科学家,技术人员可能,他总还是可以变回一个老师,总还可以变回一个工程师,所以他会觉得不够 all in 对,但我觉得现在时代不一样了,这是几年前的观点,用AI的时间来算的话,基本上已经上过时期的观点了,科学家里面有一个很好的,有几个很好的榜样,对吧,大家也都知道他们的名字 Illia 对吧 Hassabis 这个Joffrey Hinton 我觉得包括最近的Yan LeCun 对吧,我觉得科学家创业已经是,这个时代的主话题了,我有一个投资人朋友跟我说,他觉得在这个时代,是从来前所未有的,学习好对创业来说如此关键,因为为什么,因为其实如果你,比如说我做了一个这样的杯子,我想把它卖出去,科学家一点用都没有,因为造这个杯子的这个东西,可能相对比较简单,但是我们在追求AI的同时,其实追求的是一种,技术信仰,技术信仰,如果没有对那个,很远的事情的信仰的话,最后会变成卖杯子,最后会变成卖杯子,但是我们要追求的,不是卖杯子对吧,我们要追求的是,造出一个人,造出一个,一个像人一样聪明的东西,所以,我觉得科学家的这个,视野和,叫vision对吧,远见,我觉得在这个时代是最最重要的 OpenAI是非常好的例子,对吧,我觉得这个故事,大多数人都都都知道了,就是但是可能大家不知道,他最开始在硅谷,在硅谷,大家也觉得他是个异类,就是说每个人都觉得,谷歌是最好的,在里面开放的发散的,做很多的科研,产出很多成果,但OpenAI就相信,就是堆数据这件事,然后Illia就是在那堆,然后堆到后面,直到GPT刚出来的时候,大家还没有意识到,直到ChatGPT出来的时候,大家终于意识到了,它的坚定的判断,才是改变这个世界线的,那个最重要的因素 [00:29:40]

科学家的信仰和 OpenAI 的启发

许华哲:那个最重要的因素,而这个因素来自哪呢,就是来自于科学家的信仰

程曼祺:其实你刚才提到这几个人,星盾哈萨比斯伊利亚,还有乐坤,因为乐坤我理解,他是刚开始创业,对吧刚认完字,刚开始运营,然后哈萨比斯和星盾,其实他们都是,做了一段时间之后,他们就被收购了,对是的,他好像和一般人理解的那种,就是一个长期独立存在的创业公司,都是不太一样,伊利亚也可以说,他是开始了自己的新的创业,也没有特别久的时间 [00:30:05]

许华哲:对我觉得伊利亚新的公司,我还不了解最新的进展,但是他在OpenAI的时代,是里面的灵魂人物,对吧,或者说是谁下的这个判断,是谁决定了搞这么多数据的,我觉得就是伊利亚和 maybe 庄舒曼,他们几个人,但我也不完全了解里面,他们的这个具体的决策了,对,但是你去看,真正改变这个世界的,就是这些人 OPI难道不成功吗 DeepMind被收购了,我想是因为,他们开始的太早了,他们在应该是2010年,开始了这件事,对开始这件事 10年是什么年代呢 10年是 ImageNet还没,对吧 13年的时候,ImageNet给大家带来很多惊喜,在那还比那还早三年,他能活着已经很不容易了,就是在那个时候,我只能说AI是他的一个,就只能说他的远见太远了,就像一个古代人说,我要造一台手机,那他怎么活下来呢,那个秦始皇会说,你在这搞毛线啊,对吧,然后那就,但是有一个超级金主,谷歌把它买下来,让它接着做它独立运营,对吧,让它接着做它后面的事情,而现在我觉得DeepMind 也成了谷歌最重要的一个部分 [00:31:25]

程曼祺:如果没有Hazabis 谷歌的AI 就被OpenAI这些,给快要团灭了,对,那你做破壳的长期目标是什么,你想让这个公司长期独立运营,然后你们最后是做出产品,进入很多家庭,还是说,比如说类似于像DeepMind 这种情况,它可能就是一个大公司,也是你可以接受的,其实还真不是,就刚刚聊的 [00:32:02]

许华哲:其实是科学家的创业,但其实我并不把自己,完全定位成一个科学家,我觉得因为大家对我的印象,更多的是科学家的这一面,但是我其实更希望

程曼祺:做出一个大品牌,有品牌效应的 2C的消费级的公司,你这次创业的时候,心中有想着,什么公司可以作为你的榜样吗,苹果,苹果

许华哲:OK 雄心壮志,我觉得首先小米也是一个,很值得借鉴的这个公司,我更把机器人看作一个,智能和消费硬件的结合,它不是不像大模型一样,是纯的AI 它也要跟产品品牌,供应链等等打交道,而苹果我觉得是定义了一个新品类,因为我觉得家庭机器人,或者是一个真正服务人类的机器人,其实在现在是没有被定义出来的东西,我也聊了很多人,每个人都可以说出来一大堆他的想法,但是没有一个收敛的说法,所以我觉得为什么我第一反应是苹果,因为iPhone其实 iPhone之后所有的手机都长得差不多,智能手机,所有的智能手机都长得差不多,就是一个黑块,然后一个大屏幕,几乎没有跳出这个框架的,所以那机器人应该是怎么样的,这个框架能不能从我们这发生,这是我当然是我希望的,第二就是为什么我说,小米也是我们很好的一个学习的榜样,因为我有读过小米的一些书,我觉得他有一本书叫做参与感,这本书,我看到了一些,我很理想的一个2C企业的画像,跟用户交朋友,早期的时候可能会,非常亲近这个用户,在乎每个用户,也在乎自己的员工,然后把这件事情,所有人是心在一起的,把这事做好,所以我觉得小米也是一个,我非常就是让大家,让所有人参与进来,这个产品的定义,我觉得不应该是一个,公司自己去定义的,因为毕竟这件事情实在太大了,它应该是我们取到,全世界人类的最大公约数,定义出来的一个东西,而我觉得某种意义上小米,我在读那本书的时候,小米我看到了,他在论坛上面,让论坛的水友们,来决定他很多的设计理念,设计的功能的走向,我觉得这件事情,本身是意义重大的,因为他其实某种意义上,在取这个最大公约数,但是他做的可能是手机,我们做的是机器人,对,乌乔布斯的一个理念 [00:34:39]

程曼祺:是应该背对你的用户去做设计,其实你不要去听别人在讲什么,他觉得用户调研没什么用,我最近也发现这个点,就是这个东西,你没有出来之前,你去跟人聊 [00:35:28]

许华哲:他会给你聊出一些,天马行空,没什么用的事,但你这个东西出来之后,你去让人用,他是能给出,非常非常好的答案的,对,这是为什么,我觉得,对,就是这两家公司,它本质上,是一体的两面,对吧,如果你的机器人,放在人家里面,每个人用着都不舒服,那你仍然坚持去按你的这个思路去来吗,我觉得那肯定不是啊,我们肯定是让所有人用着觉得好用,才是我们的目标,但是如果一开始每个人说,有的人说我要高的,有的人说我要矮的,有的人说他必须得这个,一个胳膊长一个胳膊短等等,那如果你去听太多这样的东西的话,那就没法做了,因为其实大家也不知道到底想要什么,所以我的想法是,我们会给大家一个框,然后在这个框里面,我们会让大家满意

程曼祺:你这次创业之前,除了在叉院工作过,然后在星海图,有两年多的创业经历,你没有在产业界工作过,你觉得这件事情,对你想做一个大的品牌,想去定义一个新的产品,它可能会带来一些什么问题,或者说它是一个问题吗,我觉得这个事,对就是没上过班,没上过班,没上过班这事呢,其实在叉院可以算是 [00:36:36]

许华哲:某种程度上班吧,对,但那个班呢,就是科研加上教书,它还不是那种, 它不是公司组织里的, 对,不是公司的班,没上过班这件事肯定有好有坏, 没上过班的一个很好的一个点,就是我其实非常的没有限定的去做很多事情, 比如说我在我的课上,就是之前可能两年前,大家还在说用AI去做作业,可能是一个不好的 Pleasureism 就是这个叫抄袭啊,剽窃啊这种,但是在今年我做了一个改革,就是说你的作业,如果没有手写一行代码,我可以给你适当降低,你的这个评分标准,就是说你做的到80分,我就给你100,因为我觉得就是,未来的工作方式已经变了,你不用再,你当然你要会,但是也许会的内容,已经发生变了,所以就可以很不受约束的,去想一些事,在公司里也一样,到底我们应该用,怎样的工作流去做这件事,到底我应该去,怎么样定义好这件事,到底我们这个公司的组织,是怎么样的形态,我觉得都可以创造性的去做,我们的未来,也许等我们有了新办公室,大家可以看到,我们办公室会像一个家一样,然后这个客厅,既可以用作平时开会,也是机器人在里面训练,然后也可以我在里面录播客,对,就是,我觉得很多东西,可以打破一些常规,这是很好的,我猜你们办公室,肯定得有个厨房,当然,我们会,就是,我们会希望那个办公室,整体是一个大家,然后大家就在这个家里面工作,然后这样子场景也解决了,然后大家工作起来也很乐呵,当然这个还要装修一阵子,对,但当然也有一些坏处,就是很多标准化的东西,不是很熟悉,但是这些东西,我觉得我们最近也招到一些人,学习了很多,有各种知名公司的小伙伴们加入,对,我觉得那些东西是可以学的,是可以吸收的,但是不受限制的去想事情,这件事很容易就回不来了,所以对我来说是利大于弊,你们现在团队是什么情况,可以简单讲一下吗,我们团队现在还很小,刚刚起步,有很多是,就有几个硬件的人,有几个软件的人,然后可能我以前lab的人,然后我的同学,我们经常说我们这也是一个机器人兴趣小组了,然后最近在造我们的第一款产品,我们会迅速的扩张 [00:39:45]

破壳的文化、生态和极致

许华哲:我们会迅速的扩张,但是可能会希望我们来的都是最好的人吧,就是在各个领域真正能够把事情做到极致的人,是我们想要的画像

程曼祺:你们现在这个团队就在现在基础上,你们有什么特别需要补充的人,我觉得正好因为新公司也可以广泛地讲一讲 [00:40:15]

许华哲:我们希望有过一些2C产品的硬件工程师,能加入到我们,我们是很认真的想把这台机器人送进家里面去,我们也希望有最上线的,最有才华的AI的研究者加入到我们里面去,因为我们希望从零到一的一些创新,在我们这发生,同时我们也希望,懂产品的大家,可以看看我们,因为,我认为产品是这里面,非常非常核心的一环,本质上是可以跟我们一起来定义,未来人类的生活方式,所以我觉得非常激动人心,可能大概是这些人吧,你可以讲一下就是你们在出发,这个时候你们的一些核心假设和判断是什么

程曼祺:我看上周在小红书上,你分享了一个帖子,就是你和Eric Zhang 你们面基了一下,他是1X之前的首席科学家,对,然后你之前是,星海图的首席科学家,他现在应该也,可能是在筹划自己的创业,对,然后你写了一些你们的共识,你可以就结合这个一起说一说吧,你们的一些核心假设和判断是什么,对,我觉得,第一个就是,我们都对机器人的发展,是非常乐观的 [00:41:16]

许华哲:就18个月这件事,我还挺惊讶,是他先抛出来的,因为我自己也是,也是这个判断,你说具身智能进家庭的时间是18个月,对18到24个月,然后所以我一直觉得,我可能是一个非常乐观的人,但没想到这个世界上乐观的人,不止我一个,对,然后第二个我觉得我很认同的,就是我们应该相信生态,相信生态,这件事是做机器人公司的,一个核心的假设,就是我们不会把所有的事情,都在我们这里in-house的,就是在我们这公司内部全都做了,比如说,我们真的需要自己去研究,一个,比如一个摄像头的帧率,可以再高一点吗,也许我们不应该去做这个事,我们真的需要,研究那个电机的线圈,该怎么缠吗,这个也未必,这个在之前居身这段公司里,很普遍吗,我觉得有相当多的,这个具身智能公司,会把大多数的,可以看到的事情,都放在里面去做吧,毕竟融到了很多钱,然后也很自然的去做,但是我总觉得聚焦和极致,是我们的想做的风格,就是在当我们新公司成立的时候,公司文化,我把极致放在了第一位,所以如果想要极致,你就不能是一个面面俱到的公司,因为大家都知道,现在这个注意力是有限的,人的注意力,一个组织的注意力是有限的,但你的注意力都放在A上面的时候,B一定是一个相对平庸的一点的东西,而你的注意力只能放在几个重要的事上,最终我们如果我们希望自己不平庸的话,那这个事情不能太多 [00:43:28]

程曼祺:而很显然我们想做,最重要的事情就是 AI和产品 AI和产品,就是智能的能力和,产品武力的能力,解释机器人的本体,或者说更全面来说是什么,产品我觉得更多的是,机器人本体配上AI以后,能不能服务好用户,能不能让每个人用起来,比较愿意去使用,你们当时还讨论一个点,是说去称需要AI Native 之前的路径依赖都是错的,对有很多人问什么是AI native 我觉得这个就像世界模型这词一样,就是定义太多了

许华哲:但是首先我觉得不是传统的机器人,我底下也给他回复了,就是不是传统的机器人学 Not robotics 对不是传统机器人学,就意味着你不要一个一个的 [00:44:22]

程曼祺:去解决一些很难的任务,这样走不通,因为任务无法穷举,那可以说传统机器学,是一个rule based的,不是rule based的

许华哲:它们也可以是deep learning的,只不过它是一个个小模型,针对一个单独的任务区区,对就是,我觉得这是一个大的,那个脑回路,一个思维,大的一个思维,就是说,传统机器人学喜欢做什么事呢,喜欢做超级酷,但是,但是就是只能解决,这一件超级酷的事,其实某种意义上,它的极致就是现在的那些翻跟头,武术跳舞,对它的极致就是,当然在早期,就是如果去往以前翻,你会发现,传统机器人学最开始就喜欢干这事,再往前还有更极致的

程曼祺:一个柜上面有个旋转的东西,在上面再挪一个旋转的东西,三个陀螺叠在一起,你怎么样动底下这个柜,让这个三个陀螺不会倒,我在工博会还看到过那种演示,就是有比如说三个机械臂,然后有一个拿着酒,有一个拿着红酒杯,然后动得非常快,它从那些缝里动来动去,对就是相互这个酒倒来倒去的,然后也没有洒出来,对,这个就是机器人学的典型,就是很帅,很炫,通过一些精妙的数学也好,一些很小的模型也好,能解决一个非常特定的事情,之前库卡还有一个广告片,是搞了好几个机械臂,组了一个乐队,就是有打架子鼓的,有弹贝斯的,它其实都是编程好的,但是很酷炫,但我觉得如果弹贝斯能编程好,还是挺厉害的,但它肯定不是通用的 physical 通用人工智能的那条路,它本来也是个广告,是的 [00:45:29]

许华哲:对,所以,我觉得不是机器人学,同时,也不是自动驾驶,为什么不是自动驾驶呢,我觉得自动驾驶是,大家很重视数据闭环,并且把一些路段,跑得足够好,比如说我,如果我在,比如学校附近清华附近,那也许我应该把五道口的所有路,都踩到足够多的数据,然后把五道口搞定,然后我再可能到中关村,然后再到海淀区,等等这样子去做,我觉得 [00:46:21]

程曼祺:它不是,一个通用的解决方案,用自动驾驶的,思维的路径依赖,来做巨仙智能的,具体表现是什么,因为这行业里,确实有很多之前,是做自动驾驶背景的创始人,对但这并不代表,他们会路径依赖,对吧,我只是觉得,比如说,我先解决一件小事,然后获得一些,这个小事的数据,然后我期待,我还有一个第二件事,我再用这个的数据,让它变得更好,我觉得这样子去做,可能是比较困难的,你就说在一个小的场景,或者环境或者事情上,去追求你刚刚说的数据闭环,然后做好,你觉得这是,我觉得是做不出来的,当然这是我个人的判断,就是大家别打我 [00:47:01]

许华哲:没事你可以放开了讲,对但是我觉得,其实还是大模型给到的启示,大模型就是把所有的数据放在一起,我可以讲一下,这里面的这个核心的点是什么,就是就AI本质上,本质是一个归纳器,他看到,比如他看到咱俩都有水杯,假设AI这辈子只看过这个,这个一个事情,他就会总结出,人都要用水杯,但是其实不一定啊,比如我的,比如我的那个宝宝,他就没有用水杯,因为他就一直喝奶嘛,所以他从来没有用过,这种带瓣的一个马克杯,所以当AI看到一个,比如婴儿从来没有用过的时候,它会得到一个结论,就是有的人会用水杯,有的人会不会用,所以它这个归纳器一定程度上,就是它看到的案例越多,它归纳的那个结论越好,所以多样性是很重要的,对,且这个东西是不能后来补上来的,就是说它已经得出了 [00:48:44]

程曼祺:人一定要用水杯这个结论以后,你再给它补新的数据,它是很难去改变,它之前归纳的这个结论的,你说不能后来补的意思,就是说这个,不能在预训练之后的流程和环节里再补,是这个意思对吧,对啊

许华哲:至少会,那可能会带来巨大的这个痛苦,你可能需要再把下一,就是那个婴儿的这个数据大量的提供,那其实本质上,那你最开始就应该把所有的数据放在一起,你还说了一个是 [00:49:08]

程曼祺:不是史前的深度学习不是史前的深度学习,对,这个是指什么,这个就是,我觉得就是还有很多人,就是对深度学习,就很喜欢搞深度学习小模型

许华哲:深度学习小模型,一定程度上也是端到端的,也是可以做很多很多的,很多很多的事情,其实它有点像Robotics 新时代的Robotics 我觉得它是结合前两个,对吧,就是你永远不要指望一个小模型,叠加一个小模型,叠加一个小模型,叠加100个以后,它等于一个大模型,我觉得不要去有这样的期待,那它是小模型

AI Native 机器人不能只靠小模型

许华哲:那它是小模型,那OK如果你只是每天搬一块砖,然后让它从早到晚搬,做一件事,我觉得可以用小模型,但如果你想要通用的智能,我觉得小模型开始就走错了

程曼祺:你觉得你的这种,去深智能需要AI Native的想法,它现在在行业里,是一个多大程度的共识,因为从大语言模型的思维,来想这件事情,好像觉得我在预训练的阶段,需要海量的多样性的数据,是一个比较自然而然的思路,但是可能之前几年行业里,确实也有很多,就你说的另一种事件,就是我可能先在一个小的任务上,我去追求数据并换,就它为什么之前会有这种区别,是因为一些客观引导之吗,比如数据很难获取,还是因为什么呢,对我觉得就是 [00:50:13]

许华哲:大家还是没有完全相信 AI的产生我觉得,没有完全相信,没有完全相信 AI可以产生通用的AI 就很多人做具身智能,但我觉得相当一部分人,还是觉得他是一个机器人,然后他就跟工厂里的机械臂一样,只不过他是人的样子,他不相信那个physical 通用人工智能会诞生,我觉得这个是一个很重要的点,另一个就是,因为scaling law 几乎每个人都要讲,没有人会说我不信scaling law 在今天这个时代,他如果说不信scaling law 那他也讲不出更好的故事了,但是他可能觉得 OK scaling law就等于,我有很多很多的数据,我觉得这个其实不是的,你在一个固定的封闭的环境里面,采再多数据也没有任何用处,因为本质上是我前面说的,归纳的事,你看的案例的类型不够多,你是归纳不出来正确的结论,所以我觉得有很多的,有的人不信Physical 通用人工智能 有的人通过做之前的事情成功过,所以他觉得这次也可以这样子成功,还有一些人可能,就是不喜欢不可解释的东西,我最近看到一个朋友,在用了OpenAI之后,开始动摇他原来的,对可解释性的追求了,就他以前一直觉得 [00:51:45]

程曼祺:他甚至都不用大模型,他觉得搞Deep Learning的人都是在,怎么说呢,炼丹师嘛,你这个朋友是做什么的,就做机器人的 OK 做机器人的人不用大模型,对,他是做传统机器人,优化的 [00:52:20]

许华哲:做优化的,然后他就觉得,做deep learning都是炼丹师,那些不可解释的东西,用数据怼一怼,然后又出来一个东西,何必呢,就是他说最后一定是死胡同,直到他用了这个OpenAI 然后或者是用了Claude Code 对吧,然后他会说 OK即使是炼丹师,能做到这个程度,我已经认了,它太强大了,对,你觉得就是

程曼祺:大模型的这个思路,就是它用在巨声领域,因为机械人,最后如果真要用起来,是很追求可控和安全的,大模型其实现在,大家也会讨论说,它是一个锯齿型的智能,它在有些很难的任务上,它也表现得很好,但在一些很简单的任务上,它也会掉链子,这会是个问题吗,我觉得会是一个问题,但是 [00:53:00]

许华哲:就让经验来说话吧,让经验来说话吧,就像之前我记得,是不是凯明在参加一个活动的时候,别人也问了,说你觉得自动驾驶,让一个深度学习的模型来开车,那有多危险啊,对吧,那万一他掉链子怎么办,我觉得凯明那个回答很好,他说,那你坐一个老司机的车的时候,他也没有给你保证说他一定不会撞车,但是你还是相信他,因为他可能之前开了那么久的车,也都没有撞过,所以对大模型来说也一样,对巨星智能来说也一样,只要他在足够长的时间里面,都没有犯过重大的错误,我觉得我就可以相信他,虽然他没有保证,但是从经验上来讲他不会,对,另一个我觉得就是在产品设计上面,要,就从AI的角度,我觉得只能这样,因为大模型这条路,就是数据驱动的,它就是会有一些窟窿,然后这些窟窿,只能在跑的过程中,把它补上,但从产品设计上,你是可以,不去把这个产品搞得,太激进,或者是有明确的,我不做什么,有明确的我不做什么,你只要有明确的不做什么,那你就酿不成大祸,对吧,就是,比如说我们想做的这个产品,我们第一天就说,我们不做直接跟人体接触的任何服务,比如说,比如说,你可以定义一下这个,对老年人的身体擦拭啊,然后给他翻身啊,把他抱起来啊,小宝宝的这种抱他呀,然后这个捏他呀,碰他呀,然后包括按摩呀,等等,所有的跟人体直接接触的,这些事情我们都不去做,因为这些事情,一旦你出了问题,虽然我觉得算法上是可以,尽量不出问题的,但一旦出了问题,是巨大的风险,而且也,对 [00:55:09]

程曼祺:就就这个会很很慢很慢,因为,政策上面也会有很大很多挑战,而且用户心理上有挑战,就我是个用户的话,我也不想和机器人接触,其实还真

许华哲:完全是很多用户特别想,就是我也有朋友就说,我父母那个年纪大了,然后就是如果能有一个这样机器人,能平时给他们喂一下饭,我都会感觉很有用

程曼祺:对那我说这个就那个,我们可能最晚才会做,就是不会是我们最开始就可以做,如果要选的话,我会把这个放在最后,我们以前讨论过这个问题,去年的时候,因为其实喂饭这个是很难的,因为它涉及到你的准确性

许华哲:利控各个方面,所以我觉得,就刚刚提到就是说 AI总会有一些窟窿对吧,就是这锯齿状的,有一些很低级的错误,那我们就可以在产品上面,让即使发生低级错误,也不会带来巨大的问题,就像小朋友一样,他也会犯很多低级错误,但你只要告诉他别玩火柴,对吧,别玩煤气罐,别玩尖锐的东西,你只要把这些东西规定好了,他大不了就是,把你家遥控器给摔了,也问题不大,就是在基于你们的,这些核心假设和判断 [00:56:10]

程曼祺:你们公司第一阶段会重点做什么,你也可以讲已经做了什么,因为其实筹备期也做了一些事情了,我们第一阶段就是,会造我们自己的硬件本体

许华哲:然后会训我们的这个AI模型,比较粗糙的就是这两件事,然后第三个我觉得就是定义我们的产品,我觉得三件大事吧,三件大事 [00:57:01]

程曼祺:这三件事有相对具体的可以透露吗,比如说你们的产品形态,你现在是怎么设想的,你当时不是有考虑过,比如说专门备菜,或者做什么,你现在怎么想这个事,对,就是那些不是也都给了一些

许华哲:负面的反馈吗,所以我们还是想,做通用的嘛,还是通用的一个人性的一个状态,但可能我们轮式和组式都会做

程曼祺:但是可能会以轮式作为,这个先切入点,去做轮式的双臂这样子,轮式双臂,对,这是你们第一款的一个形态,对,然后足势我们可能会同期开展,同期开展,我不知道现在,深入到一些细节没有,就比如说,它的续航,比如说大小,你觉得在家庭这个场景,它怎样是合适的,包括你们最开始的目标市场,它是偏,比如中国的家庭,还是欧美的家庭

许华哲:还是什么地区的家庭,因为每个地方,可能也差别比较多,对,我觉得像续航这些,可能还有待讨论,因为很多时候要看,很多时候要看它的,这个使用的方式,跟产品定义高度相关,但我想象的,至少是一个,比如说两小时左右的续航,因为它可以回充嘛,因为你一般也不会需要,机器人在家里面,连续干两小时以上的活,那活也太多了,然后回去充一会儿,然后可以接着干,对,然后在这个,家庭的选择上面,其实我们是想做全球的,就是每一个家庭,我会有一个想法,是当它真正足够通用的时候,很有可能,它不太受到具体这个家庭在哪的限制,就像 AI的模型,他用比如说英语训了99% 这时候你往里面插入一些别的语言,他可能不需要等量的,比较少的,他就可以在那个语言上也学得不错,所以我会期待 [00:58:58]

程曼祺:我们的这个家庭的这个模型,可以在各种各样的家里面,都有很好的效果,因为他这里面设立到一些,特别具体的问题,比如说欧美的家庭,如果是独栋的话,包括日本,他可能就有楼梯,中国的很多家庭是平层,是一个公寓楼,对,包括那个就是机械人的电池,比如上次我和千寻的韩风涛聊,他就说现在机械人所需要的,这个锂电池的大小,它能不能进家也是个问题,因为比如像电瓶车 [00:59:26]

轮式局限与家庭场景约束

程曼祺:因为比如像电瓶车,其实那个电池,你就是不能拎到楼上的,是的

许华哲:我觉得具体到那个场景里面,就轮式的肯定有它自己的这个局限性嘛,就如果它是一个带楼梯的,那恐怕只能一层有一个了对吧,我觉得轮式的是没有办法真正,对它可以做电梯啊,但轮式是没有办法真正意义上这个爬楼梯的嘛,对,但我们可以尽可能的让它轻一些,所以可以便于搬运,然后比如说像电池大小这些,我觉得其实对除了它要,这个能不能进到家里面,其实还有很多很多的这个限制,比如说你出海的时候,大电池其实是会有很多挑战的,对,我觉得这些事情会有,就不光是电池会有很多,包括它的重量,对,如果它挂掉了,对吧,它在那突然当机了,别人能不能把它送回,它的那个基站去,接着去充电等等,我觉得这里面会有非常多的,细节的问题,对,但我们想的是,想要解决这些产品的问题,需要深入到场景里面去看,才可以,但是那个AI的模型 [01:00:57]

程曼祺:它是通用的,模型这方面,你们现在具体计划怎么做,可以讲一下大家的思路,对,模型我们想做强化学习,基于强化学习去做很多事情,就是 [01:01:20]

许华哲:我一直觉得,还是从AI宏观的角度去想 AI可能需要,获得探索的能力,就是跟世界交互产生数据,对吧,第二就是对数据有自己的评估,然后第三个就是,怎么样使用好这些数据,其实就这三块,现有的很多地方,可能低估了强化学习,或者说低估了,刚才我说的评估的这一步,就是其实我们的数据是质量是良有不齐的,有好的有坏的,我们把它一就是全都怼进去去训,一定程度上会带来一些问题,就是说那些坏的数据会使你的策略劣化,除非坏的比例特别小,它可能会被平均掉,如果坏的比例不那么小,但这个坏也不是说完全就不行的数据,而是自由的数据,那这个时候我们是不是应该给它一些评分,给它一些评级,以及还有一些失败的数据,我们是不是要把它用起来,我觉得这些是强化学习能够覆盖的范围,那这些事情,我认为是我们跟大家的模型上面会有比较多的不同,所以强化学习,我们会希望这个机器人也自己去跟这个世界交互,然后学习到更多的东西,然后并且对数据进行自己的判断,对,你们的整个就是软件这块的系统 [01:02:28]

程曼祺:它会是一个统一的模型,还是它是会分层,然后有很多不同的模块来组成的,会是一个统一的模型,会是一个统一的模型,也许那个顶层的VRM是一个,就是分层的,对,但是这个干活的这个,肯定是一个统一的模型,就它整个跟动作跟行为相关的,是一个统一的模型,对这个就回到,我们那个归纳法 [01:03:08]

许华哲:这件事嘛,它必须得是统一的模型,因为你是放在一起去,你中不同的数据,对因为它一个一个,任务解决,它解决不完,而且它没有办法,通过做一百件事,然后领悟到一千件事,这个事情永远都不会发生

程曼祺:所以必须是一个模型,至于所知这种一个模型,在现在的业界普遍吗,因为大家经常会讲,断到断,会讲一个统一的模型,但实际上,比如说目前我们能看到的,已经在用起来,或者说有些demo的这些机器人,它实际上是有什么样的模型结构,我觉得预训练,大家都还是一个,一个端到端大模型,但我觉得在后训练,其实大家

许华哲:我不知道大家是怎么样的,但是我的观察是,大家就是在自己的一个任务上面,后训练一下,然后就没了,其实最终你是把,你预训练的一个很大的东西,在后训练上面,给它收缩到一个具体任务上,我们其实是想做规模化的后训练,就是让这个模型在后训练之后,仍然保持着它的繁华性,且这个模型能做很多很多种任务,这个是目前做强化学习后训练,大家可能做的比较少的东西,所以跟之前的思路的不同 [01:04:13]

程曼祺:就是除了预训练这个环节,它是一个统一的模型,是追求通用和繁华,在后训练你们也追求这个,是的,同用泛化,但是后续量会多,这个高效和成功,高效和成功率,你怎么看就是这种方式,它有可能在最初期的时候,它每个任务上,可能表现都比较差,对有可能,因为它毕竟是,若干个这个机器人,同时在学嘛

许华哲:对但是这没关系啊,本来这就是训模型的,循序渐进的过程,就是它就应该,每个任务都比较差,然后在今天的大家都变好,然后突然所有的任务都变得比较好,而不应该是我在一个任务上特别好,在别的地方都不行,这其实就跟我前面说的 AI native是一致的 [01:05:16]

程曼祺:不要担心它所有的上面都比较平庸,因为它会再过一年,它会变得在所有上面都很完美,从它在所有上面都变得很平庸,到它在所有上面都表现出一个比较好的能力,这个确切的时间,你刚说是过一年,我不知道你这是指确切的,这不是确切的,这是我随便说的,那确切可能是多久了,这好预测吗,不好预测,不好预测,因为我觉得,有的时候为什么大家,可能会追求在一个任务上,他先去后续内,让他表现的好一些,因为公司一旦运营起来之后,其实你是有各方面,在看着你的,包括团队内部,包括投资人,包括市场,对吧,大家是希望能看到,好像一步一个脚印,它这个反馈在不停的出现,我觉得你说的那个方式,它在技术上是有它的合理性的,但是它在就是,你怎么去组织一堆人,包括你的外部的资源方,大家相信你们一直在进展上,我觉得还是有更多需要解释的地方,首先这是一个双向衰选,就是 [01:06:35]

许华哲:我还是很喜欢OpenAI早期,那个尴尬的状态,作为一个情况,就是,我想那个时候,他们一定非常艰难,因为,他说我要scaling 我要堆一大堆数据,我就能做出一个,超级的智能体,那,那不相信的人,是大多数吧,所以我说是双向筛选嘛,但也有人相信,也有人相信,所以就

程曼祺:去,找相信的人,一起同行就好了 OpenAI在美国,它其实是一种,蓝血创业嘛,就是有像,马斯克有霍夫曼这种,他们之前赢赚了很多钱的富豪,他来支持这个事情,包括萨姆奥特曼等等,你觉得在中国这个环境之下,给你的这个空间有多大,你双向筛选之后,万一很少有人站在你这一边 [01:07:12]

许华哲:肯定也会有这样的风险,所以我们也不会说是,完全不展示进展的,这样子去做这件事,对吧,我们也会有很多的进展拿出来,我们也规划了很多,中间的进展会给大家看,只不过,我倒是其实还挺惊讶的,就是,最近在跟很多投资人朋友聊的时候,我会想着 OK他,可能会想听一听,那个milestone是什么样,他会想听一听,我能掏出在短期内掏出一点,三个月能不能掏出点东西,六个月掏出点东西,然后,确实还是有一波投资人,跟我说,华哲其实我不在乎这个事,就我在乎的是,你最后做的这个东西,是不是最大的那个东西,我其实,他说现在投资的心态,也不一样了,你不要把我,也不要,怎么说呢,也不要小瞧投资人的,对未来的梦想,这句话很好,不要小瞧投资人,对未来的梦想,对啊,就是他们也是想要追求那件事的,只不过他可能是以投资的形态,就他并不是说,最终当然大家都希望赚到钱,但是并不是说,想象的那种,极致的给你压力,或者极致的,一定要短期内看到是怎么样怎么样,对 [01:08:32]

程曼祺:我觉得大家的,大家也在改变,对,我觉得现在巨星智能,在一个投资的狂热期,和上升期,对 [01:09:06]

许华哲:但是你可以预见这件事,肯定之后会有波动,对,当然现在还是大家充满热情,因为,这件事,太大了,如果你一定要选一个,足够改变人类社会的事情,那也就剩下,什么去太空,然后量子,然后最神智能,对吧,何空何去变,何空何去变,对,但是这四件事里面,那个确定性最高的,其实就是具身智能,虽然它也很远,但是它几乎是确定的会到来的,其他三个,我觉得我不太懂,但是我觉得比我们这个远点

创业时点、资本热度和最大的西瓜

许华哲:但是我觉得比我们这个远点,更远点,所以我觉得很正常,一个虽然很远,但确定性不是那么低的,这样的一个事情,成为一个热门的标的

程曼祺:我觉得是理所应当的,那实际上你们规划的一些miles down是什么,比如说你前面说到进家庭式,你觉得最快18个月吗 18月之后会发生什么,我们希望对,就是比如两年的时候,已经有人在用的这个机器人,在家里做一些事情 28年,对28年初 28年初,到时候我们可以再做一次播客,可以啊,然后你可以说,你怎么没做到,对吧 [01:10:12]

许华哲:那我还是希望做到,对,我觉得就是至少我们,我们的办公室会做成一个家的样子,至少我觉得,应该它在那个办公室里,是可以玩起来的,就是在一年左右的时间吧,就是我在这跟这个机器人说,你在这个家里,起码得能做到一些能力了,到通用的家

程曼祺:我觉得那确实可能要两年,对这样子,在你设想了这个两年,达到那个状态的中间,你觉得有哪些事,是比较难的,或者说还有些寻而未决,你不完全确定能否解决,包括确定的部分你也可以讲讲,对我觉得就是数据上的使用,肯定还是比较,比较确定性的会往视频这一侧走,所以呢数据量也会比较,确定性的 [01:11:03]

许华哲:变得平权,嗯这是一个,对,然后在模型测,随着数据变大,模型测也一定会变大,能力也会越来越好,对,第三个就是大家越来越接受,这样的一个机器人,可能会成为我未来的生活方式的一种,终端,就像现在每个人都用手机,都用智能手机一样,大家接受度也会变得更好,所以我觉得这些都是相对比较确定性,不确定性的其实就是路径,就是我究竟该用一个,怎样的模型,把这些数据都吃进去,我应该用一个怎样的本体

程曼祺:是大家最能接受的,这个里面有什么科学性的难点吗,你觉得硬件不是个卡点,材料能源之类的,我觉得硬件也是一个卡点,但是它是那种可以攻克的卡点 [01:12:19]

许华哲:就是不是那种,就是不确定的卡点,就比如说我,我缺一个电机,其实某种意义上,我大概率都能造出来,或者我都能找得到,只不过可能要花一些时间

程曼祺:对花一些力气,花一些思考,但基本上是比较确定性的,关于就是你刚刚说的,第一个不确定的部分,就是一个什么样的模型,可以把这些数据吃下来,你之前其实大概分享了一个思路,你说是预训练配合先验学习,就是获取这个先验很重要,这个先验就是我们总结的世界的规律

许华哲:那机器人需要什么呢,是需要这个世界的物理鲜艳,对吧,它需要的其实不是语义鲜艳,语义鲜艳,某种意义上靠VRM单独就可以提供了,对那物理鲜艳其实更多的是,我知道一个物体掉落以后,它会弹起来还是会就落在地上,等等这样的事情,所以我觉得这个事情会蛮重要,有了这样的鲜艳,你的机器人才有可能,更快地适应到新的环境里,然后配合上预训练,就是在机器人上面再做预训练,可能带着这些鲜艳,他可以学到很多,具体动作上面的鲜艳,这也是一种鲜艳,从物理到动作,或者叫从物理到交互,我觉得他可以学到,我该怎么样跟这个世界大致,怎么打交道,然后再到后训练可能是,学到更多的具体,怎么样把事情做好,物理鲜艳怎么赋予机器人,或者说怎么,这有很多啊,这我觉得最近,最近就世界模型,也是一个很好的,这个物理鲜艳对吧,然后你可以用它,当做你的模型的,这个骨架网络对吧,然后你也可以,把它当成一个,生成器,数据生成器,你也可以就是直接用它,这个的下一帧,然后再求一个逆解,把中间的动作求出来,我觉得这块还是一个 [01:14:00]

程曼祺:待探索的状态,那你可以讲你现在的倾向吗,对我觉得我们目前还是倾向于,把它当做它的骨干网络,像这一部分,是不是也是可以留给生态的呀,也可以什么,留给生态,就是比如说世界模型,可能你们不需要从头做,对吧,包括VLM 肯定你们也不需要从头做,对是的是的是,这个我们也觉得,对吧也有专门做这个的团队嘛,我们也没必要去从头做,对,所以你预计就是,按照你现在这个思路来做,一个巨声模型,你觉得它大概需要的资源是怎样,就是你们在巨声本身的预训链,和后训链上去投入,到有第一个版本,你觉得大概是需要投入多少

许华哲:这个其实取决于数据量,就在现有的数据量下,可能就是一年一到两亿的投入,可能就是一个比较合理的 [01:15:15]

程曼祺:因为现在数据量很小,你说人民币一到两亿,我觉得到数据量起来的以后,我觉得就会跟大模型的投入量差不多,那也会是一个很重资源的竞争,对我觉得后续当路变得收敛的时候,可能资源量会变得比较重要,如果18到24个月之后,像你所设想的智能机器人,就已经开始进家庭了,你觉得更大的公司会怎么反应,会在什么时候跳进来,因为家庭是大家认为很终极,很大的一个场景,会在那个时候跳进来,会在那个时候,就是18到24个月之后,我觉得是的,因为更大的公司 [01:16:01]

许华哲:它本质上没有办法,离开它的主营业务,去做新的事情,它只能在这个地方,驻扎一个小的哨兵,然后可能一个小的lab

程曼祺:在这儿去做很多事情,但是当它发现这个事情,可以变成主营业务的时候,我觉得他们也会来的,在你现在这个阶段,你最关注全球的什么同行呀,你之前自己在支付上写过,你说generalist 还有派的一些进展,是会让你焦虑的,对派generalist Sunday 还有Figure吧 Figure我很关注,它到底是不是真的

许华哲:对因为Figure 它处处透露着一种,好像又很厉害,又有点营销的这种气质,对就主要是它,昨天前天又发了一个新的视频,就是整理厨房的那个,整理客厅的那个,太丝滑了,然后也太厉害了,然后以至于,我很想,现场看一看,我很想自己去那个场景里面,挪一挪那些东西,看看到底,会不会像特斯拉,突然那个机器人自己开始摘眼镜了,对那是一个人在摇操,摇操的人把头衔摘掉了,对啊,所以我就是想知道,对,然后另外三家,我觉得某种意义上,他们的基因决定了,他们做的东西一定是真的,就是做的都很好,在智能上,所以你主要是关注他们,智能能力上的一些进展,你觉得这是全球最领先的,我觉得智能能力上的,对,然后产品设计上的,我也很喜欢三队的,然后国内有一家公司叫福利业,我很喜欢他们的GR3的 [01:17:44]

程曼祺:白白的机器人的样子,就是它是和家庭这个场景是,对,比较契合的对吧,还有一个机器人公司叫Fauna Fauna

许华哲:然后它那个是一个扁扁,很扁的头的一个机器人,我也觉得蛮好玩的,这是产品设计上面,我觉得是我比较喜欢的几个,还有小鹏 [01:18:07]

程曼祺:小鹏那个也很酷,就你提的几个智能上,你最关注的公司 Sandy, Generalist, Pi 都不是中国公司,这个说明什么样,其实我们第一次对话的时候,你记得在东升大厦,你说你回国的原因,就是你相信东升新路,对,我觉得最好的东西,最终会在中国出现,对那现在好像不是,这个反应什么

许华哲:对就是,我觉得一定程度上是,大家的一个,可能在美国,大家创业的这种,战略定力好一点,就是他们第一天说,我要做这件事,然后他们就一直在做这件事,比如派,你看他从第一天,就是说我要做一个智能的 Physical Intelligence 名字就是他要做的事,然后他反正就坐着坐着坐着坐着,每隔三月发个东西,每隔三月发个东西,现在仍然保持在第一梯队,或者叫DDR的这个样子,中间好像没有发生什么变化,他也没有明确的商业化的预期,有一些商业化的尝试,但是没有,没有就说我一定要的商业化会怎么样,对,所以,我觉得他们可能更,就是就刚我用的战略定力

程曼祺:或者叫做他沿着自己的那个vision去做,这是,就像当年的OpenAI一样,你觉得更有权是个本质的差别吗,就融了更多钱,但是它那边人力成本 [01:19:46]

许华哲:各方面成本也高

东北人和机器人的气质

许华哲:各方面成本也高,我觉得是,我觉得这也一定是一个原因吧,就是它更有钱,所以对它来说,容错空间可能更大,另一个是啥呢,另一个是氛围吧,就像小时候我们上课一样,对吧,如果老师说,那个我就看看今天谁做的正,那大家都会做的很正,然后就大家会觉得,谁做的腰杆挺的越直,谁就越好,对,那班里都是这个氛围,大家就都干这个事了,那另一个班可能老师说,我就看看今天谁这个,上课发表的观点最多,那大家都会齐嘴巴上去说嘛,大家其实有的时候,那就是看看,这个身边的人,他都在说话,那我也去说话了,就公司之间,也会有同辈压力的,对啊,对啊,所以我觉得,一定程度上,对,为什么我,我今天咱们在这聊,为什么我很愿意,在网上分享一些,我的想法,就是希望让这个氛围,去往 [01:20:53]

程曼祺:我认为更本质的,那个方向去靠一靠,就是去传播,你相信的东西,你有一个形容挺好的,就是你害怕,你害怕我们,你是指中国的,居身智能从业者,错过了最大的西瓜,对 [01:21:06]

许华哲:就是智能是最后的决胜点,如果不去做一个,很好的通用的智能,那你的那些铁架子里面,最后装的大脑,就不是,不是不由你来控制,那么,我认为,这就错过了,定义未来的权利,目前我们肯定是没有完全错过的,对吧

程曼祺:肯定没有错过这个窗口,那你觉得,再发生什么,可能会导致这个差距来越大了,又或者说我们应该做什么,让这个差距来越小,智能方面

许华哲:我觉得是,就是这个可能有点科幻了,就是那个singularity 对吧,起点,当那个singularity到来的时候,会发生一些很吓人的事情,大模型自己写大模型,来改进大模型,机器人自己拧机器人,来造机器人,当他的智能达到那个点的时候,游戏就结束了,所以要趁着那个点没到来之前,我们去竞争一直都会存在,留给大家的时间还有多久,你觉得,我没有一个,特别,就是那种

程曼祺:真的human level的通用,我认为可能五年左右,就是完全的human level的通用,你觉得这个行业,你现在有一些什么,就是你觉得可能不利于,去往智能这个方向,努力和投入的一些现象 OK 我觉得,第一件事就是卖数据,卖数据,卖数据,现在有非常多的行业里的公司 [01:22:45]

许华哲:在采集数据以后,把它们贩卖出去,因为达谷格,他们自己都是没有能力采数据的,因为他们那人很贵,然后他从谁买呢,很显然是从一些,有一些大量人力运营能力的公司去买,那他去买这些数据,其实我们知道这是弹药,但是我们仍然把弹药卖出去,因为这样可以赚到钱,但是这个就像是我给我的竞争对手卖最宝贵的东西,然后为了有点那种今日割三成明日割五成,就是为了让自己可能融到资,或者是在这个账面上看的好看一点,我觉得是我认为是比较危险的一件事,对,就也许你在国内,自己在这倒腾倒腾,卖一卖赚赚钱我就可以,你往美国卖,我觉得是一件,对我们可能不会干这事,至少,第二个事情就是,无脑量产,就是,根本没有那么多的需求,到底那些量产卖给谁了,我觉得一个很好的数字,我想看到的叫,机器人活跃率,日活,我想看到它的日活,卖出去的5000台机器人,到底日活是10还是100 还是1000还是5000 这个提发挺好,是的,对但是很难看到,就是它是一个硬件,它是一个固定,就是类似于固定资产的东西,所以你看不到,这个也没有人会拿出来给你看,因为那样太难看了,我估计会,它不像软件,软件很好,软件你掏出来用户数据,你要给我假的,你就在造假,对吧,所以你大概率给的是真的,那机器人他说我也拿不到,我都卖出去了,我也不知道,然后都是各种客户,对,但其实这个是一个非常关键的数字,对吧,还有就是跳舞,我觉得跳舞其实是特别好的一件事,对,我觉得它算是一种实际的用途,它是一种实际的,它是有实际需求的,对,是有实际需求的,但我觉得,就是,这事已经差不多了,就是到现在,我觉得是一个很好的点,就他其实已经很成熟了,你觉得他作为一种表演的,对啊,当然你可以像体操运动员一样,你今天能翻什么1080 明天或者滑雪运动员,明天你能搞什么,再往上叠加180度,那你去卷这个,让机器人卷这个事情,我觉得就失去意义了,因为你明知道,机器人很容易卷这个事,它不像人,人为什么要卷这个事呢,因为人多那180度,真的是要花出,什么两年功夫苦练的,追求的是一种,人类的生理的极限,但机器人,它没有生理的极限,你只要多花点钱,你把这个电机性能,它可以再给你加三圈,它也有点物理的极限 [01:25:54]

程曼祺:也有吧,物理的极限还是有的,物理的极限,对但这个确实跟智能关系不大,跟智能的关系不大,而且物理的极限特别特别高啊,对吧,我觉得那你把腿部的这种 [01:26:22]

许华哲:某种电机做到极致,然后它可以跳得特别高,这件事我觉得,对还是还是得看应用吧,我觉得就是纯表演的话,我觉得就没有必要了,就是就追求说,我今天跳两米,明天跳三米,对,但如果有一些具体的应用,比如我要翻山越岭的,我要去一些极端场景,那我觉得围绕这些场景去展开,我觉得我还是很认同的,你刚才总结那个无脑量产挺有意思的,我觉得是一语双关

程曼祺:为什么没有智能是吧,一方面就是他没有考虑,这个用在哪的一种量产对吧,另一方面就是他产出去的东西,他有一个躯壳,但是他可能里面没有,所谓的机器人大脑的部分 [01:27:03]

许华哲:或者那不是重点,所以我其实也不知道,真实的情况是怎么样的,因为确实你卖给这个客户点,卖给那个客户点,到底有多少在备用,确实也不知道,但是如果我未来自己做这个公司,我会想把这个数据收集上来,作为我们公司的真实反馈,就你卖出去1000台,然后如果只有20%的机器,在被真实的用户使用

程曼祺:而这里面又只有20%的机器,在被日常使用,我觉得这个其实相对来说,有一点遗憾,对其实去深圳的这个行业,现在观察起来是会有一些难度,就是它很多事实不好掌握,我们之前其实想过,做一个选题,就是去了解一下,各个公司,比如在25年,实际上卖了多少机器人,这些机器人,都卖到了一些什么地方,因为有一些,可能是蔬菜工厂,有一些可能是,比如给租赁公司,有一些像中移动,他自己订了很大的订单,当然有的不一定,全部交付了,开始有一个思路,就是我想去问一些投资人,因为他们不是应该,要做禁钓什么的吗,我觉得可能大家,是不是掌握一些,或者供应链里的一些人,其实好像没有人知道,就没有人能掌握,很全的这个情况,对啊,因为这很难收集啊,对啊,因为你就像卖一个物理的实体,就是就是很难收集,因为你卖了以后,就到别的公司里面去了

许华哲:或者你到别的实验室,别的个人手里,然后你又不能,对吧,在里面装一个什么东西,给你反馈,所以那你就就不知道了,他可能只是,你的亲朋好友支持你一下,也有可能是买来,在家里摆着觉得挺酷,也有可能是,就是各种各样的原因,我反正就是得买点,等等,我觉得消费级的产品,陆续出来以后,可能会有一些 [01:28:34]

程曼祺:更好直观看到的数据吧,比如像维他动力,那个VBOT发布了,然后宇树,它机构也是,新一代也发布了,以及你们18个月后,到24个月后,我们可以看一下,就是你们的,这个机器人进家庭之后,是什么情况,期待可以,那我们接下来,可以回到更早之前,聊些你自己的成长经历,我觉得这对你,现在就是要做什么,你的一些技术,和商业上的判断,也都是相关的,首先我可以给你分享一个,我发现了一个,没有什么逻辑的观察,我发现具身智能,好像有很多东北人,你是东北人,然后高洋也是,就是千寻的联创,高洋也是东北人,还有足迹动力的创始人,张威也是东北人,东北人和机器人,是有什么亲和性的,首先你这个观察,我觉得未必准确,因为那么多具身智能公司,如果你真的去做统计的话,东北人可能第一不是,未必是比例最高的,因为我感觉东北创业的人就 [01:29:55]

从高中到博士:创业的起点

程曼祺:因为我感觉东北创业的人就,但是可能这是一种以前的偏见,就感觉东北人创业的人就没那么多

许华哲:对我觉得第二个就是,东北它很大,因为一般你说江苏人的时候,你会说江苏人,甚至你划分的会更细,但你说东北人的时候,你包含了三个省,所以对也是一个点,第三个我觉得是,东北人比较physical 就是大家都很享受,这个物理的生活,无论是,这个,以前有一些那种段子啊,说这东北人,什么愁我咋地,对吧,然后就动起手来了,当然这个这是假的,然后那个,包括什么搓澡啊,然后包括这个,过年的那个年味啊,大家就是,就是那种互相的,就是,大扫除,然后出去放冰泡什么等等这些,我觉得就东北人比较physical 就是就很喜欢物理世界的事情,很喜欢生活在真实中,对就是,比如说就是经商这件事,是不是相对来说,就没有那么physical 所以你说那个 [01:30:59]

程曼祺:观察到东北人可能创业相对少,但具身智能很physical 所以可能就中和了一下,这我瞎想的,对对对,本来我也是那个,觉得这只是一个,没什么逻辑的观察,但挺有趣的,你自己是什么时候开始,觉得机器人,是你想长期做的方向,博士期间吧,博士期间,我觉得我对这个AI 产生一些思考,是在高中的时候,高中,你是东北师范附中的,东北师范大学附属中学,这个是你们那儿,很强的一个学校对吧,算是,算是一个很好的学校,高中时候想了什么,就是那个时候,也学了一点计算机竞赛 [01:31:12]

许华哲:然后也有几个,两个小伙伴,一起当时就在看,一点神经网络的事情,然后会有一些想法,就是说神经网络未来,可能会是

程曼祺:做出一些AI的东西,那个时候你上高中,应该是09年到12年,对,你们就在看神经网络,对,但那时候就是几个 [01:32:04]

许华哲:你知道就是,我当时我最后搞的物理竞赛了,但是就是跟几个,计算机竞赛的人,在那个机房里面,就没什么事儿感,除了写那个题以外,就是就很喜欢空想,然后就想这个计算机,到底到最后极致情况,是怎么样的,所以那个时候就会,有说有这个神经网络,这样的一个东西存在

程曼祺:你上高中那会儿,确实是这一轮身体学习热潮,开始复苏复兴的时候,因为12年算是一个标志性的时间点,我觉得对 1213年那个算是标志时间点,对,我记得我大一的时候

许华哲:那个清华电子系,有那么一个比赛,就是写一个小游戏,是学长学姐们写好的,然后说你可以给他写一个AI 然后我还尝试用神经网络,给他写点东西,但是反正失败了,完全不好使,后面还是改成了传统算法,那种搜索,然后A星算法,就拿了一个什么,也不是很好的名次,反正对,但是就是那是我第一次尝试写神经网络,然后反正没写出来任何东西,对,但那个时候我就就是,因为我本身也是一个很喜欢打游戏的人,所以我就很想给游戏写点,写点那个AI的东西,因为我一直很喜欢星际争霸,我在博士期间花了,可能六到九个月的时间,全职去写一个星际争霸的AI 对,所以那个时候我就觉得,我一定要做一个,能自己决策的AI系统

程曼祺:那时候可能没有明确到,没有明确到机器人这件事上,你说那个时候只是上大学本科的时候,本科的时候,后来逐渐明确到,机器人是一个什么过程,机器人我觉得是,到了博士期间 [01:33:50]

许华哲:我去某种意义上,接触到真正的AI 前沿的AI是什么样了,当然是从视觉的角度切入的,就是看到了神经网络是怎么样的,看到了这个,计算机视觉的能力有多强,而且我还做了一个,自动驾驶相关的项目,我就发现,这个AI确实可以,在物理世界去做决策了,所以我后续就是做了,我的主线就变成了两件事,一个是打游戏,一个是机器人,就打游戏不是我打 [01:34:03]

程曼祺:我知道你是用AI打游戏 Nencore应该是用强化学习对吧 OpenAI当时也是在做强化学习大游戏,他打Dota嘛,然后我当时打了好多好多游戏,从那个Atari 我还做过超级玛丽

许华哲:然后星际争霸,然后我还做过一个,那种网页游戏,叫General Stare IO 因为我很喜欢玩游戏,所以我把我觉得智力上比较有挑战的游戏,就是去做了个遍,然后我发现,这事呢,挺有意思,挺满足我作为一个那个gamer 就是这种自己写个AI 比别人玩的强的这种乐趣,但是我后来发现,强化学习就太擅长干这个事了,然后基本上所有游戏,只要你努力,最后就都能做出来,你别管是麻将还是德州扑克,你别管是即时战略游戏,还是什么卡牌游戏,都可以做出来的,那机器人是一个挑战更大的事,所以我会把机器人放在一个,我更想做的事情上,而且机器人不光挑战大,而且它的影响力也更大,因为游戏它,毕竟是任何游戏都是,只有一小群人会很喜欢它,但是机器人是所有的人,都会需要的,那是在博士几年级啊 [01:35:48]

程曼祺:博士三四年级吧,博士三四年级,就是差不多1819年左右 1819年左右,因为你在知乎上,你写过一篇文章,大概就是分享你从21岁到30岁,你每一年的生日,对写给自己的话,然后其实我看那个文章,我觉得18 19年,好像也是你心境变化比较大的时候,是的

许华哲:那个时候的画风就突然开始深沉起来了,对对是的,对我其实一直不是一个深沉的人,只不过有的时候,但是就是跟人打交道的时候,自己在小屋里的时候,会是很不一样的状态,我觉得那个时候,有两件事对我来说很重要,一件事叫做,科研做出了相当不错的成果,不能说特别顶级,但是是只能说,就是该发的论文也都发够了,然后该做的事也都做的差不多了,或者叫达到毕业要求,达到让老板满意,让导师满意的这样的一个阶段,我突然有点迷茫,对,就是,就是这个好学生当完了 [01:36:22]

程曼祺:你从小就是好学生,对啊,你是保送的是吗,对,物理精彩保送,是的,这个好学生当完了,就我自己有个习惯,就是我经常会,这个在各个地方,跑到第一梯队 [01:37:13]

许华哲:然后就开始琢磨,下一件事是啥,就我一般还不是,不是那个卷到头的,那个风格,所以当然我也可以,接着发paper 接着去卷很多,但我就会想,沿着这个线性的路再走,还是我应该有一个,节约式的变化,但是在博士期间,你很难有真正动作上的,节约式的变化,但我觉得思想上,在那两年会发生了巨大的变化,就是说沿着这条路线性的走,我可以看到的是,我接着再发三五篇paper 然后读一个博后,可以找一个工作,无论是在谷歌,还是在Facebook 还是在国内,对吧,或者教书,其实都还是比较清晰的,但是我会想,我做这件事有意义吗,我就是为了找工作吗,或者说这个事已经,我不努力也是这么个事,那我应该往哪去努力,所以我会想很多,我会作为人,会有怎么样的意义,哪些东西是真实的,哪些东西是别人给我定义的,以及,就是这些科研到底有没有价值,这些事是我当时在想的,你的答案是什么,我的答案是,大多数的科研没有价值,它最后变成了,人类进步路上的一点噪音,对,就是它确实在人类的文明进步的路上,但是不是往前垫了一块转,大多数的科研,但是有少部分的科研是真的往前走了一步,但大多数科研是一点噪音,然后那其实真正想做的事不是噪音的科研,不是噪音的事情,然后我的意义我也想得比较清楚,因为我那时候我就觉得 OK我也追求的不是一个,比如说变得多有钱,住一个大房子等等这些事情,我发现我对这些完全不感兴趣,然后我也不感兴趣,就是说,我是一个,多么成功的这样的一个状态,我更感兴趣的是,如何帮到更多人,以及我自己,能不能在这条路上,有非常极致的体验 [01:39:32]

程曼祺:你是博三博四的时候,开始比较认真地想这个事情,对,就此前其实中学和大学期间

影响力驱动与人生选择

程曼祺:就此前其实中学和大学期间,是没有想这些的,对中学和大学,我觉得我更多想的是,怎么嗨,干什么事我最嗨,干什么事我最爽,就是想的是眼前能做什么,以及做的这个过程,你是比较投入到当下的,对

许华哲:就是明天有个音乐节,我就去了,然后过两天,这边要考试了,我就狂学,然后再过两天,可能有个什么好玩的事,跑个什么越野跑,我就去跑一下,就是啥都干,然后干了很多,我觉得很好玩的事,对,因为我看你的爱好非常丰富,曾经非常丰富,现在比较收敛了 [01:40:17]

程曼祺:现在收敛到什么机器人,什么智能,机器人我觉得不算是爱好吧,我觉得是爱和使命,爱和使命,机器人是爱和使命,对

许华哲:我觉得爱好的话,我试过很多东西,我很喜欢发散的,试试看各种各样的东西,我试过并放弃的,包括,这个这个听歌,我后来发现

程曼祺:我并不能听进去流行歌,然后就是,当然我很喜欢周杰伦的一些歌什么的,但你听了很多古典音乐,对对对,而且你在伯克利还学了和声学这些,就还挺专业的一些音乐课程,我看 [01:41:08]

许华哲:我觉得音乐对我来说,是一种,准确描述,音乐和读书和一些理论,我觉得它们某种意义上,都是在描述这个世界,然后这个描述的精确性,其实就是它美的这个部分,这是我的观点,比如说当我看到一段文字,特别戳心的时候,其实本质上是说,我觉得它描述出了我的心境,或者它描述出了,我对待这个世界的态度,或者描述出了一个场景,音乐也一样,就是当我听到,比如舒伯特的第960的时候,我会脑海中就是那种,很神性的一个天堂的感觉,当我听到巴赫的时候,我就会觉得,比如说他的那个恰空,我就会觉得 OK我可能就在宇宙中,宇宙无限的在展开在折叠,然后理论也一样,对吧,一个好的理论,应该能描述这个世界,很多的规律,所以我觉得对我来说,他们都是一种对世界的描述,然后这个描述,其实是一种美的体验,这是首先,其次是我认为它,帮助我化解了很多的烦恼,就是当你听到一些音乐,它描述自己的一些痛苦,描述自己的一些使命的时候,你会觉得 OK 其实也有人这么想过,其实也有人思考到这儿过,这是我觉得,我觉得特别感谢,那个博士那段时间,我听了很多音乐,然后自己也练了很多琴,对,但是现在也没什么空了,不过当时我就,对我帮助非常大,你是弹钢琴吗,弹钢琴,对,然后我很喜欢重复的,看着是重复,但是,其实在有变化的事情,这个事情很好玩,就是网球对我来说,就是这样一件事,就是一次一次挥趴,其实,没什么变化,但是你会发现,球的质量会产生,就是里面的很多的细节,这块稍微提前一点,那块节奏稍微改变一点,然后另一个地方,它可能稍微角度调整一点,就会产生一个变化,但是这个必须要有大量的重复,一个强化学习的过程,对吧,这样的一个过程,包括练琴也是很多的,就是我一遍一遍的练,一遍一遍练,或者盯着一个地方练一百遍,最后终于把它练下来,这个重复的过程,我觉得就是生活本身,就是,就是其实生活,某种意义上,就是在不停地重复,但是每次重复,它是一个 spiral 就是一个,螺旋,其实它看着一直在原地打转,但其实你从另一个侧面看,它就是在往上升,我特别喜欢这种感觉,就我不喜欢那种,我不喜欢那种,看着在那个,在搞很多新的事情,但是最后你一看,其实就在一个平面上,不停地只是不停地去,所以我最后把我的很多,那些发散的东西,全都收敛掉了 [01:44:02]

程曼祺:最后就到这些,我很喜欢的这种,重复但不无聊的事情上,你觉得智能,它是一个重复而不无聊的事吗,因为现在看起来,我觉得智能发展,对很多普通人来说,有一种一日千里

许华哲:完全望尘莫及,对,我觉得智能,那是它的表现,它最后性能的提升,但其实你究其本质,智能里面也没有太多秘密,对吧,智能至少现在的智能吧,也许未来还会有更好的,现在的智能,是一个相对来说比较,其实就是transformer 加上数据,但你也是一样的,把里面每一个部分做得更好,它的性能就会这儿涨一点,那儿涨一点,最后它就会很好,所以我会比较喜欢这种,就是围着一个东西,然后把它每个地方都做到极致

程曼祺:就是这回答为什么是极致,就把每个地方都做到极致,然后这个事情就会变得正确,变得变好,我会喜欢这样的事情,就是我前段时间见一个投资人,我看他写了一条笔记,他说好奇心大于成就感的人,不适合创业,你会怎么,在这两个维度里,你会怎么去定位自己,对我觉得,好奇心和成就感,我都非常追求 [01:45:22]

许华哲:好奇心本身是一个很大的一件事,我认为我的好奇心,会希望是聚焦的好奇心,我觉得是这样子的一个事情,所以对于创业来说,如果你的好奇心是那种,今天我想看看这个机器人怎么做,明天我想看看这个,另一个大模型怎么做,后天我不如看看,这个智能手环怎么做,那肯定就,就没有一个东西,能做得下去,我觉得对我来说,我的使命已经确定了,然后我的好奇更多是,怎么把这件事情做成,其实你刚才在描述

程曼祺:就是你从当时做一些,用强化学习来做,就打游戏AI打游戏,然后到你觉得机器人是一件,对你来说更重要的事情的时候,你当时用的两个词是,挑战更大,然后更有影响力,就这两个在你的评价指标里,是很重要的,你可以把它展开描述一下,挑战更大,还有更有影响力,他更具体来说对于意味着什么,对我觉得 [01:46:26]

许华哲:这是我个人的一个小爱好,就是当有的选的时候,我一般会选那个更难的事,无论在任何时候,对就是,我也不知道,我只是觉得,这是我追求极致体验啊,因为我觉得,人生在这就是要体验,如果你做的事太简单了,你的体验就很差,就是我玩游戏,也从来都是直接选,那个最难的模式,你觉得保送更难,还是高考更难,都差不多,就我可以跟你讲讲,正好你提到保送这件事,我当时其实没有考进,那个国家金牌那种保送,所以我当时是考的省赛的保送,然后省赛考了,其实挺意外的,但是反正各种原因吧,你就说没发挥好是吗,就正常来说,你应该是进国家队,也不是国家队吧,就是正常来说,我应该是能够直接保送的,我觉得我的水平,但是反正各种原因吧,就没能直接保送,所以当时留给我的选择,是我可以保送去一个,非清华的学校,然后那是稳的,对那是可以保送的,另一个呢,就是我可以考一个,清华的保送生的考试,然后如果考上,还是可以去清华,另一个考不上的话,就可以回去接着学高考,对大概是这样子,我的父母几乎在劝我去保送了,然后你就,因为那个学校也很好嘛,我就不提哪个学校了,对对对,上海的某高校,对,那我知道了,对,然后,但我几乎就不用费什么,思考的力气,我就说那我再考一下清华嘛,对对,然后不行那我就再回去,去高考嘛,反正最后考不上就考不上呗,就就是我几乎不需要做一些,长时间的思考,就会选那个更难的事,因为我觉得这个就是很好玩,就如果做简单的事,这个好玩程度大大降低了 [01:48:38]

程曼祺:所以选更难的是你一贯的,一个倾向,然后更有影响力,对我觉得更有影响力,这个是围绕着我的核心追求

许华哲:就是帮助更多的人产生的,就是那个,具体的故事我已经记不清了,但是就是类似于,有一个很好的故事,一个小女孩给一个宇航局的人,写了一封信,就说你每年花这么多钱,去造这个卫星,为什么造这个火箭,为什么不把这些钱,捐给那些吃不起饭的人,让他吃得起饭呢,然后这个答案,反正也没有一个确定答案,我觉得近处的人和远处的人,我们都要帮,但是他当时可能,就是也给出了一个,就是类似于若干年前,也有一群人,花了一些可以让别人吃上饭的钱,吃上面包的钱,去研究一个东西叫显微镜,当时感觉也没什么太大用,但是这个东西因为显微镜,可能我们发现了一些,抗生素之类的东西,所以有的时候,你也不知道做哪件事情是正确的,所以对我来说 [01:49:53]

科研评价和 AI 评测

许华哲:所以对我来说,我肯定是希望,做那件有影响力的事情,它像显微镜一样,它像造火箭一样,它可以长久地造福人类,这是为什么我对影响力这么看重,对就是我一直会说,我是一个impact driven的人 impact driven 被影响力驱动,对

程曼祺:只不过这个影响力,其实是跟你刚刚说的,帮助他人这件事结合在一起的,对,不是我们一般理解的,比如说我做一个事,比如说我赚了很多钱,或者说我多出名这种 [01:50:24]

许华哲:就赚钱出名,如果只是这个,其实也是一种影响力,但我想的是,更多的影响到别人的生活,且是往好的那一侧影响,就是比如我,如果是我发明的抗生素

程曼祺:或者我找到的,我应该找到这个词更好,我会非常的自豪,因为可能全世界的某种疾病,因为我的努力而消失了,那这个影响力是非常非常大的,不过一般的这种,非常有影响力的科学发现,它最后带来的影响,其实很多情况下都是上面,因为抗生素它肯定是,挽救了很多生命,但另一方面滥用抗生素,它后来也会成为一个社会现象,会成为一个社会问题,当然

许华哲:我认为是,很多趋势是不可逆的,而且最终这个事情能不能用好,取决于人,但是对我来说,我肯定是要往好的方面去使用它,对,就像核能一样对吧,最典型的,发明的时候或是使用的时候,当然不是一个非常好的使用方法,但是其实后续还是造福了人类的 [01:51:15]

程曼祺:所以只要你是往善的那一侧去努力,我觉得对我来说就够了,你刚才描述音乐还有网球,还有你做研究的这个过程,你说的都是对世界的不同表达方式,然后都是一种美的形式,你可以讲讲就是,你自己的比如说对什么是技术的美,你的技术的审美和偏好和品味是什么

许华哲:简单一直是我认为是每一个技术人员,或者是看技术的人都应该,都应该公认的一个美的第一性的东西 [01:52:06]

程曼祺:简单,这个爱因斯坦说的对吧 Everything should be made as simple as possible but not simpler 这些和马亦老师要再来到这个

许华哲:因为我在课题组里面,也经常跟大家聊,就是说我们做的东西,要用小方法解决大问题,就是你的方法要简单,然后你的问题要复杂,这样的东西其实是最美的,反过来,如果你的方法特别复杂,一坨一坨的,但你简单解决一个特别小的问题,比如说就是,就是能倒一杯水,假设他只能倒一杯水,但你的方法特别特别长,那这个往往是丑陋的,对,所以我觉得简单是,美非常重要的一个点,除此之外,我会很喜欢一致,一致,就是,这个很难描述,就是他的很多思路上面,保持一致,我觉得也是,很重要的,什么是什么保持一致,就比如说,我举个例子,就比如说我有若干个,之前有人说我也端到端做一些事情,我有若干个小模型,但是呢我在上面比如接一个,知识图谱,然后把这个若干个小模型,怎么把它串起来,我觉得这件事本身就是一个,相互矛盾的事,就是,如果你相信,这种,知识图谱式的这样的方式,那你不应该底下,底下有这些深度学习的这个模型,你应该这些东西再拆,最后拆成一个巨大无比的网络,我觉得那也是会非常美的东西,那你说的是一种 [01:53:26]

程曼祺:就是它每一个小结构都是大结构,它是同构的,就是把海岸线放大放大,对对对,就是那种,就是你去那个极限的话,它应该是一个特别细碎的东西 [01:54:14]

许华哲:然后在远看也是非常美的,或者你就相信,所有东西都端到端,它就是一个圆,它就是一个统一的东西,我觉得就是说,理念的协调,对我来说也很重要,就是我不太喜欢那种,若干个理念放在一起,拼凑出一个东西,我觉得对我来说,技术上可能,或者说看一个东西

程曼祺:我会看它是不是理念是一致的,对,但我也很难描述,我觉得我的语言表达能力,在谈美这件事上还不够,你觉得有用在你的审美里,在什么位置,有用,因为有的时候大家会说,不管我用什么方法,反正最后这个东西,就可以work 这也是为什么大家说 AI有时候像,我觉得有用,有用是一种结果,我觉得它跟美不美,没有关系,我觉得美的东西,可以是很有用的,也可以是很没有用的,对,我觉得它是,几乎正交的两个维度,你觉得从就去年整好,业的来看,你觉得一些比较大的进展,显然会对接下来一段时间,大家去做巨神,都有很有帮助的一些进展,是什么,可以讲就是,比如是哪些方面的,我觉得25年,这个成果非常多,就是派的那些工作

许华哲:很显然是一个,非常核心的推动力,然后generalist的,那个数据级的大小,我觉得给大家一个 scaling的这样的一个推动,然后我觉得各种各样的 embody的VRM 我觉得也是挺有价值,但好像其中没有哪一篇,是那种就是能单独拎出来,用有一片,一批,就是这个embody的VRM的事情,让我们看到了一些,这个在巨深的交互里面,除了操作这件事本身,还是有很多的成长的空间,让他更理解空间,更理解事情,更理解这个语义,然后强化学习,强化学习让我们看到了,可以高成功率的完成,这是我自己做的工作 [01:55:44]

程曼祺:我非常的兴奋,就是做到100% 那个一座的同学,当时也非常亢奋,成功率100% 对我们测了900次,然后900次都成了,你们自己做的这个工作里面,它已经是你现在这个思路,就是你在这个强化学习,你在后训练,它是一个范围,就是各种任务都去训,还是针对某一个去,针对某一个,针对某一个做到百分之百,在实验室里面没有那么多资源,去把它做那么那么大,我们还是针对一个任务,然后去,但是我们针对了七个任务,七个任务都可以做到,那你们有把七个任务的数据放在一起,这样去,没有,就那个里面没有,因为那个,放在一起肯定还是有有挑战的,就是不是说简单的放在一起,立刻就能work 所以我们那个工作就会做到那儿为止了,然后后续会沿着它会再做新的工作,你觉得就是到目前为止啊,这个也出现过,就类似于像Transformer 在2017年,就那个时候,当然是我们现在回头看,就是为它的重要性,可能更明显了,我不知道在当时,就大家那一年,看到它是个什么情况,就有出现这种,特别重磅的开创级的东西,到目前为止,目前还没有特别看到,我觉得这个东西,你需要回头看,才能看得到 [01:57:31]

许华哲:需要时间检验,对对对,就是学术圈现在也很喜欢这个,这个对吧,在每个学术会议除了最佳论文以后,还搞了一个叫test of time award 时间检验奖,而且我记得上次在美国开会的时候,就是那个主持人就说,没有拿到最佳论文不要灰心,因为根据我们的历史数据,目前还没有任何一篇当年的最佳论文,拿过时间检验奖,就是就是即使是那是鼎会对吧,然后那是最好的一群人评出来的讲,但是仍然有非常大的局限性,最后哪一篇文章会冒出头来,成为那个真正影响人类历史的,好像不一定,好像不一定,对就像当年的那个NERF 这个工作也没有拿到当年的最佳论文,就但是它很显然就是成了一个非常重要的工作,所以你说 2025年有没有呢,我觉得很有可能会有,但是你说是哪一个呢 [01:58:46]

程曼祺:我觉得没有人能点出来,你说到这个现象,我觉得很有意思,就是你说,每一年的当年的最佳论文,后来都不是得了,时间检验奖的这个论文,所以可以说在学术成果上,最顶尖的人类

许华哲:他去做这个评测,去做evaluation也是很难,对,本质上是,每个人都按照自己的品位,去进行对这个世界的打分,和进行对事物的创造,但最终哪些被接受了,其实是一个随机事件,对 [01:59:11]

程曼祺:因为就从这个点,我想到一个延伸的问题是,因为现在大家都会经常讨论说,以后可以用AI来做科研吗,用AI来提升大模型这件事情,可能它是一个相对近一点的,或者说它也比较好被评估,因为模型性能,怎么去评估它的提升,有很多人在投入,然后也有很多已经有的方法,如果说你把它放到,就更广泛的,因为来做科研,其实你怎么评估一个科研成果

噪音、贡献和科学家的品位

程曼祺:其实你怎么评估一个科研成果,它是有价值这件事情,好像对人来说也挺难的,对科学家共同体来说也挺难的,我觉得评价它是否达到一个,一般意义的论文的水平,还是比较容易的,但是你说它,到底能不能产生深远的影响,我觉得确实是比较难的,其实就是分辨你说的,大部分的噪音和小部分的,帮助人类前进的转

许华哲:对,的那个区别,是的,这很难,我觉得在AI里面,还是更简单直接一点,就是论文本身是一个,你可以认为它是一个产品,你可以把它包装的特别好,然后你也真的货真价实,有点东西,所以你很有可能,就靠着你的完美的包装,加上一个比较有东西的内容,或者是这个贡献,然后获得了一个,很好的当年的名声,但是这个事之后,会有很多人来试你这个东西,所以如果你只是,有点东西的话,大家就会说OK 那它就还行还不错,但是也会有很多人,会试那些没有出名的东西,然后试出来发现,这个才是非常好使,非常有用,那这个东西,会被越来越多人沿用,越来越多人去使用,然后反正那个东西,就跑出来了,就跟那个创业公司一样,对吧最后哪篇论文会跑出来,一般往往不是那个,大家叫的最看好的那个,最近为止你自己做的,或者你参与做的这些成果里面 [02:01:19]

程曼祺:有哪个是你自己,最骄傲最自豪的,下一个,这个不算,这属于标准回答

许华哲:就除了下一个之外,对我觉得,其实有几个我还是很喜欢的,我自己就是比较亲手去做的,我最喜欢的是那个Robocook 就是我那个包饺子,那个事我觉得,某种意义上,是我们把这种包饺子,这个事做出了一个样子,然后通过一些比较直接的方式,当时是一个世界模型,然后加上一个,各种工具使用这样的一个方案,我觉得还是系统级的,做了一个大系统,对那个也是很难的,因为那是从擀面开始的,对是

程曼祺:他还不是说我买一些,现成的饺子皮这样去挂,对,那个我觉得在系统层面,我觉得是挺有挑战的,但这也算是一个长程任务,对吧,就整个从最开始做面皮,然后做馅 [02:02:32]

许华哲:然后给它弄起来,然后等等等等,对对,然后后续我们有几个,一个是那个DP3 是我们组的一个工作,我觉得那个工作算是一定程度上,把三维视觉跟库塞模型放在一起,然后有一个比较好的效果,我觉得那个还不错 RL100是我们最近就刚刚我提的,就我们最近的这个RL的一个工作,强化学习的那个工作,对,我刚说下一个,其实我们那个课题组,还有一个新的这个研究工作,是我们做了一个远程触觉的东西,就是比如说我们现在在北京,在上海有一个机械臂,它可能上面带一个触觉传感器,然后他去,那个机械臂去摸上海的一个东西,然后我这边是可以感受到,那个东西的软硬,那东西的粗糙程度,以及那个东西的,这个一些形状的,远程去摸,然后我们拿这个事干了个啥呢,我们去买了一个,那种乳腺癌的模型,然后去做远程的,这个乳腺癌的这个触诊,所以他这个传到,是传到人的手上吗,传到人的手上,对反向去传,是机器人在远程摸,然后人在,当然这只是我们的一个实验了,就不是说真正意义上已经用了,但我会蛮喜欢这个事情的,因为就是,未来也许机器人会上火星,我想在地球上摸摸,火星上的东西 [02:03:37]

程曼祺:是不是也可以这样摸一摸,对,所以它现在,它有哪些纬度,它能非常像人的手的真的感觉吗,它还不能特别像,但是它就刚刚我描述的三个维度 [02:04:24]

许华哲:比如说软硬,然后形状,然后以及粗糙程度,粗糙程度,但可能质感应该很难模拟吧,对质感很难模拟,然后另一个就是温度很难模拟,质感和温度很难模拟

程曼祺:对,对但我觉得也是有可能的吧,就我们反正只是开一个头,对我觉得这个还挺神奇的,其实就语言里面,关于触觉的词都很少,就相比于视觉来说,是的,它有很多很细微的东西,其实以往也没有被人表达过,也没有被语意化过,是的,因为我们一直做触觉,之前也做了一些触觉传感器 Night Detect

许华哲:然后我们也做了一个反向触觉,我们叫这个东西叫 Tactile Display 是就像屏幕,触觉传感器是让机器人有触觉,然后我们这个就像,让人能摸到机器人的触觉 [02:05:17]

程曼祺:因为你现在自己在科技组,你们还做一些,就还挺前沿的探索嘛,然后公司这边,肯定也是要做一些,跟公司主线相关的研发,你自己的精力,会怎么来分配,尤其是你的智力的,这部分,你思考的这部分,对我觉得其实本质上,要解决的是同一件事,就是通用的,通用的智能

许华哲:通用的物理智能,所以也谈不上怎么分配吧,就是怎么样能最快的,或者是最有效的,接近物理智能

程曼祺:我就会怎么样去做,我有几个补充想问的,其实是关于你,就是做播客的一些事,因为我觉得,就要持续地做内容,还是挺难的,尤其我也观察到很多创业者,比如说在他们创业之前,可能是知乎大悲,在居住上分享,然后创业之后,可能他就断更了,因为特别忙,然后其实你在,那个星海图之后,你还是一直在做内容,而且按你的规划,你应该之后,也是会继续做下去的,这个东西给你的 [02:06:09]

许华哲:这种正反馈,或者说动力是什么,可以让你持续做,我觉得就是做一些内容,对我来说是一种放松,就是跟大家聊聊天,然后把这个聊天的过程,录下来,我觉得我们今天聊天,我也很开心,然后这个过程就是一种,对获得一些信息,释放一些信息,然后大家坐下来喝点水,我觉得就很开心,吃点东西,对吃点东西,我觉得本身对我来说,就是一个很开心的事,然后第二个就是,能够让信息变得透明,本身也是我的追求,也是我的定义的,帮助更多人的一部分,就是怎么样,让那些想拿到信息,但是拿不到信息的人,最终可以通过,刷到我的一些东西,看到他想看到的答案,我觉得这部分,是一个很重要的动力,因为之前就会有人说,但是他是半开玩笑,他说要不是这个平台,无论是B站还是抖音,还是小红书,要不是这个平台,我永远也听不到这样的故事,我就看到这样评论的时候,我就会觉得 OK做这个事情还蛮值得的,对,然后第三个,这个跟你帮助他人的想法,也是一致的,是啊,然后第三个就是,我觉得我们想要做2C嘛,那客观来讲,我觉得去感受大家对你的评价,也很有意思,网上其实一旦你到网上了,就是在网球圈里面有一件,就是有个事,就是费德勒到了小红书上,也会变成2.5对吧,就是指指点点,说这哥们会不会打球,我觉得一样的,就所有人到了网上,众生平等,大家会说,你这个哪儿哪儿哪儿做得不好,哪儿哪儿哪儿做得好,我觉得获得这样的真实反馈,是非常难得的,尤其对于一个2C的产品,所以我即使在有新公司,我们也会持续做这件事,一个核心的点 [02:08:23]

程曼祺:就是拿真实反馈,我觉得这件事情,对于我们打磨产品,也是非常有帮助的,就我觉得你身上有两面性,一方面,因为你在社交媒体很活跃嘛,然后你有很多的,这个AI圈的粉丝,是一个很幽默的,活跃的科学段子手的感觉,但另一方面,你刚才也讲到,就是有时候,比如说你博士的时候,你可能会在情房待几个小时,而且我看,你看很多书,你连《静静的顿河》都看完了,那个没看完,那个是听完了,那个很长,那个书很长,非常长,包括你会用,比如《黑赛的黄元朗》里的,独白来描述自己的一些心情等等,就是我觉得你也有很内观,很细腻的那一部分

许华哲:这些东西在你身上是怎么融合的,这些东西就应该,它就是天然融合的,就是就像很多喜剧演员 [02:09:24]

程曼祺:他这个私下里都没那么开心一样,我觉得我也一样,你是内向性人格还是外向性,外向性的,你是艺人,我是艺人,对,但是你很喜欢独处,对是的

许华哲:就是说我都可以,我觉得就是这没有什么矛盾的,当我跟人打交道的时候,我会比较乐呵,比较比较友善,然后,但这不影响我

尽力的人生

许华哲:但这不影响我,那个,自己静下来的时候,思考一些东西,然后也并不影响我觉得,很多意义可能,只有自己一个人才能想清楚,我觉得这两件事本身是不矛盾的,或者说有的时候,是因为你想清楚了这些很多事,所以你才乐呵,所以你才对人友善,因为你知道很多事情不重要了,所以你也就没有什么可以生气的,可以发脾气的,或者是可以觉得委屈,觉得不开心的点,因为我觉得都挺开心的,就无论这个德或者失,对我来说都挺开心的

程曼祺:你最近静下来,一个人会想到一些,比较重要的问题会是什么,最近静下来一个人会想,最近有点静不下来,说实话,最近实在是比较忙碌,最近其实想的更多的,还是公司该怎么走,公司该怎么走,对,就是主线的线条,应该是怎么样走,一个节奏是怎么样的,我觉得 [02:10:42]

许华哲:最近的抽象的思考,变少了一些,因为确实具体的事情,来了以后,我觉得还是要先要把,具体的事情做好,那你最近有看什么书吗,最近读书也很少,最近读了那个,哈萨比斯那个传记,因为对,你和马拉比也有一个聊天,对然后就是,读了那个以后我觉得,挺好的就是,我很喜欢他的,那个里面那个,描述叫,叫,我们怎么样算是过了一个尽力的人生,就是他觉得是像一个马拉松一样,我应该往前跑,然后跑过终点线的时候,我最好立刻跪下了,更好的情况是我被抬进医院了,但我没有死掉 [02:11:07]

程曼祺:这就算是过了一个尽力的人生,我觉得跟我的人生观很像,他其实讲的也是一种机制,在一个竞赛之中,我看到马拉比写笔下的这个 Hassabis

许华哲:我觉得某种意义上,是一个所有的追求 通用人工智能的人的一个缩影,或者是一个应该有的状态,就是近乎虔诚地追求,他该追求的事情,我觉得这件事是,我觉得很有共鸣的,就你们的区别可能在于 [02:12:08]

程曼祺:我觉得他应该是很小的时候,他就有了一个,这种很明确的,这种使命感,他很年轻的时候,对是的,其实他是有一次,去参加那个国际象棋的比赛,然后他就在想,就是我的这个,大脑的智慧,就要用来下棋吗,我可以干什么,更大的事情,对是的,我觉得每个人想清楚

许华哲:事情的时间点是不一样的,对有的人可能早一点,有的人可能晚一点,我觉得这都无所谓,而且想清楚了,也不一定是好事,没想清楚的时候,我觉得我能感受到的快乐更多一点,我虽然现在每天很乐呵,但其实感受到的快乐变少了,因为我更多我的乐呵,是因为我觉得,大多数的事情都无所谓,所以我很乐呵,但是在我想清楚之前,我有痛苦有乐呵,但我带来的快乐,这个更强烈,是因为我真的是快乐到了,而不是我觉得无所谓,所以我,对我觉得是,不太一样的人生状态,我觉得怎么描述呢,就是那种,可能婴儿的皮肤,你轻轻碰一下,它就很敏感的那种状态,是以前,现在我感觉就是 [02:13:01]

程曼祺:那些东西都无法影响到我,对,其实就是你的预值变高了,你如果要真的快乐,你可能需要一个,你需要一个更大的,更深远的东西,你才会,你才会觉得快乐,对,或者说有成就感吧,你可能不能用快乐来形容,所以我就回到了,帮助更多的人吧,因为我觉得我自己,获得的东西,已经很难让我产生快乐了,你喜欢现在这个状态,还是之前的状态,也谈不上喜欢

许华哲:只是它不肯定,马拉比可能很小,它就是受到那个影响,它的使命就决定了,可能是九岁,还是十岁的时候,对吧,那它可能,前面那个状态更少一点,它再也没有办法,享受那种 [02:14:21]

程曼祺:在下棋上击败别人的快乐,对因为他算是个神童吧,对对但是但是,好处是他又找到了新的东西,你觉得作为创业者的话,你会担心自己身上缺少某些特质吗

许华哲:作为创业者,我其实不是特别担心,因为我总觉得,其实你很难定义一个,什么是好的创业者,对吧,就是我觉得创业者,我认为的一个最重要的特质,就是有特质,就是你可以是一个木讷的人,也可以做出一个很好的企业,你可以是乐观的,也可以是悲观的,我觉得对,就是你看我们现在身边,能听到看到名字的这些企业家,其实每个人都很不一样的,我觉得创业者并没有什么,一定要的东西,你对于就是创业这件事的,挑战和难度是怎么预估的,创业的挑战肯定是足够大的,所以这也是跟我的决策思路一脉相承的,就是去做挑战足够大的事情,能够成功的概率也很低,就像前面我们聊过的哪篇论文,能够跑出来一样,我觉得任何一家公司的成功概率,在今天无论它已经名声很大,还是刚刚开始,我觉得胜率是差不多的,都是很低,可能如果有100家公司,可能大家都是1% 甚至更低,因为还有可能这100家都挂掉了,对吧,所以创业一定是不确定的,但是所以就回到了,我们有尽全力,我们有极致的体验,我们有给这个世界创造一些东西,以及最后这件事做成了,整体所有的人加在一起,人类做成了,我觉得这些事情,如果都有一个比较好的答案,我觉得就够了,你觉得你为这个事能付出多少代价,当然很多,所有的代价 [02:16:35]

程曼祺:因为我要的太多了,所以任何代价都可以,之前我也跟你聊到过,就是你让我想到,我之前采访过的另一个创始人,是绅士科技的张林峰和首席科学家,对他是创始人,他是首席科学家,然后他们还有一位联创,是他们CEO 然后张凌峰是原培毕业的,北大原培,然后后来去普林斯顿读博士,他们是做AI for Science 就我觉得你们俩比较像的一点是,你们都是,你们都是学科学出身的,同时爱好也很广泛,也会自己写很多东西,他也会自己写很多东西,会观察自己内心和思想的变化,然后他的情况是,他有一个联创,就是他们的CEO 也是本科的同学,然后认识了很久,也很相互信任,然后那个就是孙伟杰,他是会来处理,比如说像融资啊,经营啊,然后公司业务商业化,客户等等很多这种情况,你觉得你现在创业的话,你需要一个这样的合伙人吗,还是说你自己要去,学习和补充这块能力,首先我肯定要学习和补充的 [02:17:35]

许华哲:我觉得这件事,需要自己把它也做好,至少知道该怎么做,然后同时我们也会补充人,其实我有一位联创

程曼祺:是会比如金融背景的,它可能也会起到很多补充的作用,这点真的很像,因为韦杰之前也是在做投资的,你说你的联创金融背景,以前也是VC

许华哲:不是它是二级的,二级市场,所以我觉得,这些事情其实是我也想做到的,我并不是一个,就是想一心只读盛贤书的愿望,我觉得这些事情是该做的事,我也都会去做 [02:18:08]

程曼祺:从开始筹备创业到正式成立到现在,其实差不多就是小半年的时间,这段时间你有发现自己不一样的一面,因为一般来说其实选择创业,我觉得还是会在很短的一个时间里,就给人很多成长空间,可能也会是一个比较快速变化的事情,我觉得我一定程度上,找回了曾经的自己,曾经的自己

许华哲:多久之前的曾经,我一直很想创业,我从高中开始就很想创业,只不过后来因为成绩比较好,然后也对AI很感兴趣,然后就越做越学术,越做越学术,然后就,我从来就是我觉得小时候的自己,从来没有想过我能读博士,然后也没有想过我要读博后,然后最后成了一个,学校的老师,你小时候对自己未来长大,是怎么设想的,我小时候就是,两个事情,我一个就是创业,我就是从小就是,经常会想有一些,创业的idea 但是那时候很小嘛,所以也没有什么,另一个就是,我很想当高中老师,很想当高中老师,是的,你是什么家庭背景啊,我妈妈是老师,然后我爸爸在做生意

程曼祺:所以可能就是 OK 对,因为我觉得当高中老师,就是,也很有意思,所以你的两个设想,一个是,类似于你爸那样,就是自己做一个事,自己开公司 [02:19:46]

找回自己,破壳而出

程曼祺:自己开公司

许华哲:对,一个是类似于你妈,这样是做高中老师,当然我妈是教初中的,但是,但是那个,我,就是觉得,当老师本身,是个挺好玩的事情,就是把一个东西 [02:20:00]

程曼祺:搞透,然后再教给别人,我觉得还挺好玩的,就是小时候的自己,从来没有想过,会去当大学老师,就没想过是做研究,做学术,对,是的,所以找回了,所以一个是你找回了

许华哲:曾经的自己,而且是很小时候的版本,对,而且就是就是很,就是我觉得,已经很久没有这么爽过了,就是说,就是创业每天,就是最近可能,从早上八点半开始,一直到十二点,都是都是蛮复合的,对,这么高能量的去去工作,我觉得,确实让我很快乐,而且这个过程应该是

程曼祺:充满你说的那种 ownership对吧 agency 就是很主动性的去做的,是的,就是你想你要做成一件什么事,你想你要什么,然后你去做,而不是别人分配给你一个事情,然后你去做,我很好奇,这个和联创也是很不一样的体验,是吗,当然,当然,肯定是不一样的体验,我觉得,或者说,每个公司的联创的定义也不太一样,对就可能具体的角色,然后做什么分工,写作方式都不太一样,对都很不一样,对,我自己还是一个

许华哲:就是在我们的新公司,我会期待我们的每一位联创,也都是独当一面的,你说的参与感,对,不光是参与 [02:21:30]

程曼祺:就联创可能就不仅仅是参与了,而是就是他的那个事情,他应该是有决策权的,所以这是你创业之后,你发现的一个点,就是说你觉得

许华哲:回到了曾经的自己,对对对是的,我一直都是一个,那种这种风格的,直到到读博士,遇到了高杨,这个家伙,怎么讲,非常的严谨,然后非常的聪明,然后也非常的学术,然后我老跟他玩,然后玩着玩着,就是那个,就是就是就是很学,我也变得很学术,对你们当时在伯克利的时候,就是同学,对对吧

程曼祺:都在拜尔实验室,对,最后一个问题是,我想问你今年,八月的时候,写生日感想的时候,或者到年底,一些总结的时候,因为你每年,还是会总结一下的,你希望那个时候,自己和公司,到一个什么状态 [02:22:23]

许华哲:我希望到时候,我的爸已经会说话了,然后,我会期待这个公司,有了一个,很不错的团队,然后造出了一点东西,然后我希望我自己,乐在其中,乐在其中,对,是带着大家,从,这个,一片,我们今天那个办公室,就是一片荒芜,就一些地板,然后这个,已经跑出一点小小的样子,从一片荒芜到破壳而出,对是的,我觉得最后点题,对吧,对破壳,破壳机器人真的有一些,对有一些东西出现吧

程曼祺:OK 那今天非常感谢,华哲做客玩电聊,分享了之前,自己的一些成长经历,什么时候开始,钟情于机器人,想把这个当做自己的使命,以及两次创业,尤其是这一次新创业的一些思考,和一些现阶段的想法和实践,非常感谢,那今天节目就到这里,各位拜拜,好的拜拜,谢谢,本期连点呈现,这是晚点聊第二次采访许华哲,上一次是在24年10月底的第86期节目,当时邀请华哲来聊了那会儿刚刚举行的 Tesla的V-Robot发布会,那次发布会上,特斯拉展现了没有方向盘和驾驶室的自动驾驶车辆,而市场更关注的是人型机器人Optimus的经验表现,似乎看当时机器人的很多流畅的动作,都是通过摇操这种方式来实现的,摇操依然不能解决机器人的自主行动和完成任务的问题,同时作为一种数据获取手段,摇操也因为成本非常贵而逐渐变得没有那么主流,回顾当时那一期再看这一期,我自己也能明显感受到,整个巨声智能行业发生了很大变化,其实还不到两年的时间,但同时这依然是一个,技术路线没有完全收敛的方向,所以更多巨头的激烈竞争和加注,还没有发生,创业公司还有一个探索的空间,如果这件事我主要指的是智能,在两到三年之间有质的飞跃,我们会看到一出非常精彩的,技术和商业大戏,但前沿科技的难点和魅力就在于此,你很难预测一个,确定会发生的技术拐点,会精确地再核实到来,许华哲在这期里说,他希望两年后,我们可以再录一期播客,到时可以看看他现在的预言,也就是家庭机器人,会在18到24个月之后,真的开始应用,这件事到底是能够实现,还是会被打脸,我也非常期待,从我的角度,我是希望它实现的,这样我们就有更多,好的内容和故事,可以给大家呈现了 [02:25:17]

返回该播客 打开原文