Ilya尘封10年录音曝光,大二入Hinton门下,竟坦言机器学习反直觉
即便在Transformer与ChatGPT尚未诞生的年代,Ilya已敏锐预见深度学习的广阔前景,展现出令人叹服的远见与清醒。这是一段10年前Ilya对于如今AI时代的预言。
Ilya Sutskever因在深度学习方面的远见卓识而闻名。
他现在许多广为流传的言论其实都来自于他在2023年参加Dwarkesh播客时的发言。
此后,直到2025年Ilya创办SSI后,几乎不再有公开的言论,此前曾探讨过Ilya的去向。

最近,一位名为Nathan Lambert的博主声称他收到了一段Ilya在10年前,也就是2015年谈论深度学习的语音片段。
令他感到震惊的是,Ilya在那么多年前就已准确预见了这一切,尤其是他的直觉从那时至今几乎没有任何改变。
在进行资料整理,同样震惊我们的是:
早在2015年,Ilya对于深度学习的理解就已经远超如今绝大部分人(即使是10年后今天)。
这个视频片段来自一个已经停播的博客节目《Talking Machines》,我们在其官网找到最初的采访录音。

此时的Ilya还是谷歌的研究员,节目中谈论了他的工作、他是如何对机器学习产生兴趣的,以及为何机器学习(Machine Learning)会和魔法思维(Magical Thinking)产生联系。
现在就让我们将时间回拨10年,看看当年的Ilya是如何洞察深度学习的。
在编辑这篇文章时,我们也惊讶地发现,即使只是通过文字记录,Ilya的观点历经10年岁月洗礼,依然鲜明犀利。
数学出身的Ilya,认为「机器学习」违反直觉
Ilya首先讲述了他通往人工智能的道路,对于这样一位才华横溢的人物来说,这并不令人意外。
我十几岁时就一直对人工智能感兴趣。
我觉得那非常棒而且引人入胜。之后我继续攻读了数学专业本科。
当你学习数学的时候,你会深知数学注重的是证明事物。
如果你看到某种规律,在没有经过证明之前,它并不意味着就是正确的。
因此,对于拥有数学背景的我来说,学习(机器学习)似乎是非常违反直觉的,因为学习强调的是进行归纳推理,而这些归纳步骤看起来很难用严谨的方法去解释清楚。
如果你习惯于严格地证明结果,那么归纳似乎几乎就像魔法一样。
因此,我当时对学习特别感兴趣,因为我深知人类具备这种能力,而从单纯的数学角度来看,学习似乎根本不可能实现,这让我感到不可思议。
大二和Hinton合作
于是我开始四处寻找,结果发现多伦多有一个非常出色且强大的学习研究团队。
我在本科二年级时便开始与Jeff Hinton(AI之父)合作。
相比硬科学,机器学习的理解更加容易
机器学习确实是一门复杂的科学。
我想这不像物理学。
我认为在物理学、数学以及许多其他硬科学领域,一个人需要掌握大量知识后才能开始发挥作用。
虽然我不太确定,因为我从未涉足这些领域。
这只是我的印象。
而机器学习则更多地是,那些重要的想法,甚至是与前沿研究相关的想法,都离表面非常近。
这个观点和我们如今的现状是如此的吻合。
尤其是在一个远离真正训练前沿的实验室中,在没有特别努力寻找的情况下,周围的机器学习的低垂果实之多令人惊讶。
深度学习之所以有效,很大程度上是因为人们愿意付出努力去把握这些机会。
Ilya认为:
只要有正确的指导和方向,无需多年学习就能理解机器学习背后的主要思想、有效方法的主要理念以及主要的直觉认识。
监督学习是机器学习中最成功的领域
Ilya在访谈中谈到,到目前为止(2015年),监督学习是机器学习中最成功的领域。
主持人随后请Ilya解释他最近的工作,Ilya继续深入讲解了深度学习如何得出答案的另一个核心要点。
所以你说,好,数据会告诉我们最佳的连接方式。
因为深度神经网络是一种非常强大、非常丰富的模型,它可以完成很多复杂的任务。
我们很难想象它有哪些事情是无法做到的。
正因如此,每当我们拥有大型数据集时,我们可以应用一种简单的学习算法来找到最佳的神经网络,并取得良好的结果。
因此,我当时致力于将深度监督学习方法应用于神经网络,解决输入是序列、输出也是序列的问题。
从概念上讲,这与我之前所讨论的内容并没有实质差别,主要是一个技术问题。
其关键在于确保模型能够处理输入和输出都是长度不再预先固定的序列。
但它的基本方法是一样的,并且使用了相同的基本学习算法。
因此,再次强调,由于这些模型具有很强的表达能力和功能,它们确实能够解决许多困难的、非平凡的模式识别问题,以及用其他任何手段几乎无法想象能解决的问题。
再者,令人惊讶的是,尽管这种方法最终表现得如此强大,它实际上却非常简单易懂。
学习算法极其简单。也许只需要一个小时,一个聪明的学生就能理解它全部的工作原理。
这个观点也和我们当下的现状极度吻合。
不论是LLM还是Transformer,我们都可以在简单学习后,了解它的基本原理。
甚至就像2023年那次采访的题目,为何「预测下一个单词」这么简单的模型就能超越人类的智能。
只是为了增加数据
在Ilya看来,将深度学习中成功的图像分类技术应用到序列分类(即更接近文本)上只是「一个技术细节」。
人们所做的很多工作更像是在为模型构建数据加载器,而不是我们提出的架构本身有多新颖。
Ilya如此注重数据和通用性,那么后来像Transformer这样的架构席卷整个机器学习领域也许并不会让他感到意外。
神经网络的目标函数非常复杂
它高度非凸。
而且从数学上完全没有任何保证能确保优化成功。
因此,如果你和一位研究优化理论的学者讨论,他们会告诉你,从理论上根本没有理由相信这种优化会奏效。
然而,事实证明它确实能成功——这是经验证明的结果。
纯粹靠理论,我们很难解释太多细节。
并不是因为这里有什么「魔法」,而只是说明我们还没完全搞清楚原理。
我们其实不清楚,为什么这些看似简单的启发式优化算法在这些问题上表现得如此出色。
因为没有任何数学定理或理论可以说明它们必然会成功。
我们真正期待的定理,应该反映「在现有条件下做到最好」这种理念。
然而,人类的智慧并不追求绝对最优,就像我们设计飞机或汽车时也不会力求完美。
我们只需要一个「够好」的工程系统就行。
深度学习和非凸优化给我们的,正是一群「够好」的系统。虽然它们可能不是最优解,却依然非常有用、充满潜力。
这就是事实。
深度学习追求的是「够好」
在许多领域,尤其是学术界,人们过度追求最优,反而忽略了真正重要的目标。
深度学习是一门务实的科学,它在现有资源条件下追求「够好」。
随着数据量和算力的飞速增长,「够好」往往就能带来惊人的成果。
这种「够好」的思路,也让现代人工智能更像「炼金术」而非传统科学.
因为传统科学的进展通常要慢得多。
也许正是这种因为深度学习是务实的,在如今算力爆炸和数据丰富的时代,LLM虽然还是「黑箱」,但已经切实的改变了我们的工作和生活。
某种意义上,也算「预言」了整个LLM时代。
初始化的尺度直接决定了模型的可训性
关于这一点,还有一些不那么直观但非常重要的细节值得讨论。
你可以这样理解:神经网络里有大量神经元和连接,每层都会先将输入乘以随机权重,再经过非线性变换。
第一层处理完后,第二层又会重复相同的过程:乘权重、做非线性变换。
如果这些随机权重太小,信号在多次相乘后就会迅速衰减到几乎为零。
当信号到达输出层时,你几乎感受不到任何输入的影响。
这样一来,学习算法就无法发现输入和输出之间的关联,也就没法改进模型。
因此,我们必须让随机初始化的权重大多数情况下足够大,才能保证输入的变化一路传递到输出层。
一旦满足了这个条件,梯度就能够找到正确的方向,有效地优化网络。
…因此在实际应用中,当研究人员希望在一个真实数据集上训练神经网络时,初始化的尺度是你需要关注的最重要的参数之一。
以上内容节选自音频对话内容,绝大部分来源于Ilya本人。
这就是Ilya 2015年对机器学习的深刻洞察。
那时,距离Transformer发布还有4年,距离ChatGPT发布还有7年的时间。
但是Ilya已经深刻地体会到神经网络的威力。
最后想说的是,Ilya对于这场改变我们所有人的科技革命的直觉。就来自于在这次访谈中他想要告诉我们的:追求务实,拥抱简单。
参考资料:
https://feeds.acast.com/public/shows/talking-machines
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
大家都在看
-
陈晓平:诗家末路依唐家——金和、倪鸿与唐廷枢兄弟的故事 晚清就业形势进一步恶化。体制边缘的诗人金和、倪鸿走到末路,入轮船招商局、开平矿务局工作。有文才而无领兵、治事之能,若非有力者托举,在急剧转变的社会不免狼奔豕突。新兴产业容纳不了太多文人,两人能找到出路 ... 机械之最06-13
-
机械专业真实现状:不是所有人都适合学,想清楚这几点再决定 你以为机械就是“拧螺丝”?实打实讲, 在我国上大学以前之时, 针对机械的领会也就是“创置机器”、“旋拧螺丝”、“于工厂里做杂役之类不关键之活儿”这样的情况了。身旁的亲戚一旦听闻你专门学习机械这个专业, 其眼 ... 机械之最06-13
-
白玉京:马斯克画的是蓝图,还是大饼? 【文/观察者网专栏作者 白玉京】 近日,蓝色起源新一代重型运载火箭在地面测试中发生爆炸,巨大的火球与滚滚浓烟很快登上全球社交媒体热搜。事故之后,美国国家航空航天局(NASA)局长艾萨克曼赶到爆炸现场。商业航 ... 机械之最06-12
-
军营观察丨“山峰”组合成长记 初夏时节,渤海湾畔海风习习。海军某中心军士技能大师工作室内,三级军士长张庆山带着几名战友反复推敲装备维修革新方案,张庆山的徒弟、中士冯雪锋紧盯屏幕,一点点调试模块参数。张庆山和冯雪锋被战友们亲切地称为 ... 机械之最06-12
-
回到物理学坐标上!培育钻石以极致导热,扛起AI芯片散热重任 【环球网财经报道 记者 冯超男】谁也未曾料到,用来见证爱情的钻石,如今扛起了为 AI 芯片“退热”的重任。凭借着卓越的导热性,培育钻石,也就是人造金刚石,强势闯进了当下炙手可热的AI赛道。甚至,英伟达都亲自下 ... 机械之最06-12
-
洗地机vs扫拖一体机器人vs吸尘器:2026三选一,按户型选不踩坑 谁家遇到干家务这事,真的都挺让人头疼的。虽然说现在清洁家电非常多,洗地机、扫拖机器人、无线吸尘器,但如何去用很多人也分不清,如果都买下来,价格起码也得1万往上并不便宜。很多人就是比较难分清楚区别,有的 ... 机械之最06-12
-
关徽耀国门 实干淬担当——聆听他们守关强国的故事 新华社北京6月11日电 题:关徽耀国门 实干淬担当——聆听他们守关强国的故事新华社记者邹多为当巨轮满载国货出海,当进口水果抢“鲜”入境,当走私违规无处遁形……货物贸易第一大国阔步向前的背后,饱含无数海关人 ... 机械之最06-12
-
活力中国调研行丨“大脑秘境”如何让患者“遇见光” 大脑是人体最精密也最神秘的器官。夏日的午后,“活力中国调研行”记者团来到位于北京昌平的北京脑科学与类脑研究所。金色的阳光透过玻璃洒进实验室。一项项深耕脑科学前沿的探索正在持续推进并加快走进病房,为患者 ... 机械之最06-12
-
扎根在一线 奋斗正当时(下) 田野间的“天耕客”■ 杨 川 河北邯郸 新农人杨 川 金 立摄爷爷赶着黄牛耕田,爸爸开着拖拉机种地……大学毕业后,我把无人机带进田野,接过家里的“接力棒”,成了一名新时代“天耕客”。2002年,我出生在河北省邯 ... 机械之最06-11
-
扎根基层 科技报国——央企青年代表共话使命担当 新华社北京6月10日电 题:扎根基层 科技报国——央企青年代表共话使命担当新华社记者赵怡宁青年强,则国家强。在全面建设社会主义现代化国家新征程上,广大中央企业青年科技人才扎根一线、坚守岗位,用青春智慧服务 ... 机械之最06-11
相关文章
- 新华社文化随笔:当非遗成为“中式生活指南”
- 三峡水运新通道为何如此重要?将带来什么?
- 机械专业真实现状:不是所有人都适合学,想清楚这几点再决定
- 机械专业最怕的,不是进厂,而是起点选错
- 机械设计制造及其自动化各分数段推荐院校,就业最广,闭眼入
- 白玉京:马斯克画的是蓝图,还是大饼?
- 在同山共脉的吉尔吉斯斯坦“看见中国”
- 军营观察丨“山峰”组合成长记
- 回到物理学坐标上!培育钻石以极致导热,扛起AI芯片散热重任
- 洗地机vs扫拖一体机器人vs吸尘器:2026三选一,按户型选不踩坑
- 关徽耀国门 实干淬担当——聆听他们守关强国的故事
- 活力中国调研行丨“大脑秘境”如何让患者“遇见光”
- 扎根在一线 奋斗正当时(下)
- 扎根基层 科技报国——央企青年代表共话使命担当
- 马钧:被低估的三国“机械天才”
- 钉钉歪了,阿里能一锤敲正吗?
- “数智化不是选答题,而是必答题”
- 经常出现这种情况 可能是牙齿在“求救”!千万别大意
- “这座博物馆始终是一个鲜活的工厂”
- 塞牙,可能是你的牙在喊“救命”!别不当回事……
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
-
我国在职正部级领导中,最年轻的是这5人! 08-30
