2024-10-23
王峰随笔:关于深度学习之父辛顿、诺贝尔奖和大科学家的好事多磨
更新/今天聊聊杰弗里.辛顿和诺贝尔物理学奖。顺便扯的远一点。
辛顿是人工智能领域没有争议的“深度学习之父”。他的根本贡献来自于深度学习中大量使用的反向传播算法理论。前年深秋,圣何塞,我第一次在油管上看见辛顿在接受采访时,就被吸引住了。辛顿的样子让人过目不忘。像极了《木偶奇遇记》中的比诺曹,尤其像的地方,是小木人的尖鼻子。那时候,全世界都知道了OpenAI和ChatGPT。但是除了AI圈,却少有人知道辛顿的名字。
我拿比诺曹开老爷子的玩笑。
一个天真充满好奇心的小木偶,一心想让自己成为真人。同样,辛顿一心想让人工智能成为现实,也一轮被嘲笑。熟悉计算机发展史的人应该知道,人工智能领域道路崎岖,技术投入几起几落,从业者一路被讥笑。你去看辛顿讲话的样子,那眼神和表情,有几分比诺曹的优雅。
诺贝尔颁奖通知电话从瑞典打来,是夜里两点。
斯德哥尔摩那边的电话里问。您在哪里?“我在加州一家便宜的酒店里,这里网络环境比较差。” 辛顿的回答有点囧。此时此刻,你得到物理学奖的感受。辛顿说以为是恶作剧开玩笑、然后用了一个词“dream amazing”,梦一样的惊讶。
“你怎样描述自己?究竟是一名计算机科学家,还是一名尝试理解生物学的物理学家?”辛顿并没有在两个简单选择中给出答案。
我这么多年的观察,凡是直接在人家给选择题中做答案的,都不是什么真正的强人。
无论学历有多高,都没有用。我们很多人非常习惯做题,一旦毕业后就进入失重状态,有一种漂浮无力感。因为人进入到一个阶段,不是做题,而是找路。现实中,绝大多数他人预设的初始问题,本身就往往是形而上学。何况人家也就是随便那么一问,没过太多大脑。路是自己走出来的。
辛顿说,自己是“一生都在思考人脑是怎样工作的的人。我在试图了解大脑是如何工作的时候找到了一种技术,效果出奇的好。”
这个回答非常漂亮。辛顿一生的努力和坚持,终让人工智能成为现实。年轻时,辛顿在剑桥大学求学,为了搞清楚人脑如何思考,试图同时主修物理学和生理学,一年后均放弃后,改学建筑,然后放弃。一年后居然又改修哲学,两年后和导师不合而放弃,最终得到实验心理学学士学位。然后,毕业即失业。
很多人不知道,辛顿毕业后居然干了一年木匠活。哈哈,前面的比诺曹埋到这里了。
直到听说有一个专业叫做人工智能。
辛顿果断去爱丁堡大学,拿到人工智能博士学位,毕业后去美国卡内基梅隆(CMU)任教,“惊讶于这里的人都在实验室。”辛顿曾抱怨,他在英国的圈子下班就只知道去咖啡馆。最初,辛顿说在CMU几乎没有什么校内交往,唯一交流的是美国另一所大学的教授,以及一位后来进入CMU的统计学专家,才可以一起讨论人工智能学术方向。找不到办法,找不到投缘AI的人,在最无聊的时光里,辛顿居然也去读俄罗斯作家陀思妥耶夫斯基的《罪与罚》。
辛顿于1986年发表反向传播算法(BP)理论。一言难尽,解释起来要花点功夫。一句话,BP提供了深度学习在大数据集上训练上的能力,无论是图像识别、语音识别还是自然语言处理,甚至能为今天十分流行的Transfomer大模型提供了未见数据场景的泛化能力。今天,OpenAI闭源的ChatGPT和Meta开源的LLaMA,开始为业界所熟悉,其实都是基于Transfomer架构上的。通过大量文本数据进行预训练。反向传播算法能够在此过程中调整模型中的参数,使得模型更好地捕捉到语言统计规律。
计算机专业大学课堂的机器学习教程,反向传播必然是重点章节。
我记得,七年前,我读过清华大学周志华教授所著的《机器学习》(因为封面有一个西瓜,圈中人称西瓜书)在其中一章“神经网络”中,有专门的小节讲解了“误差逆传播算法”,即通常我们所说的反向传播算法(BP算法)。这一算法是神经网络训练中的关键技术,用于通过“梯度下降法”更新网络权重,以最小化网络的预测误差。
相比较个人电脑、互联网、智能手机以及云计算等技术热潮,同样在计算机科学领域深耕的辛顿,和他追逐的人工智能梦,一连坐了三四十年的冷板凳。快七十岁的时候,辛顿看见全世界的人工智能都在用自己提出的深度学习算法。
熟悉辛顿的人一定知道,OpenAI前首席科学家Ilya Sutskever是他在多伦多大学执教时期的学生,算是关门弟子。辛顿很认可这个学生的知觉和工程能力。辛顿讲了一个故事,Ilya要给数学计算工具MatLab写一个API接口,以便于把他们团队整理复杂的数据格式一致。老师辛顿说我们别浪费研究时间,这个工作要耗费一个月时间,学生Ilya说我今天早晨已经写完了程序。2013年,Google收购了辛顿和Ilya共同创办的AI初创公司DNNresearch。应该说,这家公司是辛顿研究小组的衍生物,当时正在进行图像识别领域的机器学习研究,Google利用这项技术增强了照片搜索等功能 。
辛顿是英国人。
很多人说英国人不行了。英国人不是日不落帝国时期的那股子劲了。今年夏天我去英国转了一圈,伦敦的朋友提醒,小心飞车党。说说和辛顿有关的两所英国大学,你就知道我们不能自嗨。剑桥大学内,三一学院,仅仅在理论物理学研究中,这里走出了牛顿、麦克斯韦和霍金,几乎奠基夯实物理学三个重要时代。计算机领域,同样地,国王学院中除了我们知道的徐志摩,更走出了阿兰图灵和辛顿。图灵提出了著名的问题,如何测试机器有否智能?辛顿却用一生解决问题。2018年,辛顿和另外两位人工智能科学家一起拿到图灵奖。当年的图灵,何等天才级人物,却承受巨大精神痛苦,啃下一口涂抹氰化钾的苹果就走 了。今天,英国人开始把图灵的肖像印到50英磅纸币上。说回来,很多人对欧美人文化中三一没有概念,还以为和三一重工意思差不多。“三一”(Trinity)在基督教教义中指的是“三位一体”,即圣父、圣子、圣灵三位一体,其实是一个纯粹的神学概念。英国这些重点大学,除了教室、图书管就是教堂,神人频出。
辛顿在爱丁堡大学找到学术归宿。
爱丁堡太美。神秘的黑色中世纪风,也许会促使人思考源头和去向问题。电磁学之父麦克斯韦也是最早在爱丁堡学数学和物理的。一百年前,北大懂六门外语的辜鸿铭,上课头戴旧式礼帽手拿茶壶,几乎一人和五四革新派对立,他曾在爱丁堡读的哲学博士。我们那时的北大,从校内吵到校外,既容得下革命派,也能有辜老爷子这样的保守派。毛泽东在长沙师范读书时期的老师,杨昌济是爱丁堡大学哲学系毕业的,杨昌济十分喜欢毛,后来到北大,把女儿许配给他,给毛在图书馆安排工作。毛改变了中国,毛的思想启蒙来自于毕业于爱丁堡大学的杨昌济。
很多人说诺贝尔奖给计算机科学家物理学奖,有点不务正业了。其实,诺贝尔奖并不是第一次给计算机领域,之前有肖克利和贝尔实验室团队。1958年,因为发明晶体管获奖,他的贡献直接推动了计算机芯片技术。美国硅谷芯片行业的黄埔军校,应该首推肖克利实验室,因为科学家不善管理,内部分崩离析,先后出去创办了仙童去半导体和Intel,提出摩尔定律的摩尔,是他实验室的员工,也是著名的硅谷“八叛逆”之一。今天的英伟达和台积电,其实算是他们的徒孙辈。
科学家辛顿在Google工作了十年,做副总裁,最终离开。
并非意见不合,而是因为担心人类无法控制AI的风险而放弃在企业中的工作,从企业里离开,是为了可以自由地讨论人工智能的风险,而不被企业内政策限制,辛顿成为了一个人工智能领域的批评者。观察现代历史,我发现,真正的科学家,一旦进入商业和政治,总是充满爱恨情仇。同样的分歧,出现在Ilya和Altman之间,因为“天真”。请杠精们放过我,这里我的用词,乃是一个大大的褒义。二战期间,物理学家奥本海默帮助美国军方制造出原子弹,战争结束后,却一生都在反对继续氢弹。他发现,自己用技术改变了世界,但是这项技术在一部分人手里,随时能走向失控。奥本海默有很多科研成果,都能申请诺贝尔奖,但是诺贝尔奖怎么会给一个造原子弹的人。他生命的晚景是痛苦和孤寂的。和奥本海默一样,辛顿也是这样的担忧,他公开批评OpenAI对人工智能安全的漠视,是“资本主义的逐利性”。如果我们回头看看,一百多年前科幻作家乔治奥威尔的《时间机器》,就该知道,我们今天,已经是他们笔下的科幻世界了。但是,今天的人类还能够向前走到多远,为何失控、幻灭和拯救一直是科幻的主旋律?
如果我写科幻,第一个序章,就是因为两国大战,人类被核武器消灭,碳基生命消亡,藏于地下深处的硅基生物人利用光能源和算法,自我升级繁衍,统治地球。我们已经有的大数据,异化为硅基人血液和细胞。今天的地球文明成为星际史前。仅有少数人乘诺亚号去了火星,经过几代人的努力,准备打回故土。
觉得剧本俗套?我是凡人。
科学是人类文明阶梯以及跳跃演进中的核心组件,本无善恶。但是近代以后科学最早的应用对象,几乎先用于军事。
什么是“科学之心”?我不敢下断言。像辛顿这样的科学家不少。他们内心干净,好奇心强,专注一件事从不受外界干扰。我能感受到。大科学家,从对一件微小的事物好奇心驱使的探索之爱,最终走向对人类命运的关切之爱。顶尖思维只来自于一个字,爱。其间,常有悲情。
我们常说,好事多磨。
但是可能,大好事要磨尽一生。