最新网址:www.00shu.la
ps:这一堂课我是从姚先生的公开课视频上扒下来的,也是李东后续搭建大模型的基础,所以没办法一句话带过。进来的老人,正是姚先生。
姚先生的背,有些弯可看着却不佝偻。
图灵奖,这座计算机行业的诺贝尔奖就是他捧回华夏的。
二十年前,他把美国的房子卖了,终身教职也辞了,一个人回到了水木。
回来的第一件事,不是先去搭自己的实验室,而是给本科生开了一门当时国内压根没人开过的课。
后来就有了姚班,又有了眼前这间教室所在的智班。
这条路上能数得出名字的好苗子,十个里有八九,都是从他手底下走出来的。
姚先生进了教室,就感觉今天班上的氛围有点不太对劲。
底下的学生还在议论,不少人时不时回过头,往教室后排那个角落里看。
他顺着那些目光看了过去。
然后,就看见了李东。
李东也正看着他。
四目相对,姚先生脸上的皱纹舒展开来,冲他不动声色地点了点头。
李东也笑着,点了点头。
此时站在一旁的助教,已经把课件投到了智慧黑板上。
屏幕一亮,大家这才把目光从李东身上收了回去。
今天这节课,姚先生讲的是《人工智能应用数学》。
这门课是从他当年那门《计算机应用数学》里拓展出来的。
说起来这门课和田钢手里那个“AI for Math”,其实是反着来的。
田钢琢磨的是让AI去替数学家打工,是拿AI去做数学。
而姚先生这门课是拿数学把AI本身讲清楚。
它凭什么能学会东西,它训练的时候脑子里到底在发生了什么,它为什么又时灵时不灵的。
而这些对眼下的李东来说,正是他需要的。
……
姚先生在黑板上画了一道曲线,上面稀稀拉拉点了七八个点。
“我先问你们一个特别外行的问题,”他转过身带着点笑意,“七个点,我要拿一条曲线把它们全串起来,按你们高中学的几次的多项式够用?”
底下有人小声答:“六次。”
“对,六次就够,七个点七个系数,严丝合缝。”
姚先生点了点头。
“那我要是给它配上一百万个系数呢?”
这下教室里安静了下来。
姚先生这里其实就是在说AI模型了。
如果模型的参数比已知的数据点还要多,为了死死踩中这七个点,这条曲线就势必会在空隙处剧烈震荡,把真实的走势扯得稀烂。
这也是算法界永远绕不开的一道坎——偏差与方差的权衡。
简单的说就是模型太简单了脑容量不够,这叫叫欠拟合。
模型太复杂了又会把数据里那些干扰项当成真理给记下来,当你换道它没见过的新题时,它就会当场抓瞎,这就叫过拟合。
参数越多,这过拟合的症状,理论上就越致命。
几十年来,大家都是这么觉得的。
“可现在的事,邪门就邪门在这儿。”
姚先生在“一百万”那个数字底下画了道线。
“我们今天拿来用的那些大模型,参数动辄上千亿,远比喂给它的数据还多。”
“照理说它们早该过拟合到没法看了。”
“可它们偏偏没有。”
“它们不光没烂,反而学得一个比一个好。”
他转过身在黑板上写下三个字。
【为什么?】
接下来,姚先生才真正进了正题。
他要讲的是过参数化网络的损失景观。
所谓损失景观,可以想象成一片起伏的山地。
模型里每一个参数,都是一个能拧的旋钮,上千亿个旋钮拧出来的每一种组合,都对应着这片地面上的一个点,而这个点的海拔高低,就是模型在这种组合下犯的错有多大。
对大模型的训练,就是从山上某处出发,顺着最陡的方向往下走,一步一步去找那片地势最低的点。
这个往下走的法子,就叫做叫梯度下降。
按理说旋钮一多,这片山地的地形就该复杂得吓人,陷阱遍地,随便掉到哪个坑里就再也出不来了。
可数学告诉你的,这样不对!
在参数足够多的时候,那片山地最低处的点,根本就不是一个单独存在的。
它是连成一大片的谷底。
你随便滚进哪一个里,几乎都能滚到一样低的地方去。
“既然谷底连成了片,那问题就来了,”姚先生继续说道,“同样是滚到最低,梯度下降它会挑哪一个落脚?”
这才是真正要命的地方。
这上千亿个旋钮,能把训练数据完美拟合的组合,多到数不清。
可梯度下降这么一路滚下来,它不是随便落,而是带着一种说不清道不明的偏好,专往那些最平、最简单的低点里去。
这种没人明写、却实实在在起着作用的偏好,就叫隐式正则化。
机器之所以没把噪声死记下来,不是因为有谁在拦着它,而是因为梯度下降这条路本身,就懒得往那些尖锐、复杂的坑里钻。
至于它为什么懒,数学上是能给出一个说法的。
当一张网络宽到极致的时候,它在训练里的一举一动,会退化成一种早就被研究透了的老东西——核方法。
整个训练过程,近似于围着出发点做一次线性展开,网络几乎不挪窝,只在原地轻轻地晃。
这套理论在圈子里有个名字,叫 NTK机制(神经正切核)。
而这种“原地不动、只轻轻晃”的状态,则被形象地称作懒惰训练。
最新网址:www.00shu.la