第393章免费，专业知识有点多_我的学习群里全是真大佬-00小说网

最新网址：www.00shu.la

    ps：这一堂课我是从姚先生的公开课视频上扒下来的，也是李东后续搭建大模型的基础，所以没办法一句话带过。

    进来的老人，正是姚先生。

    姚先生的背，有些弯可看着却不佝偻。

    图灵奖，这座计算机行业的诺贝尔奖就是他捧回华夏的。

    二十年前，他把美国的房子卖了，终身教职也辞了，一个人回到了水木。

    回来的第一件事，不是先去搭自己的实验室，而是给本科生开了一门当时国内压根没人开过的课。

    后来就有了姚班，又有了眼前这间教室所在的智班。

    这条路上能数得出名字的好苗子，十个里有八九，都是从他手底下走出来的。

    姚先生进了教室，就感觉今天班上的氛围有点不太对劲。

    底下的学生还在议论，不少人时不时回过头，往教室后排那个角落里看。

    他顺着那些目光看了过去。

    然后，就看见了李东。

    李东也正看着他。

    四目相对，姚先生脸上的皱纹舒展开来，冲他不动声色地点了点头。

    李东也笑着，点了点头。

    此时站在一旁的助教，已经把课件投到了智慧黑板上。

    屏幕一亮，大家这才把目光从李东身上收了回去。

    今天这节课，姚先生讲的是《人工智能应用数学》。

    这门课是从他当年那门《计算机应用数学》里拓展出来的。

    说起来这门课和田钢手里那个“AI for Math”，其实是反着来的。

    田钢琢磨的是让AI去替数学家打工，是拿AI去做数学。

    而姚先生这门课是拿数学把AI本身讲清楚。

    它凭什么能学会东西，它训练的时候脑子里到底在发生了什么，它为什么又时灵时不灵的。

    而这些对眼下的李东来说，正是他需要的。

    ……

    姚先生在黑板上画了一道曲线，上面稀稀拉拉点了七八个点。

    “我先问你们一个特别外行的问题，”他转过身带着点笑意，“七个点，我要拿一条曲线把它们全串起来，按你们高中学的几次的多项式够用？”

    底下有人小声答：“六次。”

    “对，六次就够，七个点七个系数，严丝合缝。”

    姚先生点了点头。

    “那我要是给它配上一百万个系数呢？”

    这下教室里安静了下来。

    姚先生这里其实就是在说AI模型了。

    如果模型的参数比已知的数据点还要多，为了死死踩中这七个点，这条曲线就势必会在空隙处剧烈震荡，把真实的走势扯得稀烂。

    这也是算法界永远绕不开的一道坎——偏差与方差的权衡。

    简单的说就是模型太简单了脑容量不够，这叫叫欠拟合。

    模型太复杂了又会把数据里那些干扰项当成真理给记下来，当你换道它没见过的新题时，它就会当场抓瞎，这就叫过拟合。

    参数越多，这过拟合的症状，理论上就越致命。

    几十年来，大家都是这么觉得的。

    “可现在的事，邪门就邪门在这儿。”

    姚先生在“一百万”那个数字底下画了道线。

    “我们今天拿来用的那些大模型，参数动辄上千亿，远比喂给它的数据还多。”

    “照理说它们早该过拟合到没法看了。”

    “可它们偏偏没有。”

    “它们不光没烂，反而学得一个比一个好。”

    他转过身在黑板上写下三个字。

    【为什么？】

    接下来，姚先生才真正进了正题。

    他要讲的是过参数化网络的损失景观。

    所谓损失景观，可以想象成一片起伏的山地。

    模型里每一个参数，都是一个能拧的旋钮，上千亿个旋钮拧出来的每一种组合，都对应着这片地面上的一个点，而这个点的海拔高低，就是模型在这种组合下犯的错有多大。

    对大模型的训练，就是从山上某处出发，顺着最陡的方向往下走，一步一步去找那片地势最低的点。

    这个往下走的法子，就叫做叫梯度下降。

    按理说旋钮一多，这片山地的地形就该复杂得吓人，陷阱遍地，随便掉到哪个坑里就再也出不来了。

    可数学告诉你的，这样不对！

    在参数足够多的时候，那片山地最低处的点，根本就不是一个单独存在的。

    它是连成一大片的谷底。

    你随便滚进哪一个里，几乎都能滚到一样低的地方去。

    “既然谷底连成了片，那问题就来了，”姚先生继续说道，“同样是滚到最低，梯度下降它会挑哪一个落脚？”

    这才是真正要命的地方。

    这上千亿个旋钮，能把训练数据完美拟合的组合，多到数不清。

    可梯度下降这么一路滚下来，它不是随便落，而是带着一种说不清道不明的偏好，专往那些最平、最简单的低点里去。

    这种没人明写、却实实在在起着作用的偏好，就叫隐式正则化。

    机器之所以没把噪声死记下来，不是因为有谁在拦着它，而是因为梯度下降这条路本身，就懒得往那些尖锐、复杂的坑里钻。

    至于它为什么懒，数学上是能给出一个说法的。

    当一张网络宽到极致的时候，它在训练里的一举一动，会退化成一种早就被研究透了的老东西——核方法。

    整个训练过程，近似于围着出发点做一次线性展开，网络几乎不挪窝，只在原地轻轻地晃。

    这套理论在圈子里有个名字，叫 NTK机制（神经正切核）。

    而这种“原地不动、只轻轻晃”的状态，则被形象地称作懒惰训练。

最新网址：www.00shu.la

第393章 免费，专业知识有点多

第393章免费，专业知识有点多