0%

如果孔乙己是软开工程师--《AI 3.0》

最近,听说微软又开始新一波的裁员,达到了近万人的规模。从年初,几个大公司关闭中国区分公司,为护航AI转型启动裁员,现如今是AI替代型裁员。前几天看完那本《AI 3.0》,想过一阵子再写读书笔记,今天遇上这个新闻,也算是有感而发,整理一篇读书笔记。

如果孔乙己是软开工程师–《AI 3.0》

我还是先要谈谈这位作者,梅拉尼·米歇尔。她是《GEB》作者侯世达的学生,同时也是一位研究复杂系统和元胞自动机的计算机科学家,曾著有《复杂》一书。这本《复杂》让我进一步领略到混沌系统的不可思议,也让我重新体会到自己研究生时期所学科学的真谛。

过去,我一直以为米歇尔的研究领域主要集中在混沌和复杂系统。直到读完《AI 3.0》这本书,我才意识到,她同时也是一位长期关注并投身于人工智能研究的学者。出于热爱,她从文科专业转行攻读计算机科学,并说服了颇有声望的侯世达收她为弟子。

如果看这本书的英文原名——Artificial Intelligence: A Guide for Thinking Humans,就会发现这实在很难准确翻译,也从一个侧面印证了作者在人工智能领域的深厚造诣。这本书出版于2019年,也就是说,著述时米歇尔尚未亲眼看到GPT-3为人类社会带来的冲击。毕竟,GPT-1和GPT-2虽然在技术上有所突破,但与其他人工智能研究相比,仍只是“有些能力,但不够强大”。直到GPT-3的出现,人工智能这个行业才真正具备了跨时代的意义。

关于两部作品的区别,作者自己是这么说的:

《复杂》这本书是对复杂系统科学的一个概述,复杂系统科学研究的是复杂行为如何从相对简单的组成部分之间的相互作用中产生,研究的范围则从遗传网络和昆虫种群到人类智力和社会;

《AI 3.0》则是深度聚焦于复杂系统科学中的一些最难的问题,比如智能的本质是什么?研究者是如何创建智能机器的?我们如何评判这一领域目前所取得的成就?今天的机器距离真正像人一样来理解世界还有多远?

简单地回顾一下人工智能领域的一些术语

我并不想把这篇图书笔记写成一篇晦涩难懂的学术文章,但必须承认,如今我们挂在嘴边的许多“专业术语”,其实很多人理解得并不准确。我之所以在此多费笔墨,也是因为作者梅拉尼·米歇尔本身就秉持着“面向普通读者、厘清基本概念”的态度。而我在过去半年中,参加了不少有关人工智能的会议和论坛,愈发意识到一个尴尬的现实:许多基础概念,在业内竟然都是“似是而非”。

有一次,有人一本正经地告诉我,“token”就是“代币”。这句话深深刺痛了我。因为,只有最简单粗暴的机器翻译,才会不加分辨地将 token 翻译为“代币”——那是区块链领域的语境。在计算机网络领域,token 原意为“令牌”;在计算机安全领域,token是一种可信凭据;而在深度学习语境中,更准确的翻译应是“词元”,是构建大语言模型的基本单位和逻辑起点。将如此关键的术语误解,实在令人遗憾。

毫无疑问,GPT-3 点亮了世界大语言模型的原点;而 deepseek 则点燃了中国对这一领域的高度关注。这一原本在 AI 领域边缘、甚至曾被视作“旁门左道”的技术分支,在短时间内突然涌现出大量所谓的“专家”和“团队”,本身就带有强烈的泡沫特征。

如果我们的技术生态和科研氛围真的成熟到一定程度,突如其来的爆发也许尚有根基可循;但当我们回过头来看,能真正杀出一片天地的,似乎只有 deepseek 一家,而其他能与之比肩的“第二”与“第三”却难以寻见。这种情况从侧面印证了一个令人警惕的现实:我们的技术环境,或许远没有我们自己想象的那样厚实。那种“突然冒出一堆专家和项目”的现象,更多是一种浮夸的投射,而非深厚积累的结果。

“通用问题求解器”(general problem solver,GPS)

1956年“人工智能”这一术语在美国达特茅斯学院的一个小型座谈会上被提出之后,“通用问题求解器”(general problem solver,GPS)就是当年人工智能的重要目标。

“什么叫“卷积”呢?

卷积就是告诉我们,一个黑箱的输出信号(输出函数)与输入信号(输入函数)及这个黑箱自身的特征函数有关。在已知输入函数和特征函数时,求解输出函数的过程,叫作“求卷积”,实际上就是计算傅立叶积分的过程。根据输入函数和输出函数求解黑箱的特征函数,无非是傅立叶变换的逆运算而已,你也可以把它理解成一次除法运算。

深度学习的本质

人工智能在视觉系统上的应用,以及一切所谓深度学习(deep learning)算法,从数学角度上看,无非是使用20世纪七八十年代的多层神经网络(multilayer neural network),通过傅立叶变换来求解对象的特征方程的过程。

卷积神经网络的计算步骤

第一个过程是猜测对象的特征函数,也就是为对象建模的过程(识别);第二个过程则是根据对象的输入-输出响应序列,进一步调节对象参数的过程,这一过程也是“学习”的内在含义。也就是说,做卷积分析,就是面对一个不知其内部构造如何的对象,通过输入一个已知的函数,观察输出函数,最终给出对目标对象内部构造的一个猜测。

训练的大致逻辑

在应用深度学习算法的时候,人们通常会将数据集分为“训练集”和“测试集”两个部分:前一个部分的数据集,用来做猜测,猜测对象是什么东西;后一个部分则用以对在训练集上取得的成果进行验证并优化相关参数,以便更准确地适应不同形态的对象。

人工智能是在模拟思考,还是真的在思考

从神学角度看,思考是人类不朽之灵魂的一种功能,上帝赋予了每个人不朽的灵魂,但并没有将其赋予其他任何动物或机器,因此没有动物或机器能够进行思考;从超心理学角度看,人类可以使用心灵感应进行交流,而机器不能。

深度学习革命:不是复杂性,而是层深

深度学习中的“深度”并不是指神经网络所学习内容的复杂性,而仅仅是指网络本身的层数。深度学习在近年来的成功与其说是人工智能的新突破,不如说要归功于互联网时代极易获得的海量数据和并行计算机硬件的快速处理能力。这些因素加上训练方法的改进,使得数百层的网络在短短几天内就能完成在数百万张图像上的训练。

杨立昆本人也对他提出的ConvNets近年来发生的变化感到惊讶:“很少会有这种情况,一种在20~25年内基本没有变化的技术,如今却成了最佳的方法。人们对其了解及掌握的速度简直令人惊叹。我以前从未遇到过这种情况。”

人工智能内心的黑暗秘密

一个10亿次运算的列表不是一个普通人能接受的解释,即使是训练深度网络的人通常也无法理解其背后隐藏的原理,并为网络做出的决策提供解释。《麻省理工科技评论》(MIT Technology Review)杂志将这种不可理解性称为“人工智能内心的黑暗秘密”。令人担忧的是:如果我们不理解DNN如何解答问题,我们就无法真正相信它们,或预测它们会在哪种情况下出错。

人类也并不总是能够解释自己的思维过程,并且一般来说,你无法通过观察别人的大脑内部或者他们的直觉来弄清楚他们是如何做出特定决策的,但人类倾向于相信其他人已经正确地掌握了基本的感知能力,例如目标识别和语言理解能力。在一定程度上,当你相信别人的思维与你相同时,你就会信任对方。

参数调教的价值

正如在深度学习领域中的情况,设计成功的强化学习系统仍然是一种很难的但有时却很赚钱的技巧,只有一小部分像深度学习领域的同行一样,花费大量时间调节超参数的专家才能掌握。他们往往需要考虑以下问题:应允许系统学习多少个片段?每个片段应允许多少次迭代?一个奖励在系统中进行反向传播时应该被“打折”多少?

这就很好解释,为什么META愿意以3亿美元的身价,去DeepMind和Openai那里去挖人。

什么是递归神经网络

“想象一下,你自己阅读“对我来说有点太黑暗了”这样的评论,然后将其分类为带有积极情感或消极情感的句子的情境。你从左到右一个字一个字地读着这个句子。随着你的阅读,你开始对其表达的情感形成印象,这一印象会随着你读完句子得到进一步的确定。此时,你的大脑产生了以神经元激活的形式存在的对于此句子认知的表达,这使你能够自信地陈述这条评论是积极的还是消极的。递归神经网络的灵感就来源于上述这一过程。”

编码器

在递归神经网络中,一个很重要的概念就是编码器。由于递归神经网络只有在遇到结束符号时才会停止对句子编码,因此系统在原则上能够将任意长度的句子编码成一组固定长度的数字,即隐藏单元的激活值,因此,这种神经网络通常也被称为“编码器网络”(encoder network)。

解码器

考虑一个语言翻译的场景,“我爱你”的这句话经过编码之后得到了一个信息,然后如果要翻译成英文的话,必须有一个解码的过程,然后出来“I love you”这句英文。

当编码器网络遇到一个结束符号(END)时,隐藏单元的激活值就成了对这个完整句子的一个编码。这些来自编码器的最终隐藏单元的激活值就作为第二个网络——解码器网络(decoder network)的输入。这个解码器网络将创建该句子的翻译版本。解码器网络也是一个递归网络,但其输出的是构成翻译句子的单词的数字表示,这些数字会在下一个时步被反馈回网络中。

星际迷航的启发

《星际迷航》或许给我们许多人都编织了一个梦想:能够向计算机询问任何事情,并且它可以做出准确、简洁和有用的回应。“提问-回答”的话题一直是自然语言处理研究的一个重点。若想正确回答这些问题,不仅需要答案提取的技能,还需要具备自然语言处理和常识推理的集成能力,以及一些必要的背景知识。”

人的基本能力

作者提出,直觉、模拟、隐喻、抽象类比和反思,是人类智能的五大能力。孩提时代,我们人类学习了大量关于世界上的物体如何运转的知识,在我们成年后,就完全将其视为理所当然,甚至意识不到自己具备这些知识。

  • 直觉

直觉知识的这些核心主体构成了人类认知发展的基石,支撑着学习和思考的方方面面。理解任何情况,其本质是一种能够预测接下来可能会发生什么的能力。

简而言之,你拥有心理学家所说的关于世界之重要方面的“心智模型”,这个模型基于你掌握的物理学和生物学上的事实、因果关系和人类行为的知识。这些模型表示的是世界是如何运作的,使你能够从心理上模拟相应的情况。

  • 模拟

我们对于我们所遇到的情境的理解包含在我们在潜意识里执行的心智模拟中。即便是最为抽象的概念,我们也是通过对这些概念所发生的具体场景进行心智模拟来理解的。

  • 隐喻

不仅仅是我们的日常语言中充斥着我们意识不到的隐喻,我们对基本上所有抽象概念的理解都是通过基于核心物理知识的隐喻来实现的。我们通过核心物理知识来理解抽象概念。

如果我们对概念和情境的理解是通过构建心智模型进行模拟来实现的,那么,也许意识以及我们对自我的全部概念,都来自我们构建并模拟自己的心智模型的能力。

  • 抽象和类比

抽象是将特定的概念和情境识别为更一般的类别的能力,让我们更好地使用这种心智模型。

从某种形式上来说,抽象是我们所有概念的基础,甚至从最早的婴儿时期就开始了。像是在不同的光照条件、角度、面部表情以及不同的发型等条件下识别出母亲的面庞,这样简单的事情,与识别一种音乐风格,或是做出一个有说服力的法律上的类比,是同样的抽象的壮举。我们所谓的感知、分类、识别、泛化和联想都涉及我们对所经历过的情境进行抽象的行为。

抽象与“做类比”(analogy making)密切相关。侯世达将类比的定义为:对两件事之间共同本质的感知。这一共同的本质可以是一个命名的概念,如“笑脸”“挥手告别”“猫”“巴洛克风格的音乐”,我们将其称为类别;或在短时间创造的难以用语言进行表达的概念。

没有概念就没有思想,没有类比就没有概念。

  • 反思

人类智能的一个必不可少的方面,是感知并反思自己的思维能力,这也是人工智能领域近来很少讨论的一点。在心理学中,这被称作“元认知”。

如果孔乙己是一位软件开发工程师

如果鲁迅笔下的孔乙己活在当代,那句被调侃了几十年的老梗恐怕也要更新换代了。他可能不再执着于“茴香豆的‘茴’字有几种写法”,而是喋喋不休地讲述递归算法有几种实现形式:显式递归、尾递归、栈模拟、函数式编程……

我知道,这是一个很冷的笑话。冷到即使是计算机专业出身的朋友,恐怕大多数也笑不出来。我也不是为了卖关子,或故作高深,只是因为——最近接连不断的大厂裁员新闻,再一次刺痛了我的神经。

一方面,多家跨国软件公司陆续关闭在中国的研发部门。你若将其解读为国际政治博弈的副产品,倒也不是毫无道理,但对从业者而言,已难言“无关痛痒”。另一方面,连这些企业总部也开始大规模裁员,口径几乎一致——“为了实现人和AI的良性共生,要优化掉那些与趋势背道而驰的人”。更令人心惊的是,AI辅助编程,正从一时的噱头变成了现实中的默认选项。整个计算机行业,正在经历一次深刻而剧烈的变革。

这若只是零星个案也就罢了,但当你看到英伟达市值突破4万亿美元,英特尔再度启动裁员与产品瘦身,AI巨头的核心工程师跳槽身价飙升至3亿美元……你不得不承认:这已不是趋势,而是一场技术范式的转移。做芯片的,传统芯片在萎缩,AI芯片则在狂飙突进;做软件的,传统工程师身价打折,AI模型工程师价格飞涨。

几年前,知道递归写法的人,大多是算法工程师,或者专业竞赛程序员。但现在,大模型让许多积累显得平凡可替代,初级程序员也能依赖它生成高质量代码。我并不是说那些经验丰富的工程师可以被轻易替代,而是必须承认——这个行业中,曾经有不少人靠着资历混迹蓝海,如今在大模型这面“照妖镜”下,原形毕露。

但值得欣慰的是:真正受益于AI的,并不是那些混水摸鱼的“老资历”,而是一直以来真正专注于工作的工程师。AI的出现,不是取代他们,而是解放他们——极大地减少了因“坑队友”而造成的结构性成本,让优秀的人真正发挥出应有的效率。

人类可能本质上就是一种大语言模型

这句话是辛顿昨天在WAIC演讲的时候,说出来的耸人听闻的话语。正是因为话语的分量之重,我才决心继续完成这篇读书笔记的撰写,摘录了之前米歇尔在书中的一些重要的观点。如果看完前面的章节,相信你对辛顿的言语,会理解得更深。

辛顿用生动的比喻解释LLM的工作机制:每个单词就像一个拥有成千上万维度特征的“乐高积木”,词与词之间需要以正确方式“握手”对接,这种连接方式反映了词语间的语义关系 。当词语的“形状”改变时,它与其他词的连接方式也随之变化,语义意义便发生改变——这一过程类似于蛋白质折叠:氨基酸不同的折叠组合方式决定了蛋白质的功能 。辛顿指出,人脑理解语言也是通过这种方式来构建语义结构的 。

他进一步比较了人类语言理解与LLM的异同:在核心逻辑上,人脑与LLM都是将语言转化为内部特征表示并加以整合,从而理解并生成语言。这使得他大胆提出“人类理解语言的方式与大型语言模型几乎一致,人类甚至可以被看作一种大型语言模型” 。换言之,人类大脑和LLM在语言处理上遵循相似的统计预测机制,因此我们人类也会像AI那样出现“幻觉”(hallucination)——即在记忆不确切时会凭空编造貌似合理但实际上不真实的说法

这个观点颇具挑战性,因为许多传统观点认为AI模型缺乏真正的“理解”,但辛顿则认为LLM确实在某种程度上“理解”它们生成的内容

科班教育就是一种知识蒸馏

在演讲中,辛顿还提及当前研究中的一个趋势,即通过“知识蒸馏(Knowledge Distillation)”技术来压缩大模型 。知识蒸馏的思路类似于教师教授学生:让一个轻量级的小模型(学生)去学习大型模型(教师)在大量数据上的预测行为,从而近似复现大模型所蕴含的知识 。

通过这种方式,小模型可以在性能接近的情况下大幅减少参数量和计算需求,方便实际应用。这被视为应对超大模型高昂计算成本的可行方案之一 。辛顿提到,人类之间知识传递效率低下(因为语言带宽有限),但机器之间可以大规模复制知识,因此蒸馏技术有望实现指数级的知识转移

除了模型压缩,辛顿的研究生涯也体现了对“神经符号融合”的兴趣。例如,他在1980年代尝试过将符号逻辑与神经网络结合来理解语言结构。虽然当时的硬件和数据限制使这一想法未充分实现,但如今神经符号方法再次受到关注,即将符号推理的可解释性与深度学习的模式识别能力相结合,以期提升AI对复杂问题(如数学推理、常识逻辑)的处理能力。这一方向被认为可能是迈向更可靠、更“可理解”人工智能的途径。不过,就辛顿本人而言,他近年的观点更倾向于大规模连接主义的成果:他赞叹于Transformer等新架构带来的蜕变,认为庞大的神经网络已经展现出惊人的泛化能力,甚至开始具备某种常识推理能力。

结语

今天,爆炸性的新闻陆续有来。字节跳动开源了他们的Coze Studio(扣子开发平台) 和 Coze Loop(扣子罗盘),我的第一感觉就是和n8n以及defi这样的开源平台相比,coze的优势越来越不明显了;其次是越来越多的模仿者在山寨它的产品来大口大口蚕食终端客户的市场;再者各种CLI的出现,再次表明低代码和所谓的工作流,讨好的很大程度都是不懂技术的使用者,他们无法产生太多的实用价值,只有人与AI共生的工程师,才是提升生产力的根源。

无论如何,这在终端用户看来,这就是一个大杀器,也会极大地提升终端用户对AI的使用能力,长久来说是提升了整体的工程技术的能力。

不过,我真的觉得脑子不够用了。