By: artificial intelligence

ChatGPT会突然觉醒,成为新的「终结者」吗?

全文约9400字,预计阅读时间19分钟 正文: 1942年,当著名科幻作家阿西莫夫在小说中提出“机器人三定律”时,肯定不会想到,AI和机器人的进展会那么慢,又会那么突然。 说慢的原因是,这都80年过去了,我们仍没有看到他所设想的机器人的落地,2024年最成功的家用机器人,是一台会被狗狗的便便轻易破防的扫地机器人。 但是发展速度却又很突然,2022年11月,ChatGPT上线,不到2年,人类社会如同被突然加速了一样,从硅谷的科技巨头到北京的小学生,人人都在聊AI,AI似乎成为了人类科技的助燃剂,有望帮助我们解决一系列的问题。远到宇宙的征途大海,近到人类梦想依旧的元宇宙,似乎都因为AI的兴起,有了新的可能。 到底,AI是如何从过去的只会围棋比赛和打DOTA,变成了今天的“万能”助理? 以及,终结者真的会到来吗?AI会在某个时刻突然觉醒,统治人类吗? 还有很多人疑惑:为什么感觉AI都火了两年,可是我觉得生活似乎也没有什么改变呢? 今天,我们就来聊一聊,2022 年突然“涌现”出来的AI,会不会毁灭人类,以及它会如何改变我们的未来。 01 突然“涌现”的AI,还仍是黑箱 要理解今天的AI和过往我们认知的AI,或者说影视作品里常见到的万能AI有何区别,需要解释三个词:涌现、Transformer架构和黑箱。 今天媒体在提到AI时,一般会提到另外一个词:大语言模型(Large Language Model),简称LLM。之所以这么叫是因为这些模型的参数都很大,一般起步就是10亿参数起。ChatGPT,如果对其进行技术分类的话,属于文本生成大模型的AI产品。文本生成大模型就是指这个大模型一般生成文字,无法生成图片或者视频。 目前也有专门用于图片生成和视频生成的大语言模型,它们的技术构架与文本生成模型有相似之处,但也有所不同。图片生成模型的产品如Midjourney已经开始商业化,视频生成模型如Sora、可灵等因为生成时间短、人物角色不可控等,还处于尝试阶段。 先说第一个词,Transformer架构,这是目前的文本生成大模型的主要技术基础之一,来源于谷歌于2017年发表的一篇论文《Attention Is All You Need》,这篇本来为了解决和优化机器翻译任务的论文,提出了一个新的神经网络结构——Transformer 架构。它适用于自然处理(NLP)领域,以注意力机制为核心。OpenAI的GPT模型就是基于Transformer架构构建的。 如果简单解释GPT架构的话,就是预测下一个词(Token)。比如给GPT模型一句话“明天看起来要___”,它会试图猜测划线部位应该是什么词语,会给出各种答案,而在人类的反馈训练后,它会倾向于给出“晴天”“下雨”等合理的词汇。 要注意的是,GPT说出“下雨”这个词,不代表它真正理解了这句话,它可能只是在无数种选择中,选择了人类最喜欢的那个回答。 也就是说,AI的理解,是一套高度复杂的模式识别和概率预测过程,基于对大量数据的统计分析,通过识别输入中的模式并生成相应的输出。AI没有真正的感知体验,也没有情感或意识参与其处理过程。 在OpenAI最初的GPT-1和GPT-2中,在基于一定数据和算力的训练下,大模型的表现还算不错,但是没有让大家为之惊喜的地步。很多情况下,系统仍需对特定任务进行调整才能获得好的效果。但到了GPT-3的时候,与GPT-2相比,模型的参数量翻了116倍,是一个拥有1750亿模型参数的大语言模型,模型的能力似乎突然就突破了奇点状态。 也就是说,当参数规模和机器算力达到如此惊人的规模后,AI的能力突然“涌现”了。 简单说来,这次的“涌现”就是大力出奇迹。 也就是说,数据量、算力、模型规模足够大之后,AI的能力确实会提升,这也是目前各家AI研发公司努力的方向。大模型的参数量在不断提升,比如Meta(前Facebook)的Llama3大模型参数就达到了405B,也就是4050亿参数的规模。规模如此之大,需要用到的GPU显卡数量也在不断增加。大家所熟知的科技狂人——伊隆·马斯克刚刚建立起了他的10万显卡算力集群,就是为了用更大的算力和参数量来训练和提升他旗下的公司xAI研发的大模型。 要注意的是,涌现虽然某种程度可以说是AI突破了某个奇点,但这个奇点,不是科幻作家弗诺·文奇所提出的“技术奇点”,也无法说明AI真的理解了这些内容,因为目前模型的内部原理对于我们来说仍然是个“黑箱”。 用目前在创业的AI大牛李沐的话来说,如今的大语言模型就像炼丹,需要把一些材料放进丹炉里面,然后用丹方去把丹炼出来。大模型的数据就是炼丹的材料,算力就是炼丹的火力,算法就是炼丹的丹方。但是,道士对于炼丹的技术细节是完全不理解的,就如同我们对于大模型里面的运作机制还没有搞明白一样,我们目前只知道输入和输出,但对于内部的技术机制还在研究中。 也正是因为对机制的完全不了解,2023年3月份,伊隆·马斯克、杰弗里·辛顿等上百位科技人士联合发表公开信,希望暂停训练比GPT-4更强大的AI系统至少6个月,因为他们担心超级智能出现。 虽然最终呼吁没有被响应,但这些人的担心也有一定道理——现在的AI是个黑箱,我们不知道会发生什么。 只是对于我们来说,可能有比暂停研发更保险的方法来控制AI。而且,技术的爆发一旦来临,也不是几封公开信就能拦得住的。 但是,回顾历史我们会发现,在科技史上,原理的研究走在发明之后是常有的事情,莱特兄弟发明飞机之后,可能在30年之后,也就是1930年左右,人类才算是搞清楚了飞机的原理。 技术一般都会走在研究的前面,这是常态,黑箱也没有那么可怕,Don’t Panic! 02 人类担心了几十年的AI觉醒,暂时不会出现 公开信只是今天的人类对于AI的恐慌的表现之一,AI觉醒、AI威胁论,这些在科幻电影和小说中都耳熟能详的桥段,也是轮番登场。 今天的AI,真的会突然觉醒,然后与人类为敌,甚至统治和消灭人类吗? 简单了解了今天的AI的机制,就会知道,科幻小说和电影中经常出现的“天网”“Matrix”,可能暂时是出现不了的。 今天的AI,暂时还不会突然觉醒,也不会想着去统治人类。 就如同我们上文所说,今天的AI的主要输出机制还是“猜测下一个单词或者文字”,从过往的上亿个数据集里,基于统计模式猜测人类可能最喜欢的那个,虽然看起来是生成了看似智能的回答,但是它们并不真正“理解”所处理的信息。还是上面举的例子——“明天可能会下雨”,AI并不理解明天和下雨代表了什么,只是因为“下雨”最常出现在这句话的结尾。 科幻作家特德·姜对此也有自己的观点:AI在说“对不起”的时候,并不理解对不起所代表的歉意和情绪,只是这个词可能是这个场景下最有可能出现的词汇。 还有就是,今天的AI,是一个完全只会响应输出的AI,并没有自主行动的能力或者欲望。如果人类不给它下命令,它什么也不会做。 我们可以假设下,如果它有了自主行为的欲望,并且有了要统治人类的想法,AI现有的能力是不是能够毁灭人类? 首先,AI需要更快速的成长,迅速增强自己的能力,这样才有可能实现自己统治世界的阴谋。 但是,它遇到的第一个问题是,“食物”不够了。训练GPT这样的文本生成大模型,使用的语料数据,是互联网上的数据、出版的书籍、新闻,以及各类高质量的文本数据。但是,其实到今天,人类有史以来积累的文本数据语料,已经差不多都喂给它了,才实现了现在这样的能力“涌现”。 肯定有人想到可以让AI生成数据,其实已经有部分厂商在尝试用人工合成或者AI生成的数据用于大模型的训练,不过,今年7月份《Nature》杂志上的一篇论文显示,用AI生成的数据训练AI,会让模型的能力下降,甚至模型崩溃,开始退化。生成的数据能用,但目前看来效果不显著,而且有风险。 然后还有算力的问题,也就是说,AI能力的提升需要大量英伟达或者其他科技公司生产的用于AI计算的专业显卡。普通显卡也不是不能用,就是效率比较慢,折损也比较大。即使是专业显卡,如何把上万张显卡组合在一起,并且有效减少其中的能力折损,也是现在还没有完全解决的问题。目前比较高效的算力叠加方式是显卡集群。伊隆·马斯克刚刚搭建了他的拥有10万张H100显卡的超级集群,这应该是目前世界最强大的AI训练集群。 但是马斯克的公司训练出的大语言模型xAI,能力也很一般,果然只有算力也是不行的。 对于不少公司甚至国家来说,10万显卡集群的难点除了要解决显卡的数据交换问题,还需要一个能稳定的发电设施,单一数据中心供电或者分布式供电,前者对基建能力的要求较高。以马斯克的10万卡集群来算,10万卡集群所需的关键IT部件的总功率约为150MW,相比之下,美国最大的国家实验室超算El Capitan的关键IT功率只有30MW,约为五分之一,可谓是相形见绌。如果粗略计算,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。 这还是目前级别的AI的耗电量,也就是说,影视剧中那种AI突然觉醒,将整座城市的电力一次性消耗的场景很难发生。因为,觉醒后的AI需要的电量可能要远大于一座城市的供电量。 但,即使AI通过某种方式解决了数据、算力和电子的问题,就当下的AI而言,与现实世界的隔阂,仍旧是它很难统治世界的一个主要原因。 今天的AI,其实还不理解真实世界,它最擅长的反而是创作内容,比如文字、图片或者视频。 为什么创作文字是最容易的?因为文字是一维的交流方式,甚至在某种意义上是比较低效的一种交流方式。现实世界反倒是最复杂的,在GPT之后不少专家提出了世界模型的概念,也正是因为这个原因,让AI理解文字是最容易的,理解世界反倒是最难的。 自动驾驶花了不少年,现在才可以在部分城市实现有限的无人驾驶,而机器人要面对的现实情况比自动驾驶复杂很多,这也是为什么机器人还没有很快将人类取代,而今天最普及的机器人是扫地机器人。这也是为什么,AI没有像人类所担心的那样去取代操作工人,而是差点取代了文字创作者。 现实世界的三维交互,对今天的AI来说,还是一个做不到的任务。 所以,今天的AI无法制造一支机器人部队消灭人类。 如果它真的想毁灭人类,最快的方式是取得各国的武器发射权限,发射核武器。前提是,有人下达了这个命令,并且AI遵守了这个命令,还突破了各种实验室和网络的限制,拿到了发射权限。但大家都知道,今天的AI,连脏话和色图都限制了。 但是AI仍然是有机会毁灭人类的,只是是一种让人类自我毁灭的方式。 网络上遍布的虚假新闻、deepfake(深伪技术),已经使人类内部产生了很大的隔阂和理念冲突。 这反倒是目前的AI最有可能毁灭人类的方式——让人类死于内战。但,即使没有AI,人类也是有可能灭亡在自己手里的,所以,放宽心吧……≧ω≦ 03 今天的AI,能取代人类的工作了吗? 既然AI暂时不会觉醒,也暂时不会消灭人类。那我们进入下一个问题。今天的AI,可以取代人类了吗? 或者说,今天的AI,可以取代人类的工作了吗? 简单点说,可以取代一部分工作了,但核心不是取代,而是增强人类。具体的话,则要看具体的工作内容和场景。 我们可以从当下AI主要的几个不同的类型来看今天的AI的技术能力以及成熟度。 今天大家所讨论的AI以及大模型,目前可以简单分为三类:文本生成模型、图片生成模型、视频/音频生成模型。 成熟度较高的文本类AI产品 主要是以OpenAI的 GPT系列为代表,其他包括 Claude、Gemini、Llama、文心一言、通义千问、kimi等国内外的模型产品,技术比较成熟,已经在很多现实的场景落地,进入了商业化。 比如国外的ChatGPT、国内的kimi、豆包,都是用户使用较多的产品,主要功能以文字对话为主,配合上不错的提示词,AI可以帮助你进行文本翻译、文章解读、句子润色、邮件创作等办公或者学习场景下常见的一些文本工作。目前文本类AI的能力,可以认为是一名通才大学生的能力,懂多国语言,语文也不错,但数理化可能会差一些,很擅长去讲解一些概念,但做数学题不太行。 发微博/小红书、回邮件、翻译英文文章、脑暴,甚至创作剧本和小说的部分内容,这是笔者的朋友使用文本类AI的一些场景。 已经开始商业化的图片生成产品 图像生成模型,以Midjourney、Stable Diffusion、DALL-E 3为代表,主要以生成图像为主,也就是所谓的 AI画手,也有了一些商业化场景落地。 一些游戏场景、书籍封面、以及电商商品的演示图都开始使用AI生成的图片,2023年国内比较火的一款应用“妙鸭相机”也是AI生成图片,不过是用图片生成图片。 图片生成产品目前的主要问题是成功率不高,类似于游戏的“抽卡”,需要跟AI对话很多次才能生成一张满意的图片,而且现阶段图片生成AI对于人类的自然语言理解还不如文本生成AI那么好,需要掌握一些写作咒语的技巧才可以。 还在尝试阶段的视频、音乐生成类产品 春节期间最火爆的一款AI产品,无疑就是OpenAI的Sora了,这是一款文本生成视频的AI产品。由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。但是,到现在Sora还没有面向大众开放。 而其他的视频生成产品,都在追赶Sora的路上,Pika、Runway以及国内的可灵、Pixverse、豆包的视频生成模型等,从3秒时长开始慢慢追赶,目前是10秒左右,距离商业落地尚有一段距离。 音频目前主要分为两类:文本自动转为语音的 TTS 类,以及以Suno、Udio为代表的音乐生成产品。 文本转语音产品已经在很多商业场景落地,AI读小说、给视频配语音甚至AI自动生成播客等。 而音乐生成产品还只是在尝鲜阶段,而它们面临的版权问题,也比文本生成产品要严重得多。 差生工具多,这些工具都可以试试! 大语言模型的竞争,发展到2024年9月,正逐渐变成了科技巨头们如谷歌、微软、Meta和Amazon的竞争。国内目前还是巨头+新秀百花齐放,但可能不久后也会有新的格局变动。毕竟,大模型研发这件事太烧钱了,又迟迟没有见到好的商业落地。 怎么说呢,这个发展倒是完美符合科幻作家们的预测。科技巨头垄断一切,打倒资本巨头! 这次,我们按照热门产品类型,来介绍下国内外AI相关的产品。如果把它们都体验一遍的话,对当下能做什么不能做什么可能有更直观的感受。 但,也没必要都体验啦口胡! ChatGPT https://chatgpt.com OpenAI基于自己研发的大语言模型GPT系列推出的AI聊天产品,是目前世界上用户数最多的AI产品之一,也正是它,引发了全世界对于AI的关注和讨论,以及这一波的AI科技热潮。 ChatGPT背后,是OpenAI推出的一系列GPT模型,目前性能最强大的是GPT-4和GPT-4o。ChatGPT目前主要是文本聊天,无法生成视频或者图片(部分付费用户可以生成图片),但可以识别图片。 OpenAI的文本生成图片的大模型为DALL-E 3,2023年发布,用户只要输入文字描述,就可以生成相应的图片。 OpenAI的文本生成视频的大模型为Sora,在2024年2月发布了部分演示视频,但尚未对普通用户开放。 微软重金投资了OpenAI,两家公司目前是强绑定关系。 Claude https://claude.ai Anthropic公司基于自己的大语言模型Claude系列推出的AI聊天产品,背后的大模型Claude 3.5是目前能力不亚于GPT-4o的文本生成大模型。 这家公司一直宣称”宪政AI”(Constitutional AI),可能是目前在AI与人类对齐方面做得比较好的公司之一。很多人认为Claude很擅长用来做文本生成或者代码生成。 亚马逊投资了Anthropic公司,拥有不少股权。 Gemini https://gemini.google.com 科技巨头谷歌基于自家的大语言模型Gemini系列推出的AI聊天产品。 受限于大公司立场和自身的商业模式,谷歌前期在AI上的战略不是很激进,毕竟,在发布会上演示的AI产品出现了事实信息错误就导致谷歌股票大跌,也因此被OpenAI抢先,如今正在紧密追赶中。 谷歌目前旗下的很多产品中都可以体验到Gemini的功能,比如Google docs、Gmail等。

Read More »

续梦

I am a die-hard enthusiast of large language models, skilled at utilising these massive models to assist people in completing their works. One day, I was entrusted with a particularly significant project – to continue the writing of ‘Dream of the Red Chamber’! Watch how I train a large language model named “Cao Xueqin”.
我是一个大语言模型的骨灰级玩家,擅长利用大模型,帮人们进行作品续写。有一天我接到一个特殊的大项目——续写《红楼梦》的结局!且看我是怎么训练出名为“曹雪芹”的大语言模型吧。

Read More »

传火者

Robots have begun to infiltrate human society and life, assisting humans in completing daily tasks, but robots also come in varying qualities. The Flame Bearer needs to decide whether to continue protecting humans or to defect to the Extinguisher. 机器人开始渗透人类社会与生活,辅助人类完成日常任务,但机器人也有好坏之分。传火者需要决定是继续守护人类,还是投靠熄火者。

Read More »