全文约9400字,预计阅读时间19分钟
正文:
1942年,著名科幻作家艾萨克·阿西莫夫(Isaac Asimov)1在小说中提出“机器人三定律”时,肯定不会想到,AI和机器人的进展会那么慢,却又那么突然。
说慢的原因是,已经80年过去了,我们仍没有看到他所设想的机器人出现,2024年最成功的家用机器人,是一台会被狗狗的便便轻易“破防”的扫地机器人。
但是AI的发展又很突然。2022年11月,ChatGPT上线,不到两年,人类社会好像突然加速了一样,从硅谷的科技巨头到北京的小学生,人人都在聊AI,AI似乎成了人类科技的助燃剂,有望帮助我们解决一系列问题。远到宇宙征途的星辰大海,近到人类依旧梦想的元宇宙,似乎都因为AI的兴起,有了新的可能。
所以说,AI是如何从过去的只会打围棋比赛和DOTA等单一模式,变成今天的“万能”助理呢?
以及,“终结者”真的会到来吗?AI会在某个时刻突然觉醒主体意识、统治人类吗?
还有很多人疑惑:为什么AI都火了两年,可自己日常生活似乎也没有什么改变呢?
今天,我们就来聊一聊,2022年突然“涌现”的AI会不会毁灭人类,以及它会如何改变我们的未来。
01 突然“涌现”的AI,仍是黑箱
要理解今天的AI和过往我们所认知的AI——或者说影视作品里常见的万能AI——之间有何区别,需要解释三个词:涌现、Transformer架构和黑箱。
现今媒体在提到AI时,一般会提到另外一个词:大语言模型(Large Language Model),简称LLM。之所以如此命名,是因为这些模型的参数都很大,一般起步就是10亿参数。ChatGPT,从技术分类角度来说,属于文本生成大模型的AI产品。文本生成大模型是指这个大模型一般用于生成文字,无法生成图片或者视频。 目前也有专门用于图片生成和视频生成的大语言模型,它们的技术构架与文本生成模型有相似之处,但又有所不同。图片生成模型的产品,如Midjourney,已经开始商业化;视频生成模型如Sora、可灵等则因为生成时间短、人物角色不可控等,还处于尝试阶段2。
先说说Transformer架构。这是目前文本生成大模型的主要技术基础之一,来源于谷歌(Google)研究团队在2017年发表的一篇论文“Attention Is All You Need”,这篇本来为了解决和优化机器翻译任务的论文,提出了一个新的神经网络结构——Transformer架构。它适用于自然语言处理(Natural Language Processing,NLP)领域,以注意力机制为核心。OpenAI的GPT模型就是基于Transformer架构构建的。
如果简单解释GPT架构的话,就是预测下一个词(Token)。比如给GPT模型一句话,“明天看起来要___”,它会试图猜测画线部分应该是什么词语,会给出各种答案,而在人类的反馈训练后,它会倾向于给出“晴天”“下雨”等合理的词语。
要注意的是,GPT说出“下雨”这个词,不代表它真正理解了这句话,它可能只是在无数种选择中,给出了人类最喜欢的那个回答。
也就是说,AI的理解,是一套高度复杂的模式识别和概率预测过程,基于对大量数据的统计分析,通过识别输入中的模式并生成相应的输出。AI没有真正的感知体验,也没有情感或意识参与其处理过程。
OpenAI最初研发的GPT-1和GPT-2,在基于一定数据和算力的训练下,呈现的效果还算不错,但是没有到让大家为之惊喜的程度。很多情况下,系统仍需对特定任务进行调整才能获得好的效果。但到了GPT-3的时候,与GPT-2相比,其模型的参数量翻了116倍,是一个拥有1750亿模型参数的大语言模型,其处理能力似乎突破了“奇点”状态。
也就是说,在参数和机器算力达到如此惊人的规模后,AI的能力突然“涌现”了:
- 模型通过很少的示例就能快速学习并执行新任务。这种能力并非直接训练的结果,而是在处理海量文本数据的过程中自然形成的。
- 任务泛化。GPT模型能够执行许多并未经过专门训练的任务,如翻译、摘要和问答等。这种多功能性也是在大规模文本的处理过程中逐渐形成的。
- GPT模型还展现出了一定程度的推理能力。它能够进行逻辑推理和常识推理,这些能力远远超出了简单的文本预测。
- 有了基础的“创造性”。GPT模型能够生成原创内容,如故事,诗歌,甚至计算机代码。这不仅仅是对已有内容的重组,更是对语言模式的深入理解和灵活运用的结果。
简单来说,这次的“涌现”是大力出奇迹。
在数据量、算力、模型规模足够大之后,AI 的能力确实会提升,这也是目前各家AI研发公司努力的方向。大模型的参数量在不断提升,比如Meta(前Facebook)的Llama 3.1大模型参数就达到了405B——也就是4050亿参数的规模。参数规模如此之大,需要用到的GPU(Graphics Processing Unit,图形处理器)数量也在不断增加。大家所熟知的科技狂人——埃隆·马斯克(Elon Reeve Musk)3刚刚建立起他的10万显卡算力集群Colossus,就是为了用更大的算力和参数量来训练和提升他旗下的公司xAI研发的大模型。
要注意的是,“涌现”虽然在某种程度上可以说是AI突破了某个奇点,但这个“奇点”,不是科幻作家弗诺·文奇(Vernor Steffen Vinge)4所提出的 “技术奇点5”,也无法说明AI真的理解了这些内容,因为目前模型的内部原理对我们来说仍然是个“黑箱”。
用正在创业的AI专家李沐的话来说6,如今的大语言模型就像炼丹,需要把一些材料放进丹炉里面,用丹方去把丹炼出来。大模型的数据就是炼丹的材料,算力就是炼丹的火力,算法就是炼丹的丹方。但是,道士对于炼丹的技术细节是无法理解的,就如同我们还没有搞明白大模型的内部运作机制一样。目前,我们只知道输入和输出,其内部的技术机制还在研究中。
也正是因为不了解机制,2023年3月,埃隆·马斯克、杰弗里·辛顿(Geoffrey Everest Hinton)7等上百位科技人士联合发表公开信8,希望暂停训练比GPT-4更强大的AI系统至少6个月,因为他们担心超级智能的出现。
虽然最终呼吁没有被响应,但这些人的担心也有一定道理——现在的AI是黑箱,我们不知道会发生什么。只是对于我们来说,可能有比暂停研发更保险的方法来控制AI。而且,技术爆发一旦来临,也不是几封公开信能拦得住的。
但是,我们回顾历史时会发现,在科技史上,原理的研究走在发明之后是常有的事情。莱特兄弟(Orville Wright,Wilbur Wright)发明飞机之后,还要等大约30年——也就是1930年左右,人类才算是搞清楚了飞机的原理。
技术一般都会走在研究的前面,这是常态,黑箱也没有那么可怕,Don’t Panic9!
02 人类担心了几十年的AI觉醒,暂时不会出现
公开信只是今天的人类对AI恐慌的表现之一,AI觉醒、AI威胁论,这些在科幻电影和小说中耳熟能详的桥段也层出不穷。
今天的AI,真的会突然觉醒,然后与人类为敌,甚至统治和消灭人类吗?
简单了解了如今AI的机制,你就会知道,科幻小说和电影中经常出现的“天网”“Matrix10”,暂时不会出现。AI也不会突然觉醒,想着统治人类。
如上文所说,目前AI的主要输出机制还是猜测下一个单词或者文字,即基于统计模式,从过往的上亿个数据集里,猜测人类最想要的那个。它们虽然生成了看似智能的回答,但是并不真正“理解”所处理的信息。如上文所举的例子——“明天可能会下雨”,AI并不理解“明天”和“下雨”代表着什么,只是因为“下雨”常常出现在这句话的结尾。
科幻作家特德·姜(Ted Chiang)11对此也有类似的观点12:AI在说“对不起”的时候,并不理解“对不起”所代表的歉意和情绪,它只是在这种场景下最有可能出现的词汇。
此外,今天的AI,是一个只会响应输出的AI,并没有自主行动的能力或者欲望。如果人类不给它下命令,它什么也不会做。
不过我们可以假设,如果AI有了自主行为的欲望,并且有了要统治人类的想法,以其现有的能力是否足够毁灭人类?
首先,AI需要更快速地成长,迅速增强自己的能力,这样才有可能统治世界。
在此过程中它会遇到的第一个问题是,“食物”不够。训练GPT这样的文本生成大模型,所使用的语料数据是互联网上的数据、已出版的书籍、新闻和其他各类高质量的文本数据。但是,人类有史以来积累的文本数据语料,已经差不多都“喂”给它了,才实现了如今的能力“涌现”。
肯定有人想到可以让AI生成数据,再拿来训练AI。不过,2024年7月Nature杂志上的一篇论文13显示,用AI生成的数据训练AI,会让大模型的能力下降,甚至导致大模型退化、崩溃。生成的数据虽然能用,但目前看来效果不显著,而且有风险。
然后是算力问题,也就是说,AI能力的提升需要大量英伟达(NVIDIA)或者其他科技公司生产的用于AI计算的专业显卡。普通显卡也能用,但是效率比较慢,折损也较大。即使是专业显卡,如何把上万张显卡组合在一起,并且有效减少其中的算力折损,也是尚未完全解决的问题。目前比较高效的算力叠加方式是显卡集群。埃隆·马斯克搭建的拥有10万张H100显卡的超级集群Colossus,应该是目前世界上最强大的AI训练集群。
但是马斯克的公司训练出的大语言模型xAI,能力也很一般,果然只有算力是不行的。
对于不少公司甚至国家来说,想要搭建显卡集群,除了需要解决显卡的数据交换问题,还需要一个稳定的发电设施,采取单一数据中心供电或者分布式供电,前者对基建能力的要求很高。以马斯克的Colossus集群来算,所需的关键IT部件的总功率约为150兆瓦,相比之下,美国最大的国家实验室超算El Capitan的关键IT功率只有30兆瓦,约为其五分之一,可谓相形见绌。按照粗略计算, Colossus集群的日耗电量约为300万千瓦时,相当于北京市东城区一天的居民用电量。
这还是目前AI的耗电量,也就是说,影视剧中那种AI突然觉醒、将整座城市的电力一次性消耗的场景很难发生。因为,觉醒后的AI需要的电量可能远大于一座城市的供电量。
最后,即使AI通过某些方式解决了数据、算力和电力的问题,就当下的AI而言,它与现实世界的隔阂,仍旧是它难以统治世界的主要原因之一。
今天的AI,其实并不理解真实世界,它最擅长的反而是创作内容,比如文字、图片或者视频。
为什么创作文字是最容易的?因为文字是一维的交流方式,甚至在某种意义上是比较低效的交流方式。现实世界是最复杂的,在GPT出现之后,不少专家提出了世界模型14的概念,但让AI理解文字很容易,理解世界反倒是最难的。
自动驾驶花了不少年,现在才可以在部分城市实现有限的无人驾驶,而机器人要面对的现实情况,比自动驾驶复杂很多,这也是机器人还没有将人类取代的原因。今天最普及的机器人是扫地机器人。同样的,AI没有像人类所担心的那样去取代操作工人,而是差点取代了文字创作者。
现实世界的三维交互,对今天的AI来说,仍是一个无法完成的任务。
所以,今天的AI无法制造一支机器人部队消灭人类。如果它真的想毁灭人类,最快的方式是取得各国的武器发射权限,发射核武器。前提是,有人下达了这个命令,并且AI遵守了这个命令,还突破了各种官方和实验室网络的限制,拿到了发射权限。但大家都知道,今天的AI,输出脏话和色情图片都会被限制。
但是AI仍然是有机会毁灭人类的,通过让人类自我毁灭的方式。
网络上遍布的虚假新闻、Deepfake(深度伪造技术),已经使人类内部产生了很大的隔阂和理念冲突。
这反倒是目前AI最有可能毁灭人类的方式——让人类死于内战。但,即使没有AI,人类也是有可能灭亡在自己手里的,所以,放宽心吧!
03 今天的AI,能取代人类的工作了吗?
既然AI暂时不会觉醒,也不会消灭人类,那我们进入下一个问题:今天的AI,可以取代人类了吗?
或者说,今天的AI,可以取代人类的工作了吗?
答案是,可以取代一部分工作——但核心不是取代,而是增强人类的能力。需要看具体的工作内容和场景。
我们可以从当下不同类型AI的几个主要产品来看AI的技术能力以及成熟度。
今天大家常见的AI以及大模型,目前可以简单分为三类:文本生成模型、图片生成模型和视频/音频生成模型。
成熟度较高的文本类AI产品
以OpenAI的GPT系列为代表,也有 Claude、Gemini、Llama、文心一言、通义千问、Kimi等国内外的模型产品,技术比较成熟,已经在很多现实场景中应用,实现商业化。
国外的ChatGPT、国内的Kimi和豆包,都是用户使用较多的产品,功能以文字对话为主,配合准确的提示词 ,AI可以帮助你进行文本翻译、文章解读、句子润色和邮件创作等办公和学习场景中常见的文本工作。目前文本类AI的能力,可以认为是一名通才大学生:懂多国语言,语文也不错,但可能数理化差一些,擅长讲解概念,做数学题则不太行。
发微博或小红书,回邮件,翻译英文文章,头脑风暴,甚至创作剧本和小说的部分内容——这是笔者的朋友使用文本类AI的一些场景。
图像生成模型,以Midjourney、Stable Diffusion和DALL-E 3为代表,功能以生成图像为主,也就是所谓的AI画手,也有一些商业化应用。
游戏场景、书籍封面以及电商商品的演示图都已经开始使用AI生成的图片,例如2023年国内较火的应用“妙鸭相机”就是运用AI生成图片,不过是用图片生成图片,而不是用文本来生成。
图片生成产品目前的主要问题是成功率不高,类似于游戏的“抽卡”,需要跟AI对话很多次才能生成一张满意的图片,而且现阶段图片生成AI对人类的自然语言理解还不如文本生成AI那么好,需要掌握一些写作“咒语”(提示词)的技巧才可以。
还在尝试阶段的视频/音乐生成类产品
2025年春节期间最火爆的一款AI产品,无疑是OpenAI的Sora,这是一款用文本生成视频的AI产品。由于生成视频的时长成功突破到一分钟,再加上演示视频质量较高,Sora立刻引起了轰动。
而其他视频生成产品,尚在追赶Sora的路上。Pika、Runway,以及国内的可灵、Pixverse、豆包的视频生成模型等,视频生成时长从3秒开始慢慢追赶,目前是10秒左右,距离商业化尚有一段距离。
音频模型目前主要分为两类:文本自动转为语音的TTS类,以及以Suno、Udio为代表的音乐生成产品。
文本转语音产品已经在很多商业场景中应用,如AI读小说,给视频配音,甚至AI自动生成播客等。
而音乐生成产品还在尝试阶段,它们面临的版权问题,也比文本生成产品要严重得多。
大语言模型的竞争,发展到2024年9月,正逐渐变成科技巨头们如谷歌、微软(Microsoft)、Meta和亚马逊(Amazon)的竞争。国内目前还是巨头与新秀百花齐放的场景,但可能不久后有新的格局变动。毕竟,大模型研发太烧钱了,又迟迟没有见到特别好的商业化应用。
怎么说呢,这个发展倒是完美符合科幻作家的预测——科技巨头垄断一切!
这次,我们按照热门产品类型,来介绍下国内外AI的相关产品。如果把它们都体验一遍的话,我们对当下能做什么、不能做什么,可能会有更直观的感受。
ChatGPT
OpenAI基于自己研发的大语言模型GPT系列推出的AI聊天产品,是目前世界上用户数最多的AI产品之一,也正是它,引发了全世界对于AI的关注和讨论,以及这一场AI科技热潮。
ChatGPT背后,是OpenAI推出的一系列GPT模型,目前性能最强大的是GPT-4和GPT-4o。ChatGPT目前的主要功能是文本交互,无法生成视频或者图片(部分付费用户可以生成图片),但可以识别图片。
OpenAI研发的文本生成图片大模型为DALL-E 3,于2023年发布,用户只要输入文字描述,就可以生成相应的图片。
OpenAI的文本生成视频大模型为Sora,在2024年2月发布了演示视频,目前尚未对普通用户开放。
微软斥重金投资OpenAI,两家公司目前是强绑定关系。
Claude
Anthropic公司基于自己研发的大语言模型Claude系列推出的AI聊天产品,其背后的大模型Claude 3.5的能力不亚于GPT-4o的文本生成大模型。
这家公司一直宣称“宪法AI”(Constitutional AI),是目前在AI与人类价值对齐方面做得比较好的公司之一。很多人认为Claude擅长用来做文本生成或者代码生成。
亚马逊投资了Anthropic公司,双方技术合作紧密。
Gemini
科技巨头谷歌基于自己的大语言模型Gemini系列推出的AI聊天产品。
受限于大公司立场和自身的商业模式,谷歌前期在AI上的战略不是很激进,毕竟他们在2023年2月发布演示的AI产品出现了事实性错误,导致谷歌股票大跌,也因此被OpenAI抢先,如今正在紧密追赶中。
目前谷歌旗下的很多产品都可以体验到Gemini的功能,比如Google Docs、Gmail等。
以上是目前国外使用人数较多的AI chatbot——也就是聊天机器人产品。国内使用较多的产品如下:
豆包
字节跳动(抖音和TikTok的母公司)推出的AI聊天产品,基于自己研发的豆包大模型开发,是目前国内使用人数较多的AI产品之一。具有聊天、翻译、图像生成和AI搜索等功能,比较全面。
Kimi
国内创业公司月之暗面推出的AI聊天产品,在B站和小红书上备受推崇,擅长读长文本——比如一次性读一本《红楼梦》,有很多有意思的小功能。它也是目前创业公司里,使用人数较多的AI产品之一。
文心一言
百度基于自己的文心大模型推出的AI聊天产品,也是国内首个大范围面向公众开放的AI产品,据说比较擅长写公文,但能力较强的文心一言4.0需要付费。
通义千问
阿里巴巴基于自己的Qwen大模型推出的AI聊天产品,支持语音转文字、PPT创作和论文速读等功能。
其他聊天类产品还有:海螺AI、百小应、万知等。
在chatbot之外,也有不少基于文本大模型诞生的创新型产品,目前功能主要有AI搜索、AI陪聊和AI编程。
Perplexity
互联网的网页其实是开发给搜索引擎,而不是给人类看的,所以,如果AI能够帮助我们收集、梳理和汇总内容,或许我们能够得到不一样的搜索结果。
比如风头正盛的Perplexity AI搜索,主打“知识搜索”,只需要输入一句话,AI会将结果梳理后呈现给你,每段信息都会有单独的信息源标注,保证信息来源的准确性。
Perplexity的目的不是颠覆谷歌等传统搜索引擎,而是提供另一种内容搜索与组织信息的方式。国内相对应的产品是秘塔AI搜索:https://metaso.cn/,适合学习时的知识查询。
Character.ai
人类梦想中的AI是什么样子?或许是完美的AI助理、朋友甚至爱人。也正因此,在ChatGPT火了之后,不少基于AI的陪聊产品诞生,你可以让AI扮演各种角色与你聊天,毕竟,这个时代的人们,最怕的就是孤独。
Character是国外常用的AI陪聊产品。国内类似的产品是星野,由国内AI创业公司MiniMax推出。
除了众所周知的Github Copilot之外,也有不少AI编程类产品面向不太懂编程的普通用户,这也是当下AI的一种能力体现,增强人类个体的能力而非取代人类。
Cursor
据说有位七岁小女孩使用这款产品独立开发了游戏。
Wordware
完全可视化、可拖拽的AI产品搭建网站,简单说来,有点类似Wordpress15。
04 作为一个普通人,怎么才能不被AI取代?
最简单的办法是,用起来。根据自己的需求,更多地去尝试各种AI的能力。
对敌人越了解,越不会被敌人打败。此外,还有一句忠告:你不会被AI取代,只会被使用AI的人类取代。
先学会和AI对话
人与人的沟通尚且困难,更何况人类与AI呢?用好AI的第一步,是学会和AI说话。
如果在半年前写这篇文章,我一定会用一大段来讲解如何写好prompt(跟AI对话的提示词),但随着AI能力的提升,现在已经不需要那么做了。
Claude工程师曾在一期播客里聊到怎么跟AI对话、怎么写出好的prompt16,我提炼了一些关键点:
很多时候,你需要做的只是写一个非常清晰的任务描述,而不是尝试构建抽象的东西。
你需要把事情讲得足够清楚,让AI明白你的任务是什么,要擅长思考和描述概念。
你得把自己脑海中所有你知道但AI不知道的东西整理清楚,写下来。毕竟,你不说,AI怎么会知道呢?
很多人都没有理解什么是提示词。他们在看到一个输入框时,会把它当成一个类似谷歌首页的搜索框,输入几个关键词。但是你并不会这么跟同事交流,对吧?
AI大模型可以理解复杂的信息,不需要过度简化。
……
想一下,你会怎么跨部门跟同事沟通,怎么跟你的实习生沟通,或者怎么跟上门维修空调的师傅沟通——跟AI沟通的时候也这么做就可以!
很多人使用AI产品的第一个困惑往往是,我能用它做什么?
不用焦虑,秉承一个简单原则:哪里“痛”(有需求),就用在哪里!英文不好但又需要写英文邮件,用起来!想看英文深度报道,让AI帮你翻译!对一些科技名词不了解、写大纲卡住了、想了解一个陌生的概念等等,都可以去问AI。
甚至在使用电脑时遇到了困惑,也可以第一时间向AI咨询,就比如,笔者刚刚帮一位策划朋友解决了他的一个奇怪需求:到了困惑,也可以第一时间打开AI咨询,就比如,我刚帮我的一位策划朋友解决了他的某个很奇怪的需求:
如果我想打几个字就生成一个这几个字的图片,有什么最快的方式吗?因为有很多行,不想手动截图。
我是这么和Kimi交流的:
User: 我想一个cmd批处理文件,作用是:把我的一个txt文件的每一行文字都保存为单独的图片。
Kimi: 创建一个批处理文件来实现你的需求,需要使用到一些外部工具,比如convert命令,它是ImageMagick软件包的一部分,用于图像处理。以下是一个简单的批处理脚本示例,它将读取一个文本文件,并将每一行保存为单独的图片。
1. 首先,确保你的电脑上安装了ImageMagick,并且convert命令可以在命令行中使用。
2. 创建一个批处理文件,比如命名为text_to_images.bat,并将以下代码复制进去:
--------------------------------------------------------------
Plain Text
@echo off
setlocal enabledelayedexpansion
:: 设置文本文件和输出目录
set "input_file=your_text_file.txt"
set "output_dir=images"
:: 创建输出目录
if not exist "%output_dir%" mkdir "%output_dir%"
:: 读取文本文件的每一行
for /f "tokens=* delims=" %%a in (%input_file%) do (
set "line=%%a"
:: 将每一行文本转换为图片
convert -background white -fill black -font Arial -pointsize 24 label:"!line!" "%output_dir%/line_!line!.png"
)
echo Done.
endlocal
--------------------------------------------------------------
3. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
4. 双击运行text_to_images.bat,它将读取文本文件的每一行,并将每一行保存为一个名为line_<line_content>.png的图片。
请注意,这个脚本使用了label:选项来创建文本标签,并且设置了背景颜色为白色,文本颜色为黑色,字体为Arial,字体大小为24。你可以根据需要修改这些设置。
如果你的文本包含特殊字符或者非英文字符,可能需要调整字体和编码设置以正确显示文本。
User: 还有其他方式吗?不安装第三方工具的话。
Kimi: 如果你不想安装第三方工具,可以使用Windows自带的PowerShell来实现这个功能。以下是一个使用PowerShell将文本文件的每一行保存为图片的示例:
1. 打开记事本或任何文本编辑器,并将以下代码复制进去:
--------------------------------------------------------------
PowerShell
$inputFile = "your_text_file.txt" # 替换为你的文本文件路径
$outputDir = "images" # 输出目录
if (-not (Test-Path $outputDir)) {
New-Item -ItemType Directory -Force -Path $outputDir
}
$text = Get-Content $inputFile
$text | ForEach-Object {
$line = $_
$image = New-Object System.Drawing.Bitmap 800,200
$graphics = [System.Drawing.Graphics]::FromImage($image)
$graphics.FillRectangle([System.Drawing.Brushes]::White,0,0,800,200)
$font = New-Object System.Drawing.Font "Arial",12
$solidBrush =
[System.Drawing.SolidBrush][System.Drawing.Color]::Black
$graphics.DrawString($line, $font, $solidBrush, 10,10)
$graphics.Dispose()
$image.Save((Join-Path $outputDir
"line_$($text.IndexOf($line)).png"))
$image.Dispose()
}
--------------------------------------------------------------
2. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
3. 将文件保存为.ps1扩展名,例如text_to_images.ps1。
4. 右键点击保存的.ps1文件,选择“使用PowerShell运行”。
这个脚本使用.NET Framework中的System.Drawing命名空间来创建和保存图片。它会读取文本文件的每一行,并将其保存为一个PNG图片。
请注意,这个脚本在某些情况下可能需要调整,例如调整图片大小、字体大小或文本位置。此外,如果你的文本文件非常大,这个脚本可能会消耗大量内存。
——你看,我需要做的就是把我的需求说清楚,不满意的话还能“讨价还价”。
如果你确实没什么需求,不妨试试这几个场景,没准儿会有一些小惊喜。
翻译
这是笔者使用AI频率最高的功能。在网页插件沉浸式翻译的帮助下,笔者每天可以阅读大量的科技资讯,甚至直接阅读一些英文小说。
比如前文提到的特德·姜发表在《纽约客》上的文章,笔者就是在Claude的帮助下(AI同时给我生成直译和意译),半个小时内完成了翻译和校对。
学习助手
AI很适合用来解释一些陌生名词或者前沿科技知识,你可以要求它向一名中学生解释知识点。在你想了解一门新的技术或者领域的时候,尽可能清晰地向AI描述清楚你的需求,它能给你不少帮助。
还可以用来解读论文,尤其是长篇的英文论文。但是请注意,为了保证你能真正读懂一篇论文,你可以试着让AI向你提问,而不只是让AI来总结。毕竟,能输出的知识,才是真正掌握了的知识。
此外还有语言学习,很多人把ChatGPT当作自己的外语家教,你也可以试试。
创作助手
文章思路搭建,剧本大纲构思,图片创意生成,甚至某个场景的详细描写,等等,都可以试着用AI来完成。
但是,不要把创作的权力交给AI,它可以充当你的创意助手、构思讨论伙伴,而不是作为你的代笔。
工作助理
Word中某个格式怎么调整,Excel中忘记了某个公式,常见的一个英语单词想不起来,甚至回复邮件时想让语气变得更友善,或者想让话语更专业一些……这些都可以试着让AI帮你解决;即使不能解决,它也能提供一些有用的思路。
机器学习专家Nicholas Carlini在一篇文章中17,详细讲解了自己在日常生活中是如何使用ChatGPT的,比如写代码、优化代码和修复bug等。虽然这些属于工程师方向的思维和场景,但很多事情的解决思路是相通的。
那些重复性很高、你一直很困扰、一直想优化的事情,交给AI试一下,也许会有惊喜。
不管怎样,先用起来。
- 编者注:艾萨克·阿西莫夫(1920—1992),生于苏俄的美籍犹太人作家与生物化学教授,门萨学会会员。他是美国科幻小说黄金时代的代表人物之一,与罗伯特·海因莱因、亚瑟·克拉克并称为科幻小说“三巨头”。他的科幻作品以“基地系列”最为人称道,其他主要著作还有“银河帝国三部曲”和“机器人系列”。(来源:维基百科) ↩︎
- 编者注:这是截至本文创作完成,即2025年2月之前的数据。下文关于其他AI产品的更新介绍也以该时间点为准。目前Sora、可灵已经部分解决了上述问题,面向公众开放。 ↩︎
- 编者注:埃隆·里夫·马斯克(1971—),商业大亨、英国皇家学会会士、美国工程院院士。他是SpaceX的创始人、董事长、首席执行官、首席工程师,特斯拉投资人、首席执行官、产品设计师、前董事长,无聊公司创始人,Neuralink、OpenAI联合创始人,同时也是X公司的首席技术官、董事长。(来源:维基百科) ↩︎
- 编者注:弗诺·文奇(1944-2024),美国数学家、科幻作家,历任圣迭戈州立大学数学系副教授,2003年退休后专职写作。自1966年起发表科幻短篇,著有经典科幻作品《真名实姓》《深渊上的火》《天渊》《彩虹尽头》等。(来源:维基百科) ↩︎
- 1982年,弗诺·文奇在卡内基梅隆大学召开的美国人工智能协会年会上首次提出“技术奇点”这一概念,认为突破奇点后将会有超级智能的出现。 ↩︎
- 来源于李沐在上海交通大学发表的演讲,视频链接:https://www.bilibili.com/video/BV1vBWDepECq/。 ↩︎
- 编者注:杰弗里·埃弗里斯特·辛顿(1947—),出生于英国的加拿大计算机学家和心理学家,多伦多大学教授,以其在类神经网络方面的贡献闻名。他是反向传播算法和对比散度算法(Contrastive Divergence)的发明人之一,也是深度学习的积极推动者,被誉为“深度学习教父”。因其在深度学习方面的贡献与约书亚·本希奥、杨立昆共同获得2018年的图灵奖。2024年,辛顿与约翰·霍普菲尔德共同获得诺贝尔物理学奖。(来源:维基百科) ↩︎
- 联名公开信:Pause Giant AI Experiments: An Open Letter。 ↩︎
- 编者注:Don’t Panic,起源于英国作家道格拉斯·亚当斯(Douglas Adams,1952—2001)于1979 年出版的著名科幻小说《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)。在书中,这句话被印在星际旅行指南《银河系漫游指南》的封面上,以“大而友善的字体”提醒读者:面对宇宙级危机时,首要原则就是“不要恐慌(Don’t Panic)”。这一设定随后成为整部系列的核心口号,被科幻爱好者广泛引用。 ↩︎
- 编者注:如电影《黑客帝国》(The Matrix)。 ↩︎
- 编者注:特德·姜(1967—),美国华裔科幻作家,其作品多次获得星云奖、雨果奖和轨迹奖。短篇小说《你一生的故事》(Story of Your Life)于2016年被改编成电影《降临》(Arrival)。(来源:维基百科) ↩︎
- 来源于特德·姜发表在《纽约客》(The New Yorker)上的文章:Why A.I. Isn’t Going to Make Art。 ↩︎
- 来源参考:AI models collapse when trained on recursively generated data。 ↩︎
- 编者注:世界模型(World Models)是理解现实世界动态(包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。(来源:英伟达术语表) ↩︎
- 编者注:WordPress是一个以PHP和MySQL为平台的自由开源的博客软件和内容管理系统,具有插件架构和模板系统。它是目前最受欢迎的网站内容管理系统,全球有大约43%的网站都是使用WordPress架设网站的。(来源:维基百科) ↩︎
- 来源于Anthropic 官方于 2024 年录制的一期YouTube 视频:AI prompt engineering: A deep dive。 ↩︎
- 来源参考:Nicholas Carlini 的How I Use “AI”。 ↩︎
1 Comment
很有帮助。