关于万户
万户,《九州幻想》前编辑,《异事悟》编辑,在极客公园做 AI 报道,黄金时代科幻爱好者。
全文约9400字,预计阅读时间19分钟
正文:
1942年,当著名科幻作家阿西莫夫在小说中提出“机器人三定律”时,肯定不会想到,AI和机器人的进展会那么慢,又会那么突然。
说慢的原因是,这都80年过去了,我们仍没有看到他所设想的机器人的落地,2024年最成功的家用机器人,是一台会被狗狗的便便轻易破防的扫地机器人。
但是发展速度却又很突然,2022年11月,ChatGPT上线,不到2年,人类社会如同被突然加速了一样,从硅谷的科技巨头到北京的小学生,人人都在聊AI,AI似乎成为了人类科技的助燃剂,有望帮助我们解决一系列的问题。远到宇宙的征途大海,近到人类梦想依旧的元宇宙,似乎都因为AI的兴起,有了新的可能。
到底,AI是如何从过去的只会围棋比赛和打DOTA,变成了今天的“万能”助理?
以及,终结者真的会到来吗?AI会在某个时刻突然觉醒,统治人类吗?
还有很多人疑惑:为什么感觉AI都火了两年,可是我觉得生活似乎也没有什么改变呢?
今天,我们就来聊一聊,2022 年突然“涌现”出来的AI,会不会毁灭人类,以及它会如何改变我们的未来。
01 突然“涌现”的AI,还仍是黑箱
要理解今天的AI和过往我们认知的AI,或者说影视作品里常见到的万能AI有何区别,需要解释三个词:涌现、Transformer架构和黑箱。
今天媒体在提到AI时,一般会提到另外一个词:大语言模型(Large Language Model),简称LLM。之所以这么叫是因为这些模型的参数都很大,一般起步就是10亿参数起。ChatGPT,如果对其进行技术分类的话,属于文本生成大模型的AI产品。文本生成大模型就是指这个大模型一般生成文字,无法生成图片或者视频。
目前也有专门用于图片生成和视频生成的大语言模型,它们的技术构架与文本生成模型有相似之处,但也有所不同。图片生成模型的产品如Midjourney已经开始商业化,视频生成模型如Sora、可灵等因为生成时间短、人物角色不可控等,还处于尝试阶段。
先说第一个词,Transformer架构,这是目前的文本生成大模型的主要技术基础之一,来源于谷歌于2017年发表的一篇论文《Attention Is All You Need》,这篇本来为了解决和优化机器翻译任务的论文,提出了一个新的神经网络结构——Transformer 架构。它适用于自然处理(NLP)领域,以注意力机制为核心。OpenAI的GPT模型就是基于Transformer架构构建的。
如果简单解释GPT架构的话,就是预测下一个词(Token)。比如给GPT模型一句话“明天看起来要___”,它会试图猜测划线部位应该是什么词语,会给出各种答案,而在人类的反馈训练后,它会倾向于给出“晴天”“下雨”等合理的词汇。
要注意的是,GPT说出“下雨”这个词,不代表它真正理解了这句话,它可能只是在无数种选择中,选择了人类最喜欢的那个回答。
也就是说,AI的理解,是一套高度复杂的模式识别和概率预测过程,基于对大量数据的统计分析,通过识别输入中的模式并生成相应的输出。AI没有真正的感知体验,也没有情感或意识参与其处理过程。
在OpenAI最初的GPT-1和GPT-2中,在基于一定数据和算力的训练下,大模型的表现还算不错,但是没有让大家为之惊喜的地步。很多情况下,系统仍需对特定任务进行调整才能获得好的效果。但到了GPT-3的时候,与GPT-2相比,模型的参数量翻了116倍,是一个拥有1750亿模型参数的大语言模型,模型的能力似乎突然就突破了奇点状态。
也就是说,当参数规模和机器算力达到如此惊人的规模后,AI的能力突然“涌现”了。
- 模型通过很少的示例就能快速学习并执行新任务。这种能力并非直接训练的结果,而是在处理海量文本数据的过程中自然形成的。
- 任务泛化。GPT模型能够执行许多它并未经过专门训练的任务,如翻译、摘要、问答等。这种多功能性是在大规模文本处理过程中逐渐形成的。
- GPT模型还展现出了一定程度的推理能力。它能够进行逻辑推理和常识推理,这些能力远远超出了简单的文本预测。
- 有了基础的“创造性”,GPT模型能够生成原创内容,如故事、诗歌,甚至是计算机代码,这不仅仅是对已有内容的重组,而是对语言模式的深入理解和灵活运用的结果。
简单说来,这次的“涌现”就是大力出奇迹。
也就是说,数据量、算力、模型规模足够大之后,AI的能力确实会提升,这也是目前各家AI研发公司努力的方向。大模型的参数量在不断提升,比如Meta(前Facebook)的Llama3大模型参数就达到了405B,也就是4050亿参数的规模。规模如此之大,需要用到的GPU显卡数量也在不断增加。大家所熟知的科技狂人——伊隆·马斯克刚刚建立起了他的10万显卡算力集群,就是为了用更大的算力和参数量来训练和提升他旗下的公司xAI研发的大模型。
要注意的是,涌现虽然某种程度可以说是AI突破了某个奇点,但这个奇点,不是科幻作家弗诺·文奇所提出的“技术奇点”1,也无法说明AI真的理解了这些内容,因为目前模型的内部原理对于我们来说仍然是个“黑箱”。
用目前在创业的AI大牛李沐的话来说2,如今的大语言模型就像炼丹,需要把一些材料放进丹炉里面,然后用丹方去把丹炼出来。大模型的数据就是炼丹的材料,算力就是炼丹的火力,算法就是炼丹的丹方。但是,道士对于炼丹的技术细节是完全不理解的,就如同我们对于大模型里面的运作机制还没有搞明白一样,我们目前只知道输入和输出,但对于内部的技术机制还在研究中。
也正是因为对机制的完全不了解,2023年3月份,伊隆·马斯克、杰弗里·辛顿等上百位科技人士联合发表公开信3,希望暂停训练比GPT-4更强大的AI系统至少6个月,因为他们担心超级智能出现。
虽然最终呼吁没有被响应,但这些人的担心也有一定道理——现在的AI是个黑箱,我们不知道会发生什么。
只是对于我们来说,可能有比暂停研发更保险的方法来控制AI。而且,技术的爆发一旦来临,也不是几封公开信就能拦得住的。
但是,回顾历史我们会发现,在科技史上,原理的研究走在发明之后是常有的事情,莱特兄弟发明飞机之后,可能在30年之后,也就是1930年左右,人类才算是搞清楚了飞机的原理。
技术一般都会走在研究的前面,这是常态,黑箱也没有那么可怕,Don’t Panic!
02 人类担心了几十年的AI觉醒,暂时不会出现
公开信只是今天的人类对于AI的恐慌的表现之一,AI觉醒、AI威胁论,这些在科幻电影和小说中都耳熟能详的桥段,也是轮番登场。
今天的AI,真的会突然觉醒,然后与人类为敌,甚至统治和消灭人类吗?
简单了解了今天的AI的机制,就会知道,科幻小说和电影中经常出现的“天网”“Matrix”,可能暂时是出现不了的。
今天的AI,暂时还不会突然觉醒,也不会想着去统治人类。
就如同我们上文所说,今天的AI的主要输出机制还是“猜测下一个单词或者文字”,从过往的上亿个数据集里,基于统计模式猜测人类可能最喜欢的那个,虽然看起来是生成了看似智能的回答,但是它们并不真正“理解”所处理的信息。还是上面举的例子——“明天可能会下雨”,AI并不理解明天和下雨代表了什么,只是因为“下雨”最常出现在这句话的结尾。
科幻作家特德·姜对此也有自己的观点4:AI在说“对不起”的时候,并不理解对不起所代表的歉意和情绪,只是这个词可能是这个场景下最有可能出现的词汇。
还有就是,今天的AI,是一个完全只会响应输出的AI,并没有自主行动的能力或者欲望。如果人类不给它下命令,它什么也不会做。
我们可以假设下,如果它有了自主行为的欲望,并且有了要统治人类的想法,AI现有的能力是不是能够毁灭人类?
首先,AI需要更快速的成长,迅速增强自己的能力,这样才有可能实现自己统治世界的阴谋。
但是,它遇到的第一个问题是,“食物”不够了。训练GPT这样的文本生成大模型,使用的语料数据,是互联网上的数据、出版的书籍、新闻,以及各类高质量的文本数据。但是,其实到今天,人类有史以来积累的文本数据语料,已经差不多都喂给它了,才实现了现在这样的能力“涌现”。
肯定有人想到可以让AI生成数据,其实已经有部分厂商在尝试用人工合成或者AI生成的数据用于大模型的训练,不过,今年7月份《Nature》杂志上的一篇论文5显示,用AI生成的数据训练AI,会让模型的能力下降,甚至模型崩溃,开始退化。生成的数据能用,但目前看来效果不显著,而且有风险。
然后还有算力的问题,也就是说,AI能力的提升需要大量英伟达或者其他科技公司生产的用于AI计算的专业显卡。普通显卡也不是不能用,就是效率比较慢,折损也比较大。即使是专业显卡,如何把上万张显卡组合在一起,并且有效减少其中的能力折损,也是现在还没有完全解决的问题。目前比较高效的算力叠加方式是显卡集群。伊隆·马斯克刚刚搭建了他的拥有10万张H100显卡的超级集群,这应该是目前世界最强大的AI训练集群。
但是马斯克的公司训练出的大语言模型xAI,能力也很一般,果然只有算力也是不行的。
对于不少公司甚至国家来说,10万显卡集群的难点除了要解决显卡的数据交换问题,还需要一个能稳定的发电设施,单一数据中心供电或者分布式供电,前者对基建能力的要求较高。以马斯克的10万卡集群来算,10万卡集群所需的关键IT部件的总功率约为150MW,相比之下,美国最大的国家实验室超算El Capitan的关键IT功率只有30MW,约为五分之一,可谓是相形见绌。如果粗略计算,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。
这还是目前级别的AI的耗电量,也就是说,影视剧中那种AI突然觉醒,将整座城市的电力一次性消耗的场景很难发生。因为,觉醒后的AI需要的电量可能要远大于一座城市的供电量。
但,即使AI通过某种方式解决了数据、算力和电子的问题,就当下的AI而言,与现实世界的隔阂,仍旧是它很难统治世界的一个主要原因。
今天的AI,其实还不理解真实世界,它最擅长的反而是创作内容,比如文字、图片或者视频。
为什么创作文字是最容易的?因为文字是一维的交流方式,甚至在某种意义上是比较低效的一种交流方式。现实世界反倒是最复杂的,在GPT之后不少专家提出了世界模型的概念,也正是因为这个原因,让AI理解文字是最容易的,理解世界反倒是最难的。
自动驾驶花了不少年,现在才可以在部分城市实现有限的无人驾驶,而机器人要面对的现实情况比自动驾驶复杂很多,这也是为什么机器人还没有很快将人类取代,而今天最普及的机器人是扫地机器人。这也是为什么,AI没有像人类所担心的那样去取代操作工人,而是差点取代了文字创作者。
现实世界的三维交互,对今天的AI来说,还是一个做不到的任务。
所以,今天的AI无法制造一支机器人部队消灭人类。
如果它真的想毁灭人类,最快的方式是取得各国的武器发射权限,发射核武器。前提是,有人下达了这个命令,并且AI遵守了这个命令,还突破了各种实验室和网络的限制,拿到了发射权限。但大家都知道,今天的AI,连脏话和色图都限制了。
但是AI仍然是有机会毁灭人类的,只是是一种让人类自我毁灭的方式。
网络上遍布的虚假新闻、deepfake(深伪技术),已经使人类内部产生了很大的隔阂和理念冲突。
这反倒是目前的AI最有可能毁灭人类的方式——让人类死于内战。但,即使没有AI,人类也是有可能灭亡在自己手里的,所以,放宽心吧……≧ω≦
03 今天的AI,能取代人类的工作了吗?
既然AI暂时不会觉醒,也暂时不会消灭人类。那我们进入下一个问题。今天的AI,可以取代人类了吗?
或者说,今天的AI,可以取代人类的工作了吗?
简单点说,可以取代一部分工作了,但核心不是取代,而是增强人类。具体的话,则要看具体的工作内容和场景。
我们可以从当下AI主要的几个不同的类型来看今天的AI的技术能力以及成熟度。
今天大家所讨论的AI以及大模型,目前可以简单分为三类:文本生成模型、图片生成模型、视频/音频生成模型。
成熟度较高的文本类AI产品
主要是以OpenAI的 GPT系列为代表,其他包括 Claude、Gemini、Llama、文心一言、通义千问、kimi等国内外的模型产品,技术比较成熟,已经在很多现实的场景落地,进入了商业化。
比如国外的ChatGPT、国内的kimi、豆包,都是用户使用较多的产品,主要功能以文字对话为主,配合上不错的提示词6,AI可以帮助你进行文本翻译、文章解读、句子润色、邮件创作等办公或者学习场景下常见的一些文本工作。目前文本类AI的能力,可以认为是一名通才大学生的能力,懂多国语言,语文也不错,但数理化可能会差一些,很擅长去讲解一些概念,但做数学题不太行。
发微博/小红书、回邮件、翻译英文文章、脑暴,甚至创作剧本和小说的部分内容,这是笔者的朋友使用文本类AI的一些场景。
已经开始商业化的图片生成产品
图像生成模型,以Midjourney、Stable Diffusion、DALL-E 3为代表,主要以生成图像为主,也就是所谓的 AI画手,也有了一些商业化场景落地。
一些游戏场景、书籍封面、以及电商商品的演示图都开始使用AI生成的图片,2023年国内比较火的一款应用“妙鸭相机”也是AI生成图片,不过是用图片生成图片。
图片生成产品目前的主要问题是成功率不高,类似于游戏的“抽卡”,需要跟AI对话很多次才能生成一张满意的图片,而且现阶段图片生成AI对于人类的自然语言理解还不如文本生成AI那么好,需要掌握一些写作咒语的技巧才可以。
还在尝试阶段的视频、音乐生成类产品
春节期间最火爆的一款AI产品,无疑就是OpenAI的Sora了,这是一款文本生成视频的AI产品。由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。但是,到现在Sora还没有面向大众开放。
而其他的视频生成产品,都在追赶Sora的路上,Pika、Runway以及国内的可灵、Pixverse、豆包的视频生成模型等,从3秒时长开始慢慢追赶,目前是10秒左右,距离商业落地尚有一段距离。
音频目前主要分为两类:文本自动转为语音的 TTS 类,以及以Suno、Udio为代表的音乐生成产品。
文本转语音产品已经在很多商业场景落地,AI读小说、给视频配语音甚至AI自动生成播客等。
而音乐生成产品还只是在尝鲜阶段,而它们面临的版权问题,也比文本生成产品要严重得多。
差生工具多,这些工具都可以试试!
大语言模型的竞争,发展到2024年9月,正逐渐变成了科技巨头们如谷歌、微软、Meta和Amazon的竞争。国内目前还是巨头+新秀百花齐放,但可能不久后也会有新的格局变动。毕竟,大模型研发这件事太烧钱了,又迟迟没有见到好的商业落地。
怎么说呢,这个发展倒是完美符合科幻作家们的预测。科技巨头垄断一切,打倒资本巨头!
这次,我们按照热门产品类型,来介绍下国内外AI相关的产品。如果把它们都体验一遍的话,对当下能做什么不能做什么可能有更直观的感受。
但,也没必要都体验啦口胡!
ChatGPT
OpenAI基于自己研发的大语言模型GPT系列推出的AI聊天产品,是目前世界上用户数最多的AI产品之一,也正是它,引发了全世界对于AI的关注和讨论,以及这一波的AI科技热潮。
ChatGPT背后,是OpenAI推出的一系列GPT模型,目前性能最强大的是GPT-4和GPT-4o。ChatGPT目前主要是文本聊天,无法生成视频或者图片(部分付费用户可以生成图片),但可以识别图片。
OpenAI的文本生成图片的大模型为DALL-E 3,2023年发布,用户只要输入文字描述,就可以生成相应的图片。
OpenAI的文本生成视频的大模型为Sora,在2024年2月发布了部分演示视频,但尚未对普通用户开放。
微软重金投资了OpenAI,两家公司目前是强绑定关系。
Claude
Anthropic公司基于自己的大语言模型Claude系列推出的AI聊天产品,背后的大模型Claude 3.5是目前能力不亚于GPT-4o的文本生成大模型。
这家公司一直宣称”宪政AI”(Constitutional AI),可能是目前在AI与人类对齐方面做得比较好的公司之一。很多人认为Claude很擅长用来做文本生成或者代码生成。
亚马逊投资了Anthropic公司,拥有不少股权。
Gemini
科技巨头谷歌基于自家的大语言模型Gemini系列推出的AI聊天产品。
受限于大公司立场和自身的商业模式,谷歌前期在AI上的战略不是很激进,毕竟,在发布会上演示的AI产品出现了事实信息错误就导致谷歌股票大跌,也因此被OpenAI抢先,如今正在紧密追赶中。
谷歌目前旗下的很多产品中都可以体验到Gemini的功能,比如Google docs、Gmail等。
这是目前海外使用人数较多的AI chatbot产品。国内使用较多的产品有以下几个:
豆包
字节跳动,也就是抖音和TikTok母公司推出的AI聊天产品,基于自家的豆包大模型开发,是目前国内使用人数最多的AI产品。聊天、翻译、图像生成、AI搜索等功能比较齐全。
Kimi
国内创业公司月之暗面推出的AI聊天产品,在B站和小红书上备受推崇,擅长读长文本——比如一次性读一本《红楼梦》,有很多有意思的小功能。也是目前创业公司里,使用人数较多的AI产品之一。
文心一言
百度基于自家的文心大模型推出的AI聊天产品,也是国内首个大范围面向公众开放的AI产品,据说写公文比较擅长,但他们家能力较好的文心一言4.0需要付费。
通义千问
阿里巴巴基于自家的Qwen大模型推出的AI聊天产品。支持语音转文字、PPT创作、论文速读等功能。
其他聊天类产品还有:海螺AI、百小应、万知等产品。
在chatbot也就是聊天机器人产品之外,也有不少基于文本大模型诞生的创新型产品,目前主要是AI搜索、AI陪聊、AI编程。
Perplexity
互联网的网页其实是开发给搜索引擎而不是人类看的,所以,如果AI能够帮助我们去搜索内容和汇总梳理内容,或许能够看到不一样的搜索结果。
比如风头正盛的Perplexity AI搜索,主打“知识搜索”,输入一句话,AI会将结果进行梳理后呈现给你,每一段信息都会有单独的信息源标注,保证信息来源的准确性。
Perplexity的目的不是颠覆谷歌,而是提供另外一种内容搜索与组织方式。国内相对应的产品是秘塔AI搜索:https://metaso.cn/,适合知识查询及学习时使用。
Character.ai
人类对于AI的梦想是什么?完美的AI助理、朋友甚至爱人。也正因此,在ChatGPT火了之后,不少基于AI的陪聊产品诞生,你可以让AI扮演各种角色与你聊天,毕竟,这个时代的人们,最怕的就是孤独了。
国内类似的产品是星野,由国内AI创业公司MiniMax推出。
AI 编程产品
除了众所周知的Github Copilot之外,今年也出现了不少AI编程类产品,面向不怎么懂编程的普通用户,这也是当下AI的一种能力体现,增强人类个体的能力而非取代人类。
Cursor:https://www.cursor.com/
据说有七岁小女孩使用这款产品独立开发了游戏。
Wordware:https://www.wordware.ai/
完全可视化、可拖拽的AI产品搭建网站,简单说来,有点类似Wordpress。
04 作为一个普通人,怎么才能不会被AI取代?
最简单,用起来。根据自己的需求,更多地去尝试各种AI的能力。
对敌人越了解,越不会被敌人打败。还有一句话,你不会被AI取代,只会被会用AI的人类取代。
先学会跟AI对话
人与人沟通尚且很困难,更何况人类与AI呢?用好AI的第一步,是学会跟AI说话。
如果是半年前写这篇文章,我一定会贴一大段讲解如何写好prompt(跟AI对话的提示词)的攻略给你,但现在随着AI的能力提升,已经不需要那么做了。
Claude工程师前不久曾在一期播客里聊到怎么跟AI对话、怎么写出好的prompt,我稍微提炼了一些关键点:
- 很多时候,需要做的只是写一个非常清晰的任务描述,而不是尝试构建抽象的东西。
- 你需要能够把事情讲得足够清楚,让模型明白你的任务是什么,并且擅长思考和描述概念。
- 你得把自己脑海中所有你知道但模型不知道的东西整理清楚,然后写下来。毕竟,你不说的话,AI怎么会知道呢?(≧ω≦)
- 很多人都没有理解什么是提示词。很多人看到一个输入框时,会把它当成一个谷歌搜索框,输入几个关键词。毕竟,你也不会这么跟同事交流,对吧?
- 模型可以理解复杂的信息,不需要过度简化。
想一下,你会怎么跨部门跟同事沟通、怎么跟你的实习生沟通,或者跟上门维修空调师傅沟通事情,跟AI沟通的时候也这么干就可以了!
哪里痛,就在哪里用!
很多人使用AI产品的第一个困惑一般是,我能用它做什么?
不用焦虑,秉承一个简单原则:哪里痛,就用在哪里!英文不好但又需要去写英文邮件,用起来!想看英文深度报道,让AI帮你翻译。对一些科技名词不了解、写大纲卡住了、想了解一个陌生的概念等等,都可以。
甚至使用电脑时遇到了困惑,也可以第一时间打开AI咨询,就比如,我刚帮我的一位策划朋友解决了他的某个很奇怪的需求:
如果我想打几个字就生成一个这几个字的图片,有什么最快的方式吗?因为有很多行,不想手动截图。
我是这么和kimi交流的:
User: 我想一个cmd批处理文件,作用是:把我的一个txt文件的每一行文字都保存为单独的图片。
Kimi: 创建一个批处理文件来实现你的需求,需要使用到一些外部工具,比如convert命令,它是ImageMagick软件包的一部分,用于图像处理。以下是一个简单的批处理脚本示例,它将读取一个文本文件,并将每一行保存为单独的图片。
1. 首先,确保你的电脑上安装了ImageMagick,并且convert命令可以在命令行中使用。
2. 创建一个批处理文件,比如命名为text_to_images.bat,并将以下代码复制进去:
--------------------------------------------------------------
Plain Text
@echo off
setlocal enabledelayedexpansion
:: 设置文本文件和输出目录
set "input_file=your_text_file.txt"
set "output_dir=images"
:: 创建输出目录
if not exist "%output_dir%" mkdir "%output_dir%"
:: 读取文本文件的每一行
for /f "tokens=* delims=" %%a in (%input_file%) do (
set "line=%%a"
:: 将每一行文本转换为图片
convert -background white -fill black -font Arial -pointsize 24 label:"!line!" "%output_dir%/line_!line!.png"
)
echo Done.
endlocal
--------------------------------------------------------------
3. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
4. 双击运行text_to_images.bat,它将读取文本文件的每一行,并将每一行保存为一个名为line_<line_content>.png的图片。
请注意,这个脚本使用了label:选项来创建文本标签,并且设置了背景颜色为白色,文本颜色为黑色,字体为Arial,字体大小为24。你可以根据需要修改这些设置。
如果你的文本包含特殊字符或者非英文字符,可能需要调整字体和编码设置以正确显示文本。
User: 还有其他方式吗,不安装第三方工具
Kimi: 如果你不想安装第三方工具,可以使用Windows自带的PowerShell来实现这个功能。以下是一个使用PowerShell将文本文件的每一行保存为图片的示例:
1. 打开记事本或任何文本编辑器,并将以下代码复制进去:
--------------------------------------------------------------
PowerShell
$inputFile = "your_text_file.txt" # 替换为你的文本文件路径
$outputDir = "images" # 输出目录
if (-not (Test-Path $outputDir)) {
New-Item -ItemType Directory -Force -Path $outputDir
}
$text = Get-Content $inputFile
$text | ForEach-Object {
$line = $_
$image = New-Object System.Drawing.Bitmap 800,200
$graphics = [System.Drawing.Graphics]::FromImage($image)
$graphics.FillRectangle([System.Drawing.Brushes]::White,0,0,800,200)
$font = New-Object System.Drawing.Font "Arial",12
$solidBrush =
[System.Drawing.SolidBrush][System.Drawing.Color]::Black
$graphics.DrawString($line, $font, $solidBrush, 10,10)
$graphics.Dispose()
$image.Save((Join-Path $outputDir
"line_$($text.IndexOf($line)).png"))
$image.Dispose()
}
--------------------------------------------------------------
2. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
3. 将文件保存为.ps1扩展名,例如text_to_images.ps1。
4. 右键点击保存的.ps1文件,选择“使用PowerShell运行”。
这个脚本使用.NET Framework中的System.Drawing命名空间来创建和保存图片。它会读取文本文件的每一行,并将其保存为一个PNG图片。
请注意,这个脚本在某些情况下可能需要调整,例如调整图片大小、字体大小或文本位置。此外,如果你的文本文件非常大,这个脚本可能会消耗大量内存。
你看,我所需要做的就是把我的需求说清楚,甚至还能“讨价还价”。
实在还不知道怎么用,先看这四个案例!
如果你确实没啥痛点,不妨试试这几个场景,没准会有一些小惊喜。
翻译
这是笔者使用AI最多频率的功能。在网页插件沉浸式翻译的帮助下,每天阅读大量的科技资讯,甚至直接阅读一些英文小说。
比如这篇特德·姜发表在《纽约客》上的文章7,就是在Claude的帮助下(让AI同时给我生成直译+意译),半个小时内搞定的。
学习助手
AI很适合对一些陌生名词或者科技知识进行解释,你可以要求它向一名高中生或者初中生解释知识点。在你想了解一门新的技术或者领域的时候,尽可能清晰地向AI描述清楚,它能给你不少帮助。
还可以用来进行论文解读,尤其是长篇的英文论文,但是请注意,为了保证你真正读懂一篇论文,你可以试着让AI来提问,而不只是让AI来总结。毕竟,能输出的知识,才是真正掌握了的知识。
还有语言学习,很多人把ChatGPT当做自己的外语家教,你也可以试试。
创作助手
文章思路搭建、剧本大纲构思、图片创意生成,甚至某个场景的详细描写等等,都可以试着用AI来完成。
但是,不要把创作的权力交给AI,它可以充当你的创意助手、构思讨论小伙伴,而不是你的代笔。
工作助理
Word中某个格式怎么调整,Excel中忘记了某个公式了,常见的一个英语词汇忘记了,甚至回复邮件的时候想让语气变得更和善、或者态度更专业一些……
这些都可以试着让AI帮你解决,即使不能解决,也能给你提供一些有用的思路。
DeepMind的机器学习专家Nicholas Carlini在一篇文章8中,详细讲解了自己在日常中如何使用ChatGPT,比如写代码、优化代码、修复bug等,虽然偏工程师的思维和场景,但很多事情的解决思路是想通的。
那些重复性很高、你一直很困扰、一直想优化的事情,交给AI试一下,没准有惊喜。
不管怎样,先用起来。
参考资料:
- 1982年,弗诺·文奇在卡内基梅隆大学召开的美国人工智能协会年会上首次提出“技术奇点”这一概念,认为突破奇点后将会有超级智能的出现。 ↩︎
- 李沐上海交大演讲全文 ↩︎
- 马斯克、杰弗里·辛顿联名公开信全文:https://www.thepaper.cn/newsDetail_forward_22490961 ↩︎
- 特德姜:人工智能会创造真正的艺术吗? ↩︎
- Nature 论文:用 AI 生成的数据训练 AI,会让大模型崩溃 ↩︎
- DeepMind科学家:50个AI提效用例详解,工作中我是这么用AI的
↩︎ - 特德姜:人工智能会创造真正的艺术吗? ↩︎
- DeepMind科学家:50个AI提效用例详解,工作中我是这么用AI的 ↩︎
审校:东方木、于苏斯
One Response
很有帮助。