人工智能其实应用已经相比起以前不知道翻了多少倍。
但实际上的底层技术的更新换代并没有那么快。
比如现在最火热的ChatGPT,其本质上就是一个复杂的transformer模型。以transformer为基础的模型有很多,但是能做到这么简单可以大规模应用的到目前为止并不多。
纵观AI的发展史,从1950年左右图灵测试理论的建立,到alpha go的诞生,其实也不过才60多年而已,比起大多数的学科,都只能算是个小年轻。
而AI在历史上大多数火在少部分的群体,比如科研人员,他们之间会比拼谁的模型识别准确率更高;比如有限的几个大公司,微软,谷歌,deepmind,谁又刷新了某个人工智能的榜单。
但是绝大多数的群体,也就是只能在电视或者新闻山看人工智能的普通人,其实一直以来并没有机会去接触到人工智能这个东西。
而在最近一年以来,情况发生改变了,那就是以Transformer为基础的大模型语言模型ChatGPT和以Diffusion为基础的扩散模型Midjourney/StableDiffusion,改变了只有大公司和专业人士才能接触和使用的人工智能技术的使用门槛。
现在各种人工智能对话机器人和AI绘图工具层出不穷,使用门槛低到只需要有一个手机就可以用AI来进行文字创作和图片创作。
如果我们要列举人工智能应用的话,可能杂七杂八的会有成千上万种,但实际上很多应用都是在做非常类似的功能,比如各种AI写作软件,它们本质上都是接收文字输入,然后再输出文字。
其实如果我们按照输入给人工智能应用数据类型的不同来划分的话,大致可以分为四种。
文本:也就是各种文字,中文,英文,数字等等都算是文本输入。
图像:各种图片,比如人像,动物,家具,汽车都算是这一种。
语音:音乐,录音等等音频格式的文件。
视频:广义上的各种动态视频的文件等。
每种格式的人工智能应用都有很多,但实际上每个领域只有非常有限的几个应用可以杀出重围,从而获得绝大多数的关注。
我也就只介绍单个领域中功能最强的几个。
AI写作工具
写作是最基本上,也是最常用的工具,一般来说可以用它来构思文章,润色,翻译等等一切可以想到的文字创作,基本上都可以用到它。
1. ChatGPT-3.5
免费访问: 对所有注册用户免费,让更多人能够接触和利用。
代码解释器: 可以生成表格和可视化图,让任何人都能成为初级数据分析师。
易用性: 上传文件并让模型工作,非常方便和直观。
局限性: 有文本输入的大小限制。
2. GP4
性能优势: 被公认为目前性能最强的大模型。
广泛共识: 在学术界和工业界都得到了广泛认可。
3. Claude2
文本输入能力: 主打量大管饱,一次性可以输入75000个字。
音频分析: 可以直接分析长达6小时的音频文件。
多样化应用: 可用于开发各种有趣的项目,如《周易机器人》。
4. Bard
少量使用: 相对较少人使用,但具有特殊功能。
直接读网页: 可以直接读取网页内容,如知乎的维基百科。
Colab集成: 代码可以直接在Colab中运行,方便进行实验和开发。
多样化输出: 可以编辑成邮件形式等多样化的输出。
这四个模型都有各自的特色和优势,满足不同的需求和用途。我其实这四个都会用到,比如回邮件,很多时候礼貌且专业的回复一封邮件其实是并不简单,而ChatGPT之类工具的存在,就可以非常方便的做一些以前需要工作经验才能做好的事情。
比如下面这个例子,就可以把一件专业的事情变成一道填空题,你只需要替换掉一些关键部分就可以。
这就是大模型的威力,而不同的大模型的优势不同,所以并不用一味的依赖某一个大模型。比如说你需要快速整理一本书的时候,就可以用Claude 2,它可以一次性的接受10万个字符,这一点儿ChatGPT是比不过的。
AI绘画工具
这类型工具非常的实用,基本上可以让任意一个普通人都可以拥有实现自己梦境的能力。
你只需要输入一段文字来描述你想要的图像,这两个工具都可以在很短的时间内生成出来。
可以是二次元风格的。
也可以是赛博朋克风格的。
中国传统风格的。
甚至是一些不太可能发生的事情。
这些都是可以通过简单的描述生成的。
而Midjourney和StableDiffusion就是AI绘图的佼佼者,他们俩各有千秋。
定制图片的方式
Stable Diffusion: 提供更多调整图片的选择,例如,大小、跟随提示的程度、生成数量、种子值和采样等。
Midjourney: 选择较少,只能调整宽高比、种子和是否提前停止。
学习难度
Stable Diffusion: 安装麻烦,还要找到合适的模型来获得想要的风格。
Midjourney: 在Discord上使用,相对容易学。
生成好看图片的难度
Midjourney: 生成精美艺术图像容易,不用费太多力气。
Stable Diffusion: 要更努力地创建好的提示,尝试产生相同质量的图像。
模型的种类
Stable Diffusion: 超过1000个可下载的风格,每个都可以进一步调整。
Midjourney: 选择有限,只有几种特殊模型,可以添加参数来“样式化”图像。
编辑图片的能力
Stable Diffusion: 可以多样化地编辑图片,包括重做部分图片或延伸。
Midjourney: 不能编辑图像。
图片的风格
Midjourney: 默认生成逼真插图风格,v5可生成逼真照片。
Stable Diffusion: 可生成逼真照片、抽象艺术等多种风格。
控制构图和姿势
Stable Diffusion: 通过多种方式控制,如图像到图像、深度到图像等。
Midjourney: 只能通过图像提示来控制。
制作自己的模型
Stable Diffusion: 可以自己训练模型。
Midjourney: 无法做到。
选择哪个?
这个问题其实复杂也不复杂,如果有条件肯定是两个都选,但是如果只能选择一种的话,就得比较一下自己到底适合哪个。
选Midjourney:想快速生成美图;没时间学习模型;喜欢它的风格;需要即插即用解决方案;不介意付费。
选Stable Diffusion如果:想要免费方案;希望本地运行;喜欢折腾设置和新工具;需要编辑功能;更喜欢开源,并希望有更多对图像的控制权。
AI视频工具
这类型的工具我用的不是很多,第一是因为视频做起来的难度很高,花费的时间和精力也是文字的好多倍,其次现在的AI视频生成工具的效果不是很理想,毕竟处理视频所需要的算力和算法复杂度都比图像高了很多。
而这部分我觉得有两个类别,第一个是通过拼接图片做成的视频;第二个是纯文本生成视频。
前者的代表就是剪映这样的软件,你给他一段文字,它自动的匹配对应的图片,再给你自动配音和配乐,虽然效果很一般,但是确实是可以看的视频。
后者的产品不算多,并且效果真的只能算是一般,还有很大的发展空间。
比如有以下这些软件,基本上都不免费,就算是免费也只能生成很短的视频,或者需要加上各种水印。
大多的生成视频都是一个固定的人物模型+根据语句变化的嘴形,可以用,但是不太能尽人如意。
所以对于AI视频工具一块来说,现在并不能当成生产力工具。
AI音频工具
这类型工具主要分为两类:文字转语音和语音转文字,语音转语音的也有,但是数量不算多。
文字转语音的应用很多都内嵌在视频编辑软件里面,比如说剪映,就可以很方便的将文字转换成语音,同时还有很多类型的音色可以选,比如最近很火的猴哥音色。
而语音转文字的应用也有很多,比如最常见的就是微信,可以很轻松的将你的话转换成文字。
再高级一点儿就是直接将中文转换成英文文本,这种应用相信大家也从各种渠道看见过。其实就是先从语音转成文字,然后文字再做翻译。
AI应用有很多,但是究其根本,不过就是接收输入然后输出内容,输入和输出可以有各种搭配。但是要记住,选择工具要选择最适合自己的,而不是最好的。