2023年3月,大模型层出不穷的新动态让很多人感觉焦虑。作为喜欢关注各种科技动态的媒体从业者,睁开眼睛觉得应接不暇,闭上眼睛就生怕错过太多。
这一波AI技术的影响已经出现。朋友圈里有朋友表示,已经有很多人在用人工智能来解决Bug了。还有设计师用AI技术找灵感,顺便发出了关于职业前景的感慨。
根据在社交媒体上的观察,这里找出了个人认为最值得关注的十大新闻,不错过最不该错过的消息,顺便缓解下焦虑。
1,GPT-4——震惊业界,也震惊世界!
GPT-4具备了类似Visual ChatGPT一样的能力,虽然还不能直接输出图像,但可以理解图像。
GPT-4现在可以一次处理 25,000 个单词,智力水平有了大幅提升,在各种考试中的成绩都能排到前10%。也有人说,GPT-4在各种测试中的表现已接近人类的智力水平。
GPT-4的能力惊人,更惊人的是它的迭代速度,距离人们看见ChatGPT才刚刚过了四个月。
2,Midjourney V5发布
三月份,Stable Diffusion的动态相对较少,但作为同类竞品的Midjourney发布了V5版本。
新版本原生支持1024×1024分辨率,能生成更清晰、更详细的图像,生成的图片与输入文本的关联度也更高。
最令人羡慕的是,它生成的手更自然了。
此前,Midjourney和Stable Diffusion都没能解决生成人物的手指过于诡异的现象。为此,广大网友有多种曲折的尝试,但都因为过于复杂没有流行开来。
3,马斯克等科技领域大佬呼吁,暂停开发GPT-4以上更强的人工智能模型
马斯克、沃兹尼亚克(苹果联合创始人)以及多位人工智能专家和行业高管,在一封公开信中呼吁暂停开发比OpenAI GPT-4更强大的系统,并指出AI对社会的潜在风险。
有媒体朋友说,ChatGPT出现就好像刘慈欣在小说写的,人们对于三体文明的态度各不相同。有的人感受到了危机,有的人积极接受,打算用更强的力量武装自己,还有的看到了潜在的危害,要防范风险。屏幕前的你属于哪一类人呢?
4,Visual ChatGPT发布,以及带来的启发
在GPT-4发布前几天,微软研究团队发布Visual ChatGPT。它可以让ChatGPT理解图片内容,并且用自然语言修改图片。比如,你可以让它给图片换一个水彩色的沙发。
Stable Diffusion也具有用文字修改图片的能力,但是,并不是以对话的方式进行的。因为Visual ChatGPT还可以基于这张图片进行对话。比如,你可以问它:图中的墙是什么颜色的?
Visual ChatGPT打开了人们的思路,就是用自然语言进行交互,用软件灵活调用各种模型来实现各种功能,前几天刚发布Paper的HuggingGPT也是这个套路。
到目前为止,个人非常认可将ChatGPT比作计算机图形化界面同级别的技术。两者都改变了人和机器交互的方式,降低人类了操控复杂机器的难度。
5,代码开发服务:GitHub CoPilotX
此前,GitHub就发布了叫GitHub Copilot的服务,它使用了OpenAI的Codex来提示代码,生成完成的函数。
此次发布的GitHub CoPilot X则是一个威力加强版,它使用了最新的GPT-4,用户可以通过对话和终端命令行的方式来使用它。Copilot X的能力能贯穿整个开发流程,能将开发速度提高55%。
GPT-4可以生成代码,不仅能省去了程序员需要去找代码块的麻烦,还能独立生成一些小的程序的代码,比如开发一个乒乓球小游戏。GPT-4可以辅助程序员调Bug,修改和完善代码。此外,GPT-4独立完成度最高的做单元测试,能省去很多开发时间。
不出意外,GPT-4具备的能力都能给到GitHub CoPilot X,而且会以更具备生产力的方式来提供。
6,OpenAI发布ChatGPT插件功能
OpenAI在ChatGPT中实现了对插件的初步支持,这里说的插件是专门为语言模型设计的工具,以安全为最核心原则。
插件可以帮助ChatGPT访问最新的信息,或使用第三方服务。比如,帮你计划旅行或者购买杂货。它就像Chrome浏览器的插件,作为功能扩展,拓展ChatGPT的使用场景。
其中蕴含着无数的应用创新空间,也就是创业空间。
7,微软发布Copilot for Microsoft 365.
微软Office全家桶也用上了ChatGPT的能力,以自然语言对话的方式,调出Copilot帮你实现想实现的功能。
比如Word排版,PPT美化,Excel函数作图,所有原本枯燥的操作都可以用自然语言调用AI来试试。
让无数乙方在电脑面前体验一把当甲方的感觉。
到底,Office 365是提高一些人的生产力,还是抢走一部分人的饭碗呢?中国用户在慎重考虑这个问题前,得先确认该服务是否会在中国市场推出。
8,生产力设计软件公司Adobe发布Firefly(萤火虫)
如果说Stable Diffusion和Midjourney让人觉得离生产力还有一步之遥,那么,Adobe发布Firefly就是走完了这一步。
Adobe发布的Demo显示,Firefly的模型似乎更懂设计风格,整体出的设计物风格明亮,质量也都比较。
在我看来,目前Stable Diffusion社区的很多模型本身都是围绕人来做的,而Firefly的模型不局限于此,内容层次更丰富一些,更适合生产力的场景。
Adobe的Firefly值得所有靠Adobe软件吃饭的人去关注,因为下阶段,要改变的不只是图片,视频,甚至还有音频以及更多东西。
9,先进大模型走向封闭
OpenAI原本是非盈利组织,后来转为有限的盈利,OpenAI开源了GPT-2,但从GPT-3开始就不再开源,随后的GPT-3.5和GPT-4都是如此。
随着更强的GPT-4的发布,网上对于OpenAI不开放的不满越来越多,对于OpenAI不Open,有的人表示支持,有的人则非常不满。
“不Open”的支持者认为,OpenAI技术将会给现实社会带来很多冲击,所以,不开源可以减少这种冲击。
“不Open”的反对者认为,超强的技术不应该只掌握在少数人手里,对于没有这种能力的人来说,这是不公平的。
包括亚马逊云科技和英特尔等在内的大型科技公司都支持AI民主化,而OpenAI作为领先AI技术的研发者,至少现阶段选择了模型完全不开源,模型的能力有限开放。
笔者看法比较像和稀泥。毕竟,AI发展的太快,连用法我们都没掌握好,其中潜在的风险可能也充满未知。总之,想要向积极的方向发展,一定得防范不好的方面。
10,开源大语言模型也来了
与OpenAI的闭源不一样,我们也看到国内清华大学的ChatGLM和斯坦福大学的Alpaca是开源的,并且,两个都支持部署到个人电脑上。
必须要说明的是,ChatGLM是研发团队开源的,而Alpaca是从Meta泄露的LLaMa大模型上训练而来的,Meta官方并没有开源。
目前,ChatGLM和Alpaca的表现跟ChatGPT的差距都比较大,下载体验的人也都是处于好奇和研究性质的,距离生产力还有较大距离。与之对应的是,其潜在的危害性也相对较小。