继ChatGPT之后, 视频生成大模型Sora又一次掀起了全球智能化浪潮. Sora借助跨模态基础模型(Foundation model)的强大能力, 初步展现出世界模拟器的潜力, 加速从语言智能向想象智能的转变. 在此背景下, 生成式人工智能(Generative artificial intelligence, GenAI)作为实现通用人工智能(Artificial general intelligence, AGI)的重要方式之一, 成为各国重点关注的领域. 近年来, 我国高度重视新质生产力的发展, 在生成式人工智能领域也呈现出“百模大战”的繁荣局面, 但在创新首发、最高水准等方面整体水平距离世界先进仍有不小差距. 因此, 应对挑战, 从算力、数据、算法、人才、产业、安全、治理等方面探讨应对策略, 成为当务之急.
本文首先简述国内外生成式人工智能的起源、发展与现状, 在此基础上从数据、算力、算法、生态等方面对中外生成式人工智能发展进行对比、分析. 面对我国生成式人工智能所面临的挑战, 讨论相应的对策, 特别是探讨区块链技术、DAO与DeSci机制对于建立智能联邦生态和基础智能系统的重要意义, 最后展望生成式人工智能的未来发展与社会影响.
1. 国外发展现状
1.1 理论与算法概述
基于大模型的生成式人工智能(GenAI)涉及多种算法、模型和理论, 而深度学习则是构建这些模型的基石. 深度学习利用多层神经网络来学习输入数据中的复杂模式和规律, 实现了对数据特征的高效提取和表示. 深度学习的研究历史可以追溯到上世纪50年代和60年代, 由于当时计算资源有限、数据稀缺以及算法的限制, 深度学习并没有受到广泛的关注和应用. 直到20世纪末和21世纪初, 随着计算机性能的提升和大规模数据的可用性增加, 卷积神经网络(CNNs)、循环神经网络(RNNs)、深度信念网络(Deep belief networks)等深度学习模型先后被提出, 尤其是在2012年, AlexNet在ImageNet数据集上取得了显著的性能提升, 引发了广泛的关注和热议, 深度学习开始逐渐成为人工智能领域的研究热点. 深度学习的另一个里程碑是Vaswani等于2017年提出Transformer, 其引入了自注意力机制(Self-Attention mechanism), 使得模型能够在不依赖于序列位置的情况下对自然语言序列中的单词进行建模, 有效地捕捉长距离依赖关系. Transformer不仅被应用于机器翻译、语言建模、文本生成等自然语言处理任务, 还被广泛应用于图片、视频、语音处理与分析等多个领域
随着Transformer的出现, 深度学习模型规模迅速扩大, BERT、GPT等一系列预训练语言大模型在自然语言处理领域取得突破性进展, 在包括文本生成、问答、阅读理解、逻辑推理等几乎所有自然语言处理任务上取得了最高技术水平 (State of the art, SOTA) 在此基础上, OpenAI开发了基于GPT-3.5及以上版本的ChatGPT, 由于其出色的对话生成性能, 引发了人们对智能对话系统的广泛兴趣和关注, 成为了近年来研究和应用领域的热点之一. 随着基于Transformer的预训练模型在自然语言处理领域取得成功, 该技术在计算机视觉和多模态预训练模型领域也开始得到应用, 并展现出了出色的性能
另一方面, 扩散模型(Diffusion models)也是一类生成式人工智能模型, 它们通过模拟数据的扩散过程来生成新的样本. 这些模型的工作原理类似于物理学中的扩散过程, 即从高浓度区域向低浓度区域逐渐扩散, 直至达到平衡状态. 在生成任务中, 扩散模型通常从一个随机噪声分布开始, 然后逐步引导这个噪声向目标数据分布转变. 这个过程可以通过迭代的方式进行, 每一步都会使噪声更加接近真实的数据分布. 具体来说, 扩散模型包含两个主要阶段: 正向扩散(Forward process)和反向生成(Reverse process). 扩散模型在图像生成、文本生成等领域表现出色, 能够生成高质量的样本. 与其他生成模型如生成对抗网络(GANs)和变分自编码器(VAEs)相比, 扩散模型具有独特的优势, 例如更好的样本多样性和更平滑的生成过程.