您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:AIGC发展研究1.0版0.91 - 发现报告
当前位置:首页/其他报告/报告详情/

AIGC发展研究1.0版0.91

2023-05-16-清华大学零***
AIGC发展研究1.0版0.91

AIGC发展研究(1.0版 修订号 0.91)清华大学新闻与传播学院元宇宙文化实验室@新媒沈阳 团队、 AIGC2023年5月16日(如有错误,提醒修订) 团队简介@新媒沈阳 沈阳为清华大学新闻学院教授、博导,清华大学新闻学院元宇宙文化实验室主任,清华大学新闻学院新媒体研究中心主任。从事多个教学科研领域,包括新闻传播学、计算机科学、信息管理学。 团队学术研究共有20多人。并指导AI元宇宙和机器人两个产业团队。团队已有众多元宇宙和AIGC实施案例,有需要可留言联系。团队坚持:整体主义的跨学科整合力,实证主义的实践导向,社会建构的产学研结合,进步主义的先锋探索精神,科学服务于大众的社会责任。邮箱:124739259@qq.com;微博:@新媒沈阳;研发的0.4~0.6版机器人开始应用于多个社会场景机器人近三年国内外AI比赛荣获30余项大奖,数据规模千亿量级,知识图谱7000万个节点,近期推出“先问”大模型AI和大数据发布元宇宙发展研究报告1.0版、2.0版、3.0版,阅读人数超过千万元宇宙研发含八个语种的网络舆论分析平台,提出舆论领域若干新概念和新方法网络舆论连续多年研究推特、微博、微信、短视频、XR,有一定数量的报告、讲座、论文新媒体主要研究方向 元宇宙/虚拟数字人/大数据/AI 系列研究未来媒体报告VR的新浪潮虚拟数字人发展研究报告3.0时空智能发展研究报告1.0虚拟数字人发展研究报告1.0大数据/AI/5G生态报告数字藏品发展研究报告1.0元宇宙发展研究报告1.0版虚拟数字人发展研究报告2.0韩国元宇宙动态研究报告元宇宙发展研究报告2.0版5G下一代风口:AR2022202120202019201720162015虚拟数字人系列元宇宙系列2007虚拟社区与虚拟时空隧道——溯源应用与发展——产业发展与技术标准——社会价值与风险治理3元宇宙发展研究报告3.0版 清华大学新闻学院元宇宙文化实验室国内高校最早一批成立的元宇宙实验室,国内首个带有文化属性的元宇宙实验室。中文在线是实验室产学研的支持单位,在未来媒体技术发展、元宇宙文创、元宇宙指数、虚拟数字人指数等元宇宙领域展开研究。打造成世界一流的具有行业前瞻性、理论开拓性、研发创新性的元宇宙科研机构。实验室提供了数十个体验环节。截至2023年4月底,元宇宙文化实验室已接待1531拨访客,共计约6606人次,涵盖中央和地方新闻媒体、各级政府机构、学界研究人员、研究学会、高校师生,业界知名互联网企业、中小型科技创新企业。在线举办第一场元宇宙沙龙筹建中的元宇宙研究室,接待第一批参观者2021年11月16日2022年3月29日接待院士参观2022年4月24日接待文旅部领导参观2022年3月10日2022年4月16日清华大学新闻与传播学院元宇宙文化实验室正式成立高中生第一次参观实验室2022年7月22日4 中文在线的元宇宙布局横跨内容IP、虚拟数字人、区块链、数字藏品、XR、垂类模型、应用场景、商业模式等。公司提出MWA(Metaverse、Web3.0、AIGC)科技系统驱动新一轮的内容革命,并发布元宇宙产品RESTART重启宇宙,是以《流浪地球》为世界观基底的国内首个科幻主题元宇宙。中文在线拥有的海量优质正版数据本身是庞大且高质量的语料库,能够大幅提高模型训练效果,数据体量已经超过了55TB。坐拥550万种数字内容资源、450万原创驻站作家、600余家签约版权机构的平台优势,AIGC的多模态能力作用于IP衍生孵化链条上,助力文字作品的有声化、动漫化、影视化等清华大学党委副书记 向波涛(左) 中文在线集团董事长兼总裁 童之磊(右)虚拟数字人VR/AR制定内容IP领域的虚拟数字人应用场景及商业变现模式产业支持单位:中文在线 图片大部分都是AIGC制作,碳基生物做图片较少,因为法律明确规定碳基生物(人类面部)版权,而硅基生物暂未有相关规定。在公共知识领域,尽量使用AIGC和ChatGPT抓取信息。本报告文字超过60%由AIGC自动生成,并经过人类进行适当修改创新知识和思考主要来自自然人,会利用AIGC完善自然人的理论创新和初步思考,加快知识生成速度。图片文字思维合规性公共性创新性本报告生成方式说明在体系和系统性上参考AIGC和ChatGPT在跨语种知识使用上依赖ChatGPT,学会所有语种对自然人是不可能的,如法语、德语、俄语、日语等等,现在借助ChatGPT能到任意语种熟练表达。结构语种系统性广泛性 技术篇 深度学习进化史:知识变轨 风起云涌 反向传播算法的提出人工神经网络的诞生 已发生的关键步骤GPU的使用大数据的出现预训练和迁移学习生成对抗网络(GAN)的发明自然语言处理的突破强化学习的成功应用即将发生的关键步骤通用人工智能(AGI)全维适应模型间的有效沟通与协作共享协作 人机共生融合与共生 模型解释性透明智慧模型道德和伦理价值同构,道德编码能源和计算效率环境兼容多模态学习模态融合网络结构和设计创新创新结构主义模型压缩与优化微缩优化新型学习方法元学习、生物启发式学习,生态学习、泛化能力安全性和鲁棒性社会影响和监管公正监管未来发展方向和挑战深度学习模型有望逐步演变为具有更高智能和自主性的新型生命体 灰色:词向量及早期训练模型蓝色:仅解码器模型粉红色:仅编码器模型绿色:编码器-解码器模型模型时间线的垂直位置:代表发布日期开源模型:实心方框闭源模型:空心方框右下角堆叠条形图:来自各公司和机构的模型数量大语言模型进化树:迁移学习 能力涌现引用:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ,JINGFENG YANG等分布式表示:用高维空间稠密向量捕获语言的复杂性规模效应:性能通常与模型大小(即参数数量)和训练数据量成正比领域自适应:源领域知识如何应用到目标领域 "Attention is All You Need":启蒙之光 界碑之作自注意力TransformerAIGC内容Transformer•并行计算力•自注意力机制•序列顺序灵活•模型简化~“分散式思维”~“自我聚焦”~“时空松弛”~“极简主义”Google于2017年发布的一篇论文,引入了Transformer模型,在自然语言处理(NLP)中引发了一场革命 ChatGPT:事实性通过图灵测试02为什么是chatGPT?l非线性创新l主流偏离,边缘性技术突破l黑天鹅l偶然性创新ChatGPT闭源之后,未公开的可能的秘密l数据洪流之后的涌现,增强学习的算法l维度扩展和神经网络复杂度增加,优化了自我监督学习的算法l对人类的反馈进行强化优化l提升模型可解释性l新的全局算法思维和实现,多模态学习算法,更先进的生成对抗网络(GANs)算法01 微调在特定任务,如对话系统中,可借助RLHF(基于人类反馈的强化学习)对模型进行微调以优化其在特定任务上的性能。系统设计设计一套系统来处理用户的输入,生成模型的响应,以及管理对话的上下文。评估和优化评估模型在特定任务上的表现,如对话生成质量、准确性等。部署和维护将对话系统部署到实际生产环境,并进行持续维护和更新。 数据收集需要大量的文本数据作为训练的基础模型选择GPT3.5使用的Transformer 模型由多个编码器和解码器层组成,每一层都使用自注意力机制和全连接网络。数据预处理预处理的步骤包括文本清理、标准化、分词。模型训练训练过程是基于自监督的;通过反向传播和梯度下降进行,以最小化预测错误Stage 01Stage 02Stage 03Stage 04验证和测试在一个单独的测试集上评估模型的性能。Stage 05chatGPT类软件的研发过程 预训练过程→人机对话系统 ChatGPT1/2/3/4:知新悟旧 纳微入精 GPT-1GPT-2GPT-3GPT-3.55GB预训练数据1.17亿参数40GB 预训练数据15亿参数45TB预训练数据1750亿参数基于人类反馈的强化学习(RLHF)理解图像、人类水平的专业和学术基准GPT-4注:GPT3.5和GPT4预训练数据和参数量官网尚未公布确切数据Ø参数扩展:参数规模数量呈指数级增长Ø预训练-微调范式:无标签文本数据预训练、特定任务微调、任务特化学习、细粒度的控制策略ØTransformer架构:高效并行计算和长距离依赖捕捉Ø自回归生成式预训练:生成连贯、富有逻辑的文本、连贯性生成Ø模型泛化能力:NLP任务中展现出更强的泛化能力、跨任务适应Ø零样本/少样本学习:有效学习、降低数据标注成本Ø多语言支持:跨语言的知识迁移和应用Ø开源与闭源:ChatGPT从开源到闭源引发巨大争议 GPT5/6/7/8:无尽探索 灵智飞升 •强化学习和自适应能力•知识表示与推理•能量效率与模型优化•人机协同与伦理道德•通用人工智能•混合推理和学习方法•多智能体协作•安全和可持续发展•人类水平的自然语言理解•高度集成的跨领域知识•更强的自适应和在线学习•强化道德伦理和人工智能政策•更大的模型规模•多模态学习与融合•更强的领域适应性和可定制化•更强的解释性和可控性GPT5GPT6GPT7 GPT8技术特性可能趋势•模型规模持续扩大•多模态学习•优化与压缩•可解释性与可控性•更强的领域适应性•更广泛的应用场景•协同学习和迁移学习•社会和道德影响关注 产品节奏:灰度演进 稳健狂飙01030405060702弹性计费API接口和tokens计费蓝海试探免费试用分层服务Plus订阅服务灰度演进如联网查找等。满足需求,保持的稳定,模块聚合行业定制Model Instance插件生态Plugin,构建插件生态敏捷迭代快速小版本迭代 推理过程:关联推测 择优输出 ü理解输入:分布式语义解析,首先会接收文本序列,转化为词向量,也称为嵌入。该过程基于分布式语义假设,即词义由其在上下文中的使用决定。ü参数关联:上下文焦点连锁,将这些词向量输入到Transformer的Encoder中生成上下文表示。可以看作是在其内部参数模型中寻找与输入相关的信息,也可视为一种连锁反应,因为每个词的上下文表示都取决于其前面的词的上下文表示。ü生成回答:生成性概率建模,模型初始化Transformer的Decoder部分,并将Encoder的输出(即上下文表示)和当前的输出序列一同输入到Decoder中。Decoder会生成下一个词的概率分布。选择概率最大或其他设定的概率分布的词作为输出,这个词将被添加到输出序列。ü选择最适回答:动态词串演化,重复上述步骤,每次都向输出序列中添加新的词,直到生成一个完整的输出序列。尽管该过程被称为推理,但ChatGPT开源版本并不进行明确的逻辑推理,它不能理解或推导复杂的事实。因为开源版本的ChatGPT并没有明确的知识或推理引擎,所有知识都是隐含在模型参数中的。 chatGPT缺陷:高阶推理 定位迷雾推理门槛 需高阶推理能力,如因果关系推断、扰动变量分析及反事实推理等。定位迷雾 需精准定位问题根源,对于更复杂问题的定位仍显得迷雾重重。知识盲区对于涉及专业秘密或整个大项目背景的知识,存在知识盲区。自我修正阻力每次回答产生错误的概率超过了能改正的概率,则系统的错误率难以实现有效的自我修正。可扩展性挑战对于更复杂的问题,正确率指数级下降。 提示语:激发灵感 生成精彩未来要做的增强工作:1.感知调谐 对输入和输出进行微调以获得更好的结果;2.跨模态互操作 能够理解图像或声音提示,并能够以文本、声音或图像的形式响应;3.动态化学习 使其能够根据用户的反馈和其自身的经验进行学习和改进;4.语境感知 更好地理解用户的语境和意图,以产生更准确和相关的回答;5.伦理透明 清楚地说明其决策的伦理基础,以提高用户对其决策的理解和信任。提示语可以使用不同的语言、表情符号或重复等方式来适应不同的任务和场景。灵活性精心设计的提示语