AI智能总结
清华大学新闻学院、人工智能学院 2024年11月 团队简介 @新媒沈阳 沈阳为清华大学新闻学院/人工智能学院教授、博导,清华大学新闻学院元宇宙文化实验室主任,清华大学新闻学院新媒体研究中心主任。从事多个教学科研领域,包括新闻传播学、计算机科学、信息管理学、医学。 领导学术研究团队近40人。指导AI元宇宙和机器人两个产业团队。团队已有众多大模型产业化和AIGC实施案例,有需要可留言联系。 团队坚持:整体主义的跨学科整合力,实证主义的实践导向,社会建构的产学研结合,进步主义的先锋探索精神,科学服务于大众的社会责任。 邮箱:124739259@qq.com;微博:@新媒沈阳 六大研究方向 元宇宙/虚拟数字人/大数据/AI系列研究 天人智一:融通物我和谐共生 中国古典哲学中的“天人合一”理念强调人与自然的深层和谐,将心或灵魂视为个体与宇宙沟通的纽带,展现内在精神与外在自然的紧密联结。随着人工智能时代的到来,这一理念逐步向“天人智一”转变,即通过AI技术延展人类智慧,攻克诸如意识起源、历史谜题等人类难题,大幅提升生产效率,从而解放人类劳动力,赋予更多时间与空间去追求个人的诗意生活,实现人与自然、技术的全面和谐。 人(人类) 智(人工智能) 天(自然) 一(三者共生) 作为不同于人类和自然的第三方,人工智能的介入帮助人类提升生产力,并更深入地理解世界与自身,进而实现人、自然和技术的和谐共处。 人工智能同人类灵魂融合为一,进而极大的解放人类生产力,提升工作效率。借此,人类得以更深入理解世界,实现人、机、自然和谐共处。 “天”不仅象征自然环境,还代表更广泛的宇宙秩序。被视为至高的存在,其运作规律是人类应当遵循和学习的。 “天人合一”强调人是自然的一部分,能理解并与自然和谐共处。人的行为和生活方式应与自然法则一致,以实现内外和谐。 问行合一:主动深思创新执行 在人工智能语境下,“问行合一”是指一种高效的人机交互理念,它融合了深度查询与精准执行。其中,“问”代表对未知或复杂问题的深度挖掘与探索,体现了人类对知识与智慧的追求;“行”则代表基于AI分析结果的迅速且精准的行动实施,彰显了人类对于机器智能输出的高效利用与转化。 此理念倡导在AI技术的辅助下,人类应持续深化提问的质量与深度,充分利用AI的数据挖掘与模式识别能力,探寻数据与知识背后的深层逻辑与规律。同时,人类需对AI的输出进行精准解读,并迅速转化为具有实际操作性的策略与行动,以实现人机协同的最大化效益。 问 行 探索性:“问”体现了对知识的主动探求,尤其是在使用AI时,用户通过提问来挖掘数据、寻找答案或解决问题。互动性:提问是用户与AI系统进行交互的一种方式,通过提问,用户可以引导AI提供更符合需求的信息。开放性:好的问题往往是开放性的,能够激发新的思考和发现,不局限于已有的知识和观点。 实践性:“行”是将知识和信息转化为实际行动的过程,它强调实践和应用。目标导向:行动是为了实现特定的目标或解决问题,具有明确的方向性。动态调整:行动过程中需要根据实际情况进行灵活调整,以达到最佳效果。 虚实存在论:互融交汇流转不息 认知融合,思维拓展,全景理解 镜像进化论:逆序生成模拟宇宙 内外认知论:认知外赋决策自持 认知融合时代 •如 果 将 人 类 以 往 的 一 切 认 知 定 义 为“人 类 普 遍 认 知”(Human General Cognition),而将AI产生的认知定义为“AI生成认知”(Artificial Intelligence GeneratedCognition),那么我们当前正处于一个重要的临界点。 •认知外包的同时,决策需要内源化 提示范畴论:任意为根潜在为机 AI三用:重构万象感知超凡 Ø探索与实验Ø社会与文化批判Ø未来预演 Ø创新与灵感源泉Ø心理与情感体验Ø教育与训练 AI自动化L1-L5:渐进提升全能自理 两者均以“AI自动化程度”为线索,但“L1-L5阶段”更为贴近该线索,强调AI在逐步减少人类干预的过程中实现完全自主,聚焦自动化发展的渐进演变。相较之下,Altman的AGI五阶段更具实践导向。 生成边界与思维滞环:僵局显现破题之道 生成边界指AI模型在理解、创造与创新方面的能力极限,体现了其认知能力的实际限制。当用户的交互触及或超越这一边界时,AI无法突破自身局限,进而引发思维滞环现象。该现象表现为AI在多轮对话中重复内容、缺乏新意或无法满足用户的新增需求。这一现象反映了AI模型在复杂互动中的认知限制,影响了其响应的多样性和实用性。 如何判定触及生成边界: 思维滞环可能出现原因: 思维滞环现象解决思路: 1.重复内容:AI生成的回答重复相似,缺乏新意2.推理不变:即使改变提问,AI的逻辑仍然不变,无法提供不同的结论3.回答表面化:AI只给出浅显的回答,无法深入分析4.语言模式相同:输出的句式和结构没有变化,显得单调5.忽略反馈:AI无法根据用户的反馈调整回答 1.指令执行分析:检查AI是否按要求添加或修改内容2.回答多样性测量:评估AI回答的新信息量和多样性3.上下文适应测试:观察AI能否根据新上下文调整回答4.情感语气变化检测:检测AI回答的情感和语气是否变化5.逻辑推理验证:观察AI在条件变化时是否调整推理 1.调整提问:改变问题方式,引导AI生成不同的回答2.优化训练:使用更多样的训练数据和算法,提高AI的多样性3.提供外部信息:引入新的知识库,帮助AI生成新内容4.调整模型参数:优化训练参数,避免模型陷入局部最优5.增加反馈回路:通过即时反馈修正AI的推理过程 未来学科划分:共生拓展智启新程 人机共生科学 优化和提升人工智能的能力。主要涉及AI的技术创新与发展,涵盖基础理论、应用技术以及未来可能的智能演进 人类如何驾驭人工智能/机器。实现更高效、更和谐的协作,提升人类的生活质量和社会效率,提高生产效率 •人类增强技术:提升人类能力的研究。•人机交互设计:优化人与机器的互动。•情感计算研究:AI识别和表达情感。•社会共生理论:探索AI融入社会方式。•具身认知科学:研究身体对认知影响。•健康科技创新:技术促进健康与康复。•媒介共生学:AI在媒体中的应用。 •机器学习算法:研究自我学习算法。•自然语言处理:AI理解和生成语言。•计算机视觉:AI解析图像和视频。•智能机器人学:开发智能机器人系统。•生成式AI技术:AI生成内容研究。•通用人工智能:探索全面智能系统。•AI伦理安全:研究AI的伦理与安全。 基座升级:快速演进未来可期 第 一 次 进 步–文 本 生 成 领 域 从 判 断 识 别 文 本 向 理 解 生 成 文 字 发 展 ,从 单 一 任 务 向 通 用 智 能 迈 进 ,O p e n A I掀 起A I G C革 命C h a t G P T使 得A I从“特 种 模 型”提 升 为“通 用 基 座” 第 二 次 进 步–视 频 生 成 领 域 从 静 态 图 像 生 成 向 动 态 视 频 创 作 推 进 ,从 认 识 二 维 平 面 到 模 仿 三 维 世 界 S o r a使 得A I从“图 像 绘 制 者”提 升 为“视 频 创 作 者” 第 三 次 进 步–逻 辑 推 理 领 域 从“模 仿 智 能”向“推 理 智 能”演 进 ,从 模 仿 人 的 常 识 到 模 仿 人 的 思 维O p e n A I o1使A I从“模 仿 者”提 升 为“慢 思 考 者” 生成机制:语料预学推理输出 具体框架:以“我喜欢吃苹果。”为例 AI缺陷:臆造之辞概率幻觉 AI幻觉(AI Hallucinations)是指生成式人工智能模型在生成文本或回答问题时,尽管表面上呈现出逻辑性和语法正确的形式,但其输出内容可能包含完全虚构、不准确或与事实不符的信息。 形成原因 AI幻觉的产生通常是由于模型在缺乏相关信息的情况下,通过概率性选择生成内容,而非基于真实世界的知识库或逻辑推理,这使得其输出不仅难以信赖,且可能误导用户。 除AI幻觉这一关键缺陷外,潜在的缺点与局限还包括可解释性、计算成本、数据偏见、实时更新、数据安全、个人隐私、恶意输出等。 AI幻觉:五类七特虚实迷域 OpenAI o1:跨代进化推理优先 o1模型的社会影响 添 加 标 题在 科 学 领 域 推 理 能 力 显 著 提 高 ,帮 助 研 究 人 员 进 行 更 深入 的 理 论 分 析 和 数 据 解 释 , 从 而 加 速 科 学 发 现 。 暴力推理的工程突破 AI推理的跨代进化 多领域的推理应用 “超智能Agents”的崛起 在 医 学 领 域 的 应 用 提 高 诊 断 准 确 性 , 辅 助 医 生 制 定 个 性化 治 疗 方 案 , 提 升 整 体 医 疗 服 务 质 量。 教育领域的深入探索 科学研究的辅助作用 在 教 育 领 域 帮 助 学 生 理 解 复 杂 的 数 学 和 科 学 概 念 , 提 供个 性 化 的 学 习 辅 导 , 提 升 教 育 效 果 。 人文社科研究能力排序 在 编 程领 域表 现 出 色 , 能 够 生 成 高 质 量 代 码 , 优 化 算 法 ,帮 助 开 发 者 提 高 生 产 力 。 博士生<4o <博士≈o1(理工科)<助理教授≈o1(人文社科)<副教授<教授<人机共生(教授+AI)<人类一流专家o1的认知推理能力,达到了理科博士和文科助理教授的水平 在 金 融 领 域 的 应 用 可 以 帮 助 分 析 复 杂 的 市 场 数 据 , 制 定投 资 策 略 , 优 化 风 险 管 理 , 提 高 金 融 决 策 的 准 确 性 。 在 内 容 创 作 和 编 辑 方 面 表 现 优 异 , 能 够 生 成 高 质 量 的 文本 , 帮 助 作 家 和 编 辑 提 高 工 作 效 率 。 在 咨 询 领 域能 够 帮 助 企 业 在 市 场 趋 势 预 测 、 战 略 规 划 、资 源 优 化 等 方 面 做 出 更 加 科 学 和 高 效 的 决 策 。 模式融合与进化 场景应用与突破 •智能制造提质增效•医疗辅助决策支持•金融风控体系建设 •提升预训练数据质量•优化提示词策略•增强工具调用能力•改进反馈机制 语言大模型:群雄逐鹿齐头并进 除OpenAI o1外,以下六大模型是全球大模型中综合表现最好的一批模型。 视频大模型:三足鼎立潮头涌动 Runway、可灵和Vidu是在视频大模型中较有竞争力的三个大模型,综合表现较好。 此外,OpenAI的Sora、抖音的PixelDance、Meta的Movie Gen也发出预告,但现在模型仍未对个人用户推出。 音乐大模型:众星捧月“一超多强” 在国内外一众音乐大模型中,Suno的表现最为优异,在音乐创作的全流程中表现出色。但Minimax、昆仑万维、腾讯、抖音、网易也在开发新功能并完善原有功能。 国外产品:爆款迭出生态繁荣 国内产品:百模大战格局初现 国产之路:特色效应着眼“五合” 国产大模型的中国道路 我国在新三样(电动汽车、锂电池和太阳能光伏)、集聚特色优势产业、短视频、直播带货和IT类文化部分领域创作上都做到了世界第一,国产大语言模型需发挥这些领域世界第一的中国优势,发挥长边效应,着眼“五样”,同优势产业共进发展。 生成式文、图、乐、剧 图灵测试:潜力尽显智能超越 OpenAI-o1在文本领域,Midjourney6.1在图像领域,Suno3.5在音乐领域,Vidu/可灵/Runway在视频领域,FSD12.5在自动驾驶领域相继事实通过图灵测试,推动了人类社会革新。 心目言三统一:智绘千里观机明理 AI艺术是“心目言”三统一,意味着艺术的自我观察和理解,体现了AI在艺术创作中的主动性和创造性;同时代表手的部分功能退化,为人类艺术创作提供了新的方法。