行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

CTO100出海产业研习团-华东站内容精选

2024-04-23 腾讯郭生根

核心观点与关键数据

诽谤造谣与资讯造假

人脸伪造鉴别：通过多空间注意力头关注空间特征，使用纹理增强模块放大浅层伪影，提升对真实与伪造人脸的识别准确度。
泛化研究：涉及多个视觉大模型的世界知识特征获取能力。
数据增强：结合视觉大模型与领域模型融合提升性能。

智能文档处理技术

应用范围：结合企业各部门需求，提升工作效率、优化业务流程、降低成本，实现高效信息化管理。
收益：
- 提高工作效率：快速识别、分析、提取文档信息，减少人工处理时间。
- 优化业务流程：自动梳理业务流程，发现潜在问题。
- 降低成本支出：减少人工干预，降低人力成本。
- 实现智能决策：整合信息形成知识库，支持管理层决策。
数字化升级本质：金融作业流程再造，打造敏捷主动的营销/风险管理体系。

图像处理技术

切边后图像：提升展示美观度，提高下游任务（OCR识别等）的准确率。
形变矫正：改善展示效果，提升下游任务（OCR、版面分析等）的准确率。
消除屏幕纹：提高图像、文字清晰度。
应用场景：教育、保险、银行、医疗、商务办公等。

流水、合同造假识别与欺诈图像识别

技术主题：文档图像分析识别与理解。
GPT4-V在IDP领域的表现：端到端解决识别和理解问题，认知能力强，支持多种文档元素类型，但OCR精度仍有提升空间。

AIGC在行业中的应用

当前模型基础：以SD 1.5和SDXL 1.0为主。
Stability AI发布：支持一步采样，一秒出大图。
常用扩展：Segment Anything、Deforum、tagcomplete等。
Roop换脸：实现换脸效果。

多模态大模型发展

通用多模态大模型现状：学术效果与落地需求存在差距。
垂类多模态大模型：针对特定业务场景，如ChartLLama、ShapeGPT。
Agent应用：基于多模态大模型的智能体，实现逻辑推理、智能交互、工具调用。

腾讯云应用能力

市场地位：亚太视频云市场No.1，腾讯云音视频服务能力排名第一。
应用场景：出海先机，抢占市场。

研究结论

智能文档处理技术与图像处理技术显著提升企业信息化管理水平。
AIGC技术快速发展，多模态大模型在垂类场景中更具可行性。
腾讯云在音视频及AI领域具备领先优势，助力企业实现数字化转型。

诽谤造谣资讯造假人脸伪造鉴别定义1 模型结构2 通过多个空间注意力头来关注空间特征，并使用纹理增强模块放大浅层特征中的细微伪影，增强模型对真实人脸和伪造人脸的感知与判断准确度。 Zhao H, Zhou W, Chen D, et al. Multi-attentional deepfake detection[C]//Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition. 2021: 2185-2194. 泛化研究3 多个视觉大模型世界知识特征获取能力数据增强视觉大模型+领域模型融合应用范围5 结合企业各部门场景需求，应用智能文档处理技术，提升工作效率、优化业务流程、降低成本支出，助力企业实现高效信息化管理提高工作效率智能文档处理技术快速识别、分析和提取文档信息，减少人工处理时间，降低出错率，大幅提升企业各部门的工作效率。优化业务流程借助智能文档处理技术，协助企业自动梳理业务流程，发现潜在问题，实现流程优化，提升业务运营能力。降低成本支出场景结合智能文档处理技术，减少人工干预，降低人力成本。同时，提高信息处理质量，降低因错误造成的额外支出。实现智能决策智能文档处理技术能整合各部门信息，形成知识库，提供准确的数据支持与分析支持，助力企业管理层做出更明智的决策。数字化升级本质：金融作业流程再造，打造敏捷主动的营销 / 风险管理体系切边后图像带来的收益更好的展示（美观度）提升下游任务(OCR识别，信息抽取等)的准确率应用场景票据识别会议拍摄PPT... 形变类型弯曲、折叠、皱、透视、混合弯折... 形变矫正后图像带来的收益更好的展示（美观度）提升下游任务(OCR识别，版面分析/还原等)的准确率应用场景教育、保险、银行、医疗、商务办公等消除屏幕纹对画质的干扰提高图像、文字清晰度应用场景：各类屏幕翻拍场景流水、合同造假识别欺诈图像识别原始图像文档图像分析识别与理解的研究主题 GPT4-V在IDP领域的表现 Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现不⾜优势 •OCR精度距离SOTA有较大差距•长文档依赖外部的OCR/文档解析引擎 •端到端解决识别和理解问题，认知能力强•支持识别和理解的文档元素类型远超传统IDP算法 GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界，端到端实现了文档的识别到理解的全过程，并且提供了一条新的研发范式：大数据，大算力，多任务，端到端男孩，蓝眼睛，模糊，景深，头戴眼镜，手套，护目镜，戴着头护目镜，无袖，微笑，单人，上半身等距掩体，逼真，苏联国旗，红色，电子游戏年龄变化 • • • • AIGC在⾏业中的发展与应⽤当前C站模型基本以SD 1.5 和SDXL 1.0为基础模型 2023年11月底 Stability AI 发布没有最快，只有更快，支持一步采样，一秒出大图 ControlNet 1.0 ControlNet 1.1 Scribble涂鸦 •模型微调：源于LLM，也被SD模型采用•无需修改SD基础模型权重，加载额外权重•小尺寸：几百MB•只需10张图既可训练•社区活跃：Huggingface超过900个文生图LoRA•多数SD LoRA基于SD 1.5基础模型•SD-WebUI 上安装便捷•功能：提高图片质量，风格，角色，服装，物体一些常用扩展 Segment Anything 分割Deforum 生成视频tagcomplete 标签补全Civitai Helper C站帮手OpenPose Editor 图像姿势识别Additional Networks 使用LoRA生成图像roop 换脸Tiled diffusion放大Adetailer 脸部修复Tiled VAE结合上面那个插件使用节省显存Lora Block WeightLoRA分层控制Multidiffusion Upscaler 多区域融合绘制图像高清修复图像 Roop 换脸 MotionCtrl 视频生成 PhotoMaker 写真电商商拍游戏美术图漫画动画小说插图广告图工业设计产品设计装修设计IP创作AI相机视频特效众多行业场景多种基础模型：多样风格，上万个基础模型多个ControlNet：边缘，姿态，背景等图像控制，上千LoRA，上百ControlNet多个扩展：换脸，修脸，分割等，上百扩展插件复杂模型应用一个可以串联起复杂SD模型应用的框架 webui优势 ü生态好：支持各种模型，ControlNet, LoRA，扩展插件ü使用方便：界面配置绘图参数ü支持二次开发：代码开源，社区贡献者多ü版本迭代快：支持SDXL1.0，ComfyUI等最新能力问题三：无算子优化文生图GPU：A101024*1024，batch 1, steps 20webui : 5秒问题二：无批量任务调度界面绘图：webui界面绘图，只能串行作业 API绘图：有API封装，但是需要二次开发无请求队列，有请求超时问题图生图（3个ControlNet）GPU：A100680*1020, batch 4, steps 30webui : 20秒解决方案 ü所有业务服务共享同一套CFS文件存储üA10/A100GPU实例内存配置高，可缓存更多模型权重ü优化模型只需首次加载预热ü基础模型切换秒级üLoRA切换无感知üControlNet一次优化模型优化：主要是优化UNET和VAE模型算子优化模型加载优化吞吐优化显存占用优化：显存复用服务层：三种不同方案满足不同业务和技术背景的客户方案一：TKE云原生，适合容器云原生背景且有SD加速需求的客户方案二：TI平台，适合习惯界面管理方案三：SCF云原生Serverless，适合临时弹性需求和初学者代码层：容器镜像仓库TCR 解决webui二次开发的需求；预装GPU驱动，CUDA，cuDNN，SD推理加速相关的类库（tiacc, lyrasd) 算力层：GPU实例推荐A100，A10，4090，L40S 模型存储层：文件存储CFS 解决大量（几百上千）模型文件存储和快速加载的问题提示词要素 Prompt 主体 subject媒介medium风格style艺术家artist画质 quality分辨率resolution额外细节 additional details色调color光影lighting (masterpiece,bestquality:1.3),(nohuman),Comfortablenaturallight,3drendering,8K,cylinder,curtain,metalball,arch,plant,(bluetheme:1.2), Negative prompt "NSFW,(worst quality:2),(low quality:2),(normal quality:2),lowres,normalquality,((monochrome)),((grayscale)),Short hair,acnes,skin blemishes,agespot,(ugly:1),(duplicate:1.4),(morbid:1.21),(mutilated:1.21),(tranny:1.331),(mutated hands:1.5),(poorly drawn hands:1.5),blurry,(bad anatomy:1.21),(badproportions:1.331),(extra limbs:1.331),(disfigured:1.331),(missingarms:1.331),(extra legs:1.331),(fused fingers:1.61051),(too manyfingers:1.61051),(unclear eyes:1.331),lowers,bad hands,missing fingers,(extradigit:1.5),bad hands,missing fingers,(((extra arms and legs))),(blackskin),Twisted face,Ugly face,,(bad hands:1.4),(bad hands:1.4),(badhands:1.4),Children,Teenagers,Adults,Middle-aged,Seniors,Youngadults,Infants,Toddlers,Baby ,Boy,Girl,Head,hair,Forehead,Eyebrows,Eyes,Nose,Face,Ears,Mouth,UpperBody,Neck,Shoulders,Chest,Arms,Elbows,Wrists,Hands,Fingers,LowerBody,Back,Waist,Abdomen,Hips,Legs,Knees,Ankles,Feet,Toes", 提示词语法 (word) ：将括号内的提示词权重提高 1.1 倍((word))：将括号内的提示词权重提高 1.21 倍（= 1.1 * 1.1）[word]：将括号内的提示词权重降低 1.1 倍(word:1.5)：将括号内的提示词权重提高 1.5 倍(word:0.25)：将括号内的提示词权重减少4 倍（= 1 / 0.25）数据中心级显卡A100 （40G/80G），A10 （24G）L40S （48G），V100 （32G）无显卡或集成显卡少数配置高端消费卡云存储按用量付费可以使用英伟达TRT加速（需要有编程能力，熟悉模型结构）无推理作业调度推理加速即开即用大批量作业调度绘大图会爆显存出图慢，效率低可以绘大图出图快，效率高三种部署方案：容器云原生，PaaS平台，Serverless云原生三个加速套件：LyraSD，TACO， TIACC三个基础服务：GPU算力，TCR存放镜像，CFS存放模型四大方案优势：基于节点的流程式SD绘图工具，将SD的流程拆分成节点，实现更精准和更复杂的绘图工作出图速度更快：相比webui 快约20%显存占用更低：出大图片不会爆显存可以和webui共享模型支持SD 1.5，2.0，2.1模型通过图片一键导出导入工作流支持运行时调优 2023年9月13号（V2），ControlNet作者张吕敏发布兼具WebUI的生态和Midjourney的易用性，MJ免费平替界面更简洁出图更快，最低4G显存就可以运行只支持 SDXL 1.0 基础模型绘图只需设置：风格提示词功能：翻译，词库 2023年11月2号Stability AI 发布基于SD基础模型的视频生成模型最多支持30FPS 仅用于研究目的近能生成最多4秒的视

点击免费查看完整报告

CTO100出海产业研习团-华东站内容精选

核心观点与关键数据

诽谤造谣与资讯造假

智能文档处理技术

图像处理技术

流水、合同造假识别与欺诈图像识别

AIGC在行业中的应用

多模态大模型发展

腾讯云应用能力

研究结论

你可能感兴趣

CTO100内容精选——出海研习团北京站

CTO100内容精选--互联网研习团山西站

CTO100内容精选--互联网研习团东北站

CTO100内容精选-四川站

CTO100内容精选-清远站

CTO100出海产业研习营-演讲材料

食品饮料行业论坛内容精选：产业思维下的加速升级与变局

百度数字人天团创新内容解决方案

Token出海与Token分润寻找跟随Token指数级增长的方向天风计算机团

[红包]机械出口专题：外部环境改善，工业品出海预期差逐步显现【财通机械佘炜超团

CTO100出海产业研习团-华东站内容精选

你可能感兴趣

CTO100内容精选——出海研习团北京站

CTO100内容精选--互联网研习团山西站

CTO100内容精选--互联网研习团东北站

CTO100内容精选-四川站

CTO100内容精选-清远站

CTO100出海产业研习营-演讲材料

食品饮料行业论坛内容精选：产业思维下的加速升级与变局

百度数字人天团创新内容解决方案

Token出海与Token分润寻找跟随Token指数级增长的方向天风计算机团

[红包]机械出口专题： 外部环境改善，工业品出海预期差逐步显现【财通机械佘炜超团

[红包]机械出口专题：外部环境改善，工业品出海预期差逐步显现【财通机械佘炜超团