AI智能总结
诽谤造谣 资讯造假 人脸伪造鉴别定义1 模型结构2 通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。 Zhao H, Zhou W, Chen D, et al. Multi-attentional deepfake detection[C]//Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition. 2021: 2185-2194. 泛化研究3 多个视觉大模型世界知识特征获取能力 数据增强 视觉大模型+领域模型融合 应用范围5 结合企业各部门场景需求,应用智能文档处理技术,提升工作效率、优化业务流程、降低成本支出,助力企业实现高效信息化管理 提高工作效率 智能文档处理技术快速识别、分析和提取文档信息,减少人工处理时间,降低出错率,大幅提升企业各部门的工作效率。 优化业务流程 借助智能文档处理技术,协助企业自动梳理业务流程,发现潜在问题,实现流程优化,提升业务运营能力。 降低成本支出 场景结合智能文档处理技术,减少人工干预,降低人力成本。同时,提高信息处理质量,降低因错误造成的额外支出。 实现智能决策 智能文档处理技术能整合各部门信息,形成知识库,提供准确的数据支持与分析支持,助力企业管理层做出更明智的决策。 数 字 化 升 级 本 质 :金 融 作 业 流 程 再 造 , 打 造 敏 捷 主 动 的 营 销 / 风 险 管 理 体 系 切边后图像带来的收益 更好的展示(美观度)提升下游任务(OCR识别,信息抽取等)的准确率 应用场景 票据识别会议拍摄PPT... 形变类型 弯曲、折叠、皱、透视、混合弯折... 形变矫正后图像带来的收益 更好的展示(美观度)提升下游任务(OCR识别,版面分析/还原等)的准确率 应用场景 教育、保险、银行、医疗、商务办公等 消除屏幕纹对画质的干扰提高图像、文字清晰度应用场景:各类屏幕翻拍场景 流水、合同造假识别 欺诈图像识别 原始图像 文 档 图 像 分 析 识 别 与 理 解的 研 究 主 题 GPT4-V在IDP领域的表现 Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 不⾜ 优势 •OCR精度距离SOTA有较大差距•长文档依赖外部的OCR/文档解析引擎 •端到端解决识别和理解问题,认知能力强•支持识别和理解的文档元素类型远超传统IDP算法 GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程,并且提供了一条新的研发范式:大数据,大算力,多任务,端到端 男孩,蓝眼睛,模糊,景深,头戴眼镜,手套,护目镜,戴着头护目镜,无袖,微笑,单人,上半身 等距掩体,逼真,苏联国旗,红色,电子游戏 年龄变化 • • • • AIGC在⾏业中的发展与应⽤ 当前C站模型基本以SD 1.5 和SDXL 1.0为基础模型 2023年11月底 Stability AI 发布 没有最快,只有更快,支持一步采样,一秒出大图 ControlNet 1.0 ControlNet 1.1 Scribble涂鸦 •模型微调 :源于LLM,也被SD模型采用•无需修改SD基础模型权重,加载额外权重•小尺寸:几百MB•只需10张图既可训练•社区活跃:Huggingface超过900个文生图LoRA•多数SD LoRA基于SD 1.5基础模型•SD-WebUI 上安装便捷•功能:提高图片质量,风格,角色,服装,物体 一些常用扩展 Segment Anything 分割Deforum 生成视频tagcomplete 标签补全Civitai Helper C站帮手OpenPose Editor 图像姿势识别Additional Networks 使用LoRA生成图像roop 换脸Tiled diffusion放大Adetailer 脸部修复Tiled VAE结合上面那个插件使用节省显存Lora Block WeightLoRA分层控制Multidiffusion Upscaler 多区域融合绘制图像 高清修复图像 Roop 换脸 MotionCtrl 视频生成 PhotoMaker 写真 电商商拍游戏美术图漫画动画小说插图广告图工业设计产品设计装修设计IP创作AI相机视频特效 众多行业场景 多种基础模型:多样风格,上万个基础模型多个ControlNet:边缘,姿态,背景等图像控制,上千LoRA,上百ControlNet多个扩展:换脸,修脸,分割等,上百扩展插件 复杂模型应用 一个可以串联起复杂SD模型应用的框架 webui优势 ü生态好:支持各种模型,ControlNet, LoRA,扩展插件ü使用方便:界面配置绘图参数ü支持二次开发:代码开源,社区贡献者多ü版本迭代快:支持SDXL1.0,ComfyUI等最新能力 问题三:无算子优化 文生图GPU:A101024*1024,batch 1, steps 20webui : 5秒 问题二:无批量任务调度 界面绘图:webui界面绘图,只能串行作业 API绘图:有API封装,但是需要二次开发无请求队列,有请求超时问题 图生图 (3个ControlNet)GPU:A100680*1020, batch 4, steps 30webui : 20秒 解决方案 ü所有业务服务共享同一套CFS文件存储üA10/A100GPU实例内存配置高,可缓存更多模型权重ü优化模型只需首次加载预热ü基础模型切换秒级üLoRA切换无感知üControlNet一次优化 模型优化:主要是优化UNET和VAE模型算子优化模型加载优化吞吐优化显存占用优化:显存复用 服务层:三种不同方案 满足不同业务和技术背景的客户方案一:TKE云原生,适合容器云原生背景且有SD加速需求的客户方案二:TI平台,适合习惯界面管理方案三:SCF云原生Serverless,适合临时弹性需求和初学者 代码层:容器镜像仓库TCR 解决webui二次开发的需求;预装GPU驱动,CUDA,cuDNN,SD推理加速相关的类库(tiacc, lyrasd) 算力层:GPU实例推荐A100,A10,4090,L40S 模型存储层:文件存储CFS 解决大量(几百上千)模型文件存储和快速加载的问题 提示词要素 Prompt 主体 subject媒介medium风格style艺术家artist画质 quality分辨率resolution额外细节 additional details色调color光影lighting (masterpiece,bestquality:1.3),(nohuman),Comfortablenaturallight,3drendering,8K,cylinder,curtain,metalball,arch,plant,(bluetheme:1.2),<lora:ds_C4Djihe:0.9> Negative prompt "NSFW,(worst quality:2),(low quality:2),(normal quality:2),lowres,normalquality,((monochrome)),((grayscale)),Short hair,acnes,skin blemishes,agespot,(ugly:1),(duplicate:1.4),(morbid:1.21),(mutilated:1.21),(tranny:1.331),(mutated hands:1.5),(poorly drawn hands:1.5),blurry,(bad anatomy:1.21),(badproportions:1.331),(extra limbs:1.331),(disfigured:1.331),(missingarms:1.331),(extra legs:1.331),(fused fingers:1.61051),(too manyfingers:1.61051),(unclear eyes:1.331),lowers,bad hands,missing fingers,(extradigit:1.5),bad hands,missing fingers,(((extra arms and legs))),(blackskin),Twisted face,Ugly face,,(bad hands:1.4),(bad hands:1.4),(badhands:1.4),Children,Teenagers,Adults,Middle-aged,Seniors,Youngadults,Infants,Toddlers,Baby ,Boy,Girl,Head,hair,Forehead,Eyebrows,Eyes,Nose,Face,Ears,Mouth,UpperBody,Neck,Shoulders,Chest,Arms,Elbows,Wrists,Hands,Fingers,LowerBody,Back,Waist,Abdomen,Hips,Legs,Knees,Ankles,Feet,Toes", 提示词语法 (word) :将括号内的提示词权重提高 1.1 倍((word)):将括号内的提示词权重提高 1.21 倍 (= 1.1 * 1.1)[word]:将括号内的提示词权重降低 1.1 倍(word:1.5):将括号内的提示词权重提高 1.5 倍(word:0.25):将括号内的提示词权重减少4 倍(= 1 / 0.25) 数据中心级显卡A100 (40G/80G),A10 (24G)L40S (48G),V100 (32G) 无显卡或集成显卡少数配置高端消费卡 云存储按用量付费 可以使用英伟达TRT加速(需要有编程能力,熟悉模型结构)无推理作业调度 推理加速即开即用大批量作业调度 绘大图会爆显存出图慢,效率低 可以绘大图出图快,效率高 三种部署方案:容器云原生,PaaS平台,Serverless云原生三个加速套件:LyraSD,TACO, TIACC三个基础服务:GPU算力,TCR存放镜像,CFS存放模型 四大方案优势: 基于节点的流程式SD绘图工具,将SD的流程拆分成节点,实现更精准和更复杂的绘图工作 出图速度更快:相比webui 快约20%显存占用更低:出大图片不会爆显存可以和webui共享模型支持SD 1.5,2.0,2.1模型通过图片一键导出导入工作流支持运行时调优 2023年9月13号(V2),ControlNet作者张吕敏发布兼具WebUI的生态和Midjourney的易用性,MJ免费平替 界面更简洁出图更快,最低4G显存就可以运行只支持 SDXL 1.0 基础模型 绘图只需设置:风格提示词功能:翻译,词库 2023年11月2号Stability AI 发布基于SD基础模型的视频生成模型最多支持30FPS 仅用于研究目的近能生成最多4秒的视