诽谤造谣
资讯造假
人脸伪造鉴别定义1
模型结构2
通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。
Zhao H, Zhou W, Chen D, et al. Multi-attentional deepfake detection[C]//Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition. 2021: 2185-2194.
泛化研究3
多个视觉大模型世界知识特征获取能力
数据增强
视觉大模型+领域模型融合
应用范围5
结合企业各部门场景需求,应用智能文档处理技术,提升工作效率、优化业务流程、降低成本支出,助力企业实现高效信息化管理
提高工作效率
智能文档处理技术快速识别、分析和提取文档信息,减少人工处理时间,降低出错率,大幅提升企业各部门的工作效率。
优化业务流程
借助智能文档处理技术,协助企业自动梳理业务流程,发现潜在问题,实现流程优化,提升业务运营能力。
降低成本支出
场景结合智能文档处理技术,减少人工干预,降低人力成本。同时,提高信息处理质量,降低因错误造成的额外支出。
实现智能决策
智能文档处理技术能整合各部门信息,形成知识库,提供准确的数据支持与分析支持,助力企业管理层做出更明智的决策。
数 字 化 升 级 本 质 :金 融 作 业 流 程 再 造 , 打 造 敏 捷 主 动 的 营 销 / 风 险 管 理 体 系
切边后图像带来的收益
更好的展示(美观度)提升下游任务(OCR识别,信息抽取等)的准确率
应用场景
票据识别会议拍摄PPT...
形变类型
弯曲、折叠、皱、透视、混合弯折...
形变矫正后图像带来的收益
更好的展示(美观度)提升下游任务(OCR识别,版面分析/还原等)的准确率
应用场景
教育、保险、银行、医疗、商务办公等
消除屏幕纹对画质的干扰提高图像、文字清晰度应用场景:各类屏幕翻拍场景
流水、合同造假识别
欺诈图像识别
原始图像
文 档 图 像 分 析 识 别 与 理 解的 研 究 主 题
GPT4-V在IDP领域的表现
Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
Z. Yang et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv, 2023
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
GPT4-V在IDP领域的表现
不⾜
优势
•OCR精度距离SOTA有较大差距•长文档依赖外部的OCR/文档解析引擎
•端到端解决识别和理解问题,认知能力强•支持识别和理解的文档元素类型远超传统IDP算法
GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程,并且提供了一条新的研发范式:大数据,大算力,多任务,端到端
男孩,蓝眼睛,模糊,景深,头戴眼镜,手套,护目镜,戴着头护目镜,无袖,微笑,单人,上半身
等距掩体,逼真,苏联国旗,红色,电子游戏
年龄变化
•
•
•
•
AIGC在⾏业中的发展与应⽤
当前C站模型基本以SD 1.5 和SDXL 1.0为基础模型
2023年11月底 Stability AI 发布
没有最快,只有更快,支持一步采样,一秒出大图
ControlNet 1.0
ControlNet 1.1
Scribble涂鸦
•模型微调 :源于LLM,也被SD模型采用•无需修改SD基础模型权重,加载额外权重•小尺寸:几百MB•只需10张图既可训练•社区活跃:Huggingface超过900个文生图LoRA•多数SD LoRA基于SD 1.5基础模型•SD-WebUI 上安装便捷•功能:提高图片质量,风格,角色,服装,物体
一些常用扩展
Segment Anything 分割Deforum 生成视频tagcomplete 标签补全Civitai Helper C站帮手OpenPose Editor 图像姿势识别Additional Networks 使用LoRA生成图像roop 换脸Tiled diffusion放大Adetailer 脸部修复Tiled VAE结合上面那个插件使用节省显存Lora Block WeightLoRA分层控制Multidiffusion Upscaler 多区域融合绘制图像 高清修复图像
Roop 换脸
MotionCtrl 视频生成
PhotoMaker 写真
电商商拍游戏美术图漫画动画小说插图广告图工业设计产品设计装修设计IP创作AI相机视频特效
众多行业场景
多种基础模型:多样风格,上万个基础模型多个ControlNet:边缘,姿态,背景等图像控制,上千LoRA,上百ControlNet多个扩展:换脸,修脸,分割等,上百扩展插件
复杂模型应用
一个可以串联起复杂SD模型应用的框架
webui优势
ü生态好:支持各种模型,ControlNet, LoRA,扩展插件ü使用方便:界面配置绘图参数ü支持二次开发:代码开源,社区贡献者多ü版本迭代快:支持SDXL1.0,ComfyUI等最新能力
问题三:无算子优化
文生图GPU:A101024*1024,batch 1, steps 20webui : 5秒
问题二:无批量任务调度
界面绘图:webui界面绘图,只能串行作业
API绘图:有API封装,但是需要二次开发无请求队列,有请求超时问题
图生图 (3个ControlNet)GPU:A100680*1020, batch 4, steps 30webui : 20秒
解决方案
ü所有业务服务共享同一套CFS文件存储üA10/A100GPU实例内存配置高,可缓存更多模型权重ü优化模型只需首次加载预热ü基础模型切换秒级üLoRA切换无感知üControlNet一次优化
模型优化:主要是优化UNET和VAE模型算子优化模型加载优化吞吐优化显存占用优化:显存复用
服务层:三种不同方案
满足不同业务和技术背景的客户方案一:TKE云原生,适合容器云原生背景且有SD加速需求的客户方案二:TI平台,适合习惯界面管理方案三:SCF云原生Serverless,适合临时弹性需求和初学者
代码层:容器镜像仓库TCR
解决webui二次开发的需求;预装GPU驱动,CUDA,cuDNN,SD推理加速相关的类库(tiacc, lyrasd)
算力层:GPU实例推荐A100,A10,4090,L40S
模型存储层:文件存储CFS
解决大量(几百上千)模型文件存储和快速加载的问题
提示词要素
Prompt
主体 subject媒介medium风格style艺术家artist画质 quality分辨率resolution额外细节 additional details色调color光影lighting
(masterpiece,bestquality:1.3),(nohuman),Comfortablenaturallight,3drendering,8K,cylinder,curtain,metalball,arch,plant,(bluetheme:1.2),