(飞桨)AIGC技术与应用公开课笔记
摘要:百度飞桨关于AIGC在行业中应用的解读(概况介绍,约等于产品汇报)
综述:应用与趋势
- AI Generated Content,内容生产从用户实体到AI辅助
- 大模型、大数据、预训练大基座、任务微调
应用:
- 文本生成:给定主题文字写一篇文章
- 对话:小度智能语音,chatGPT
- TTV:文本转视频(text 2 video)
- 文生图:文本转图片
趋势:
- 算法性能提升,生成效果提升
- AIGC深度融合,多种应用模式统一
- 与其他学科交叉,从辅助创造走向替代协作
AI绘画技术解析
技术演进:
GAN:
AR(Auto-regressive):将图像压缩到一个离散的空间形成一个视觉Token,用transformer建模文本序列和图像序列之间的关系
Diffusion Model:从一个高斯噪声中还原一副图像,基于扩散模型
TTV技术解析
目标:
- 文本字幕:信息压缩、风格改写
- 视觉素材:如何构建素材库,如何匹配拼接
- 语音:语音与内容协调、背景音乐
- 数字人:场景互动
- 计算:多任务、多模态,理解、抽取、生成、检索
主要难题:多元异构的复杂系统
- 数据模态异构,难以统一表示和对齐
- 任务众多、计算成本高
思路:
- 模拟创作者流程进行模块涉及
- 基于大模型统一模态学习
- 相关任务统一建模
- 模型蒸馏,降低模型复杂度
基础技术:统一模态学习,支持异构模态理解与生成
- 异构数据统一编码联合学习,通过跨模态对比学习和跨模态词典学习,将不同模态信息对齐到同一个语义空间
技术技术:通用生成引擎
(飞桨)AIGC技术与应用公开课笔记
https://github.com/CZX-Yui/2023/04/06/(飞桨)AIGC技术与应用公开课笔记/