您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[硅基流动]:硅基流动高性能低成本的大模型推理云实践 - 发现报告

硅基流动高性能低成本的大模型推理云实践

信息技术2024-08-01陈凯硅基流动「***
AI智能总结
查看更多
硅基流动高性能低成本的大模型推理云实践

陈凯2024-08 内容提纲 •大模型推理云背景 •供给侧加速进化的大模型•需求测多样化的大模型需求 •大模型推理云挑战 •大模型推理挑战•推理上云的挑战 •大模型推理云实践 •核心引擎建设•推理云平台建设 •总结与回顾 大模型推理云背景:加速进化的大模型能力(以LLM为例) 1.https://informationisbeautiful.net/visualizations/the-rise-of-generative-ai-large-language-models-llms-like-chatgpt/2. https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard,2024年8月15日检索。 大模型推理云背景:多样化的大模型需求(以LLM为例) 内容提纲 •大模型推理云背景 •供给侧加速进化的大模型•需求测多样化的大模型需求 •大模型推理云挑战 •推理挑战•云上挑战 •大模型推理云实践•核心引擎建设•模型云建设 •总结与回顾 大模型推理挑战:需要严苛而昂贵的硬件资源 KV cache size = (batch_size)*(sequence_length)*2*(num_layers)*(hidden_size)*( pricision_in_bytes)(上图使用fp16,其中乘数2包含了K和V的矩阵) 1. Vaswani A. Attention is all you need[J]. arXiv preprint arXiv:1706.03762, 2017.2. https://huggingface.co/blog/llama313. https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/4. https://youtu.be/hMs8VNRy5Ys 大模型推理挑战:本身是一个慢而昂贵的任务 1. https://x.com/cocktailpeanut/status/18158766344924573192. https://www.autodl.com/market/list 大模型推理不可能三角:难满足质量好、模型快同时价格低 1. https://artificialanalysis.ai/models2. https://www.aidancooper.co.uk/how-to-beat-proprietary-llms3. https://x.com/cocktailpeanut/status/1815876634492457319 大模型推理云挑战:自部署模型服务的冷启挑战 1. https://hong.greatdk.com/2. https://greatdk.com/1962.html 大模型推理云挑战:自部署模型服务的冷启挑战 大模型推理云挑战:自部署服务的冷启、稳定性挑战 1. https://answers.microsoft.com/en-us/msoffice/forum/all/cannot-access-onenote-notebooks-error-message/8525998a-f8cd-4251-aee6-080b1b7be3d12. https://github.com/tensorflow/tensorflow/issues/193473. https://discuss.pytorch.org/t/coredump-when-registering-a-dispatched-operator-in-c-with-cuda-backend-only/170415 内容提纲 •大模型推理云背景 •供给侧加速进化的大模型•需求测多样化的大模型需求 •大模型推理云挑战 •推理挑战•云上挑战 •大模型推理云实践 •核心引擎建设•模型云建设 •总结与回顾 大模型推理云SiliconCloud:生产就绪推理云服务 大模型推理云SiliconCloud:生产就绪推理云服务 大模型推理云SiliconCloud:生产就绪推理云服务 大模型推理云SiliconCloud:生产就绪推理云服务 1.https://informationisbeautiful.net/visualizations/the-rise-of-generative-ai-large-language-models-llms-like-chatgpt/ 高性能核心引擎:源自OneFlow团队的技术沉淀 2. https://github.com/pytorch/pytorch/blob/main/torch/distributed/_tensor/README.md3. Yuan J, Li X, Cheng C, et al. Oneflow: Redesign the distributed deep learning framework from scratch[J]. arXiv preprint arXiv:2110.15032, 2021. 高性能核心引擎:大语言模型推理端到端优化 高性能核心引擎:大语言模型推理端到端优化 高性能计算算子:以Softmax、LayerNorm计算为例 1.https://github.com/Oneflow-Inc/oneflow/pull/40582. https://www.oneflow.org/a/share/jishuboke/54.html3. https://zhuanlan.zhihu.com/p/4430262614. https://zhuanlan.zhihu.com/p/341059988 高性能核心引擎:大语言模型推理端到端优化 高性能核心引擎:大语言模型推理端到端优化 高性能核心引擎:大语言模型推理端到端优化 高性能核心引擎:大语言模型推理端到端优化 高性能核心引擎:大语言模型推理吞吐和时延优化 LLaMA2 70B, 8 x A800 SXM 80G(首token时延) 高性能核心引擎:生图/生视频模型推理端到端优化 高性能核心引擎:文生图加速优化 文生图核心引擎 高性能核心引擎:文生图加速三倍 SDXL生图端到端耗时(越低越好) 参数:Image size 1024*1024, batch size , steps 30, on A100 80GB 400W GPU 推理服务上云:优化云上冷启 推理服务上云:保障云上可用性 1. Endo P T, Rodrigues M, Gonçalves G E, et al. High availability in clouds: systematic review and research challenges[J]. Journal of Cloud Computing, 2016, 5: 1-15 丰富模型:40+优化模型,覆盖Chat/检索/多模态等模型 SiliconCloud:统一的兼容API形态,降低使用门槛 总结与回顾: •核心引擎极致优化模型吞吐•云服务支持模型服务快速能用和持续可用•荟聚丰富模型,解决应用场景使用问题•统一兼容的API形态,降低使用门槛 CONTACT US contact@siliconflow.cn 北京清华科技园搜狐网络大厦3层