文档详情

加速云端机器学习-Alluxio在小红书的实践-2024大数据大模型峰会.pdf

发布:2024-11-27约4.34千字共22页下载文档
文本预览下载声明

加速云端机器学习-

Alluxio在小红书的实践

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

李亚斌小红书大数据技术专家

DataFunCon#2024

Contents

目录

面临的挑战小红书实践案例

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

多云数据加速层未来规划

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

01面临的挑战

小红书多云业务架构

特点

•多云架构,成本优势明显,

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

但业务通信链路复杂

•不同region之间rt差异大

•专线容量稀缺

痛点

•机器学习训练慢,CPU/GPU利用率低

•推荐召回索引分发慢,业务稳定性差,成本高昂

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

•60亿+小文件,如何能够低成本训练

•AI模型从百GB变大到TB级,磁盘存储成本高,加载慢

•专线传输压力大

02多云数据加速层

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

构建多云统一数据加速层

选型目标

•能够复用业务已有数据,无需进行

数据搬迁

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

•支持S3\POSIX协议,便于各业务无

缝对接

•能够实现数据的跨云传输带宽控制

和节省

•能够支撑百亿级文件的AI训练

•支持常见的云存储产品

Alluxio架构

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

Alluxio主要特性

主要特性

•格式透明:不侵入业务数

据存储格式

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

•协议兼容:支持

S3\POSIX\HDFS等协议

•多云统一视图:数据仅需

通过专线传输一次,后续

可通过缓存就近读取

多协议兼容

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

03小红书实践案例

机器学习训练原架构

问题

•训练慢,集群CPU利用率低

原因“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

•热点数据集,扇出大

•Tbps级流量,触达对象存储桶

带宽瓶颈

•直连对象存储,单线程性能低

显示全部
相似文档