加速云端机器学习-Alluxio在小红书的实践-2024大数据大模型峰会.pdf
加速云端机器学习-
Alluxio在小红书的实践
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
李亚斌小红书大数据技术专家
DataFunCon#2024
Contents
目录
面临的挑战小红书实践案例
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
多云数据加速层未来规划
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
01面临的挑战
小红书多云业务架构
特点
•多云架构,成本优势明显,
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
但业务通信链路复杂
•不同region之间rt差异大
•专线容量稀缺
痛点
•机器学习训练慢,CPU/GPU利用率低
•推荐召回索引分发慢,业务稳定性差,成本高昂
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•60亿+小文件,如何能够低成本训练
•AI模型从百GB变大到TB级,磁盘存储成本高,加载慢
•专线传输压力大
02多云数据加速层
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
构建多云统一数据加速层
选型目标
•能够复用业务已有数据,无需进行
数据搬迁
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•支持S3\POSIX协议,便于各业务无
缝对接
•能够实现数据的跨云传输带宽控制
和节省
•能够支撑百亿级文件的AI训练
•支持常见的云存储产品
Alluxio架构
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
Alluxio主要特性
主要特性
•格式透明:不侵入业务数
据存储格式
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•协议兼容:支持
S3\POSIX\HDFS等协议
•多云统一视图:数据仅需
通过专线传输一次,后续
可通过缓存就近读取
多协议兼容
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
03小红书实践案例
机器学习训练原架构
问题
•训练慢,集群CPU利用率低
原因“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•热点数据集,扇出大
•Tbps级流量,触达对象存储桶
带宽瓶颈
•直连对象存储,单线程性能低