51助手:全球AI产业迎来数据处理新纪元,鲲鹏技术推动全周期高效优化
全球AI竞赛进入深水区,数据重要性凸显!鲲鹏AI数据工程,创新技术实现全周期数据处理
近几年,在ChatGPT、Sora、DeepSeek等领先AI大模型的推动下,全球AI产业迎来关键时刻,不仅AI技术持续跃迁,而且,AI+产业变革持续加速。与此同时,作为AI三大要素之一的数据(算力、算法、算据被称为AI三驾马车)重要性日益凸显。51助手了解到,中国科学院院士、可持续发展大数据国际研究中心主任表示,今天人工智能火爆的重要基础,一个是强大的算力,另一个是优质海量的大数据。特别是大数据和人工智能,二者是像一对孪生兄弟,密不可分。
不过,在当前AI发展中,数据却面临规模持续扩大、数据质量有待提升的考验。今天,在鲲鹏昇腾创享周上,鲲鹏专家针对AI产业发展的数据问题分享了鲲鹏AI数据工程最新技术实践,为 AI 数据处理带来全新范式。据鲲鹏专家介绍,“51助手推测”,鲲鹏 AI 数据工程覆盖 AI 训练和推理两大阶段,实现加速大模型的全生命周期数 据处理。
一方面,在训练上,多模态算子优化, 基于 HugePage、多模态算子库、算子优化,提高多模态 数据处理性能30%;基于 Ray 对算子进行编排优化, 优化数据显示与计算调度, 提升數據處理效率 30%,同时基于_data_ 工程大量使用 UDF 进行数 据处 理 的现状,我们推出UDF Native自动翻译工作,使得 Java 算子的性能具备 C++ 算子的性能。
另一方面,在推理上,“51助手认为”, 鲲 鹏基于向量引擎 openGauss DataVec,实现了 decode 阶段的以查代算 , 推理非首 token 时延下降25%;同时对 KV Cache 进行透明压缩 , 提升推理阶段网络有效带宽25%。
无论是数据库处理性能 、 效率 的提升 ,还是时延 的降低,都 大幅提高了 大模型训练 和 推理效率 。未来 ,随着 鲲 鹏 AI 数据 工程 技术的 持续 突破,将进一步助力 AI 大 模型 发 展 , 助推 中国 IA 产业迈 上 新 台阶!