帮助企业打造大模型超级员工!星尘数据AI数据闭环产品,打通AI数据全生命周期管理
原本需要花费1天时间才能发现的难例,现在只需1-2小时即可
允中 发自 凹非寺
量子位 | 公众号 QbitAI
星尘数据正式发布MorningStar,一款面向AI的数据闭环产品。
据介绍,这是当前首个专注数据价值发现的AI数据平台。基于DataOps的理念打造,全面覆盖AI算法从训练到生产全链路中的数据发现、管理、协作、迭代等各个环节。
在大模型时代,各行各业都需要基于自身数据打造超级员工,以提高企业的生产效率。模型和算力可以购买,但数据需要精细化、全流程的管理,才能释放真正的价值。
企业需要搭建一个可发现、可管理、可协作、可迭代的数据管道,才能具备获取数据、生产数据、持续迭代数据的能力,促进内部以数据为中心的协作,从而在AI2.0时代中获得核心竞争力。
MorningStar应运而生,全面覆盖AI算法从训练到生产全链路中的数据管理、迭代、优化、挖掘等闭环链路,致力于帮助企业建立高效的数据闭环系统,实现数据价值最大化和模型效果最优化,助力打造差异化竞争力壁垒。
从功能上看,MorningStar集成了八大功能,其自动化工作流能够确保数据在每个阶段都能得到妥善管理和最优化。
- 数据可视化:支持多源、多格式、异构的结构化数据统一管理,实现全面而高效的数据收集与存储。
- 数据生命周期管理:用户可以通过平台进行数据流程的编排和调度,实现数据的自动化处理和转换,同时记录全生命周期数据信息,确保数据的可追溯性和操作的可复现性。
- 数据探索:提供超大规模AI数据管理能力,用户可以利用平台的强大搜索功能,通过多语义、跨模态等方式快速找到所需的数据,并进行可视化分析。
- 难例发现:集成主流难例发现策略,如主动学习等,为算法工程师提供数据特征分布、可视化和模型指标计算等便捷功能。
- 人类反馈:创建高质量的人类反馈通道,一键送标至自动化标注系统Rosetta。
- 数据合成:支持可控数据生成,填补现实世界中的数据空白,提高模型的鲁棒性和适应性。
- 算法指标跟踪:支持SDK,打通算法和数据的反馈闭环,可进行算法管理和指标评测,提升模型迭代的效率和可靠性。
- 数据连接:推理管理与性能监控,实现模型部署和优化的高效循环。
其中,数据生命周期管理、难例发现、数据资产管理、指标跟踪等功能尤其值得关注。
以数据生命周期管理为例,算法工程师可以通过MorningStar进行AI数据生命周期的管理,强化数据版本控制、快捷数据切片、可追溯数据血缘和安全管控。平台的自动化工作流能够确保数据在每个阶段都能得到妥善管理和最优化处理。
再以难例发现为例,作为首款集合难例发现策略的数据闭环产品,MorningStar能够保证模型训练过程可追踪可迭代。通过一系列数据追溯、模型调试和分析生成工具,助力实现和维护高质、可复现的Al模型。
△数据溯源:通过数据流实现对算法评测所用数据的随时溯源。
△版本对比
通过选择不同的数据版本,实现算法预测结果和真值的对比,并结合可视化功能便捷地定位和分析难例数据。
△指标追踪和效果检测
MorningStar通过 SDK 便捷地打通模型训练环境和训练数据分析管理、指标分析环境,便捷地进行算法迭代。
一位自动驾驶算法工程师曾反馈,原本需要花费1天时间才能发现的难例,通过平台只需要1-2小时即可,大大提高了迭代效率。
章磊表示:“MorningStar的目标用户主要分为三类:机器学习算法工程师、业务人员、研发负责人。对于不同的用户,我们的平台可以满足各种需求,包括发现数据中的难例,跟踪指标,记录数据全生命周期等等,从而让数据价值最大化,模型更好地迭代。”
值得一提的是,星尘数据联合国内外知名机构和学者打造的CIF-Bench自动化评测即将上线MorningStar!28个模型评测榜单,重点评估了20 种基础维度,考察模型在150 类任务上的指令遵循能力,
榜单链接:
https://yizhilll.github.io/CIF-Bench/
- 清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM内存开销平均降低4-6倍。2024-11-30
- 智源发布心脏模型!超实时仿真人体生理功能,速度提升180倍2024-11-29
- 乌镇最火AI议题,原来答案藏在这份报告里2024-11-25
- Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya2024-11-28