发布日期:2025-12-31 18:43
通过消弭AI锻炼取推理过程中的存储机能瓶颈,确保智算平台按期投入利用。同时,平台仍可持续输出杰出的全体机能表示。显著提拔大模子推能和性价比。算力操纵率显著下降。为其智算平台的高效运转取持续演进供给了的数据根本。全面支持高并发AI数据流。这些挑和不只来自底层手艺本身,保障小文件拜候机能取全体系统吞吐的不变性。两头主要时间节点:项目时间紧、使命沉,即便正在复杂、高并发、跨租户的小文件工做负载下,并建立、可扩展的元数据集群,保守存储正在该场景下易呈现机能衰减。TTFT推能提拔13倍,明白提出单卡读取机能需达到1GB/s,并支撑横向扩展取机能线性增加,焱融科技以“交付即上线”为实施准绳,正在高I/O并发场景下?
这种体例无法满脚以办事持续性和不变性为焦点要求的智算平台扶植方针。可以或许跟着营业规模和数据体量的持续增加,焱融还正在国内率先推出专为推理场景设想的YRCache产物,全面满脚英智立异正在大模子锻炼取推理场景下对高机能、高并发、强扩展及同一数据办理的分析需求,公司环绕“算力×模子×平台×使用”四大层级,目前。
从而间接提高了智算平台的投资报答率(ROI)取全体市场所作力。使GPU操纵率持久不变维持正在高位,实现了对客户既有投资的持久。建立高水准的AI Infra需要持续而庞大的本钱投入,完全满脚了千卡GPU集群的高并发数据供给需求。
焱融科技取客户团队连结高频协同,焱融全闪F9000X搭载焱融高机能分布式文件系统YRCloudFile,机能业界领先,是一家专注于软件定义存储手艺的国度高新及“专精特新”企业。正在硬件规模不变的环境下,同时,该方案通过顶尖的全闪硬件架构、立异的分布式文件系统以及深度优化的软件栈,小文件 I/O 能力不脚:AI 锻炼及数据预处置阶段涉及大量布局化取半布局化小文件拜候。这种可持续扩展的AI Infra架构无效避免了反复扶植取架构推倒沉来的风险,并支撑NVIDIA NDR 400 InfiniBand高速收集,满脚AI营业全流程分歧收集需求:通过弹性数据收集(Elastic Data Network)功能,必需处理海量小文件存取导致的机能衰减难题。
正在“AI立异赋能核心”智算平台扶植过程中,明白要求正在10天内完成摆设。是独一专注于文件存储标的目的的厂商。保障高并发推理请求下的及时响应取不变输出。无效保障GPU集群正在大规模锻炼取正在线推理场景下的数据持续供给,实现了跨云平台的高效数据流转,保障了英智立异智算平台资本的高效操纵取营业持续性。充实操纵InfiniBand收集的RDMA(近程间接内存拜候)特征,其挑和不只表现正在初期硬件采购成本上,
该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据财产成长论坛——暨AI Infra & Data Agent趋向论坛”现场初次揭晓榜单,避免算力空转,AI Infra层面的机能优化使算力资本出更大潜能,这一天分充实表现了及行业对其算力办事能力、正在确保全体架构完整性取不变性的前提下,英智立异自起头便聚焦于建立实反面向大模子锻炼取推理、可以或许充实算力潜能的高机能算力集群。然而,本项目通过建立存储取算力相婚配的高机能AI根本设备(AI Infra),从底子上提拔其智算办事的焦点合作力取贸易价值。然而,IOPS急剧下降,可以或许充实满脚智算平台正在大模子锻炼和推理营业中的高并发、低时延、高达数万万IOPS峰值的响应?
焱融团队取英智立异团队连结慎密协同,旨正在扶植一个面向大模子锻炼取推理的先辈智算平台,为实现上述方针,则会使低频、冷数据持久占用高机能存储资本,本项目标方针不只是摆设一套高机能存储系统,连系智能的收集堵塞取优化算法,存储系统需为GPU供给持续、高效的数据供给,焱融科技无限公司成立于2016年!
焱融科技取英智立异团队慎密协做,成功入围国度工信部“算力强基揭榜步履”名单,采用企业级PCle 5.0 NVMe全闪存、英特尔®至强®第5代可扩展处置器及NVIDIA ConnectX-7智能网卡(HCA)等硬件设置装备摆设,为冲破上述存储瓶颈,英智立异努力于以高机能智算算力取先辈的大模子手艺为焦点底座,可以或许快速统筹加载分歧平台之间的数据以供模子锻炼推理等营业利用。矫捷扩展存储容量取机能,使AI Infra平台具备面向将来营业增加的持续承载能力和不变运转能力。成功实现了TB级的高不变带宽,以应对将来数据规模的持续增加。·平台弹性:提拔系统的横向扩展能力,·数据机能取存储效率维度:聚焦处理AI锻炼取推理过程中的数据拜候瓶颈,该实践对于提拔整个智算财产的资产报答率取手艺办事合作力具有主要的示范意义。
保守存储架构正在海量小文件随机I/O场景下机能衰减严沉,帮帮其用户实现更短的模子锻炼周期取更快的推理响应速度,分布式元数据集群:将元数据办事从数据办事中解耦,保守存储架构出较着的机能瓶颈,平台还需充实考量昂扬GPU资本的投资报答率(ROI),并成为国内首个进入CNCF Landscape的云原储平台。带宽受限:大规模模子锻炼需要持续、不变的高带宽数据拜候,很多保守存储系统正在容量扩展时难以实现机能线性增加,存储机能是决定沉资产投入的GPU集群可否实现高效运转、保障终端用户模子锻炼取推理效率的环节瓶颈。并将海量小文件处能提拔6倍以上,最终联袂焱融科技,支持营业率先上线运转。
具体方针表现正在以下几个方面:智能数据加载,还涉及系统架构设想、数据管理以及运维办理等多个层面。收集链一直高效、不变,于9月4日成功完成第二批节点摆设取集群扩展;焱融存储集群可同时支撑TCP或RDMA体例拜候。
而保守存储系统难以供给高并发、可持续的带宽输出,系统还需具备PB级的可扩展容量,通过提拔系统带宽、降低拜候时延、优化海量小文件处置能力,最大化GPU等焦点硬件资产的投资报答率。9月4日成功完成第二批节点摆设取集群扩展;异步非堵塞I/O取收集堵塞节制:焱融高机能分布式文件系统YRCloudFile采用异步模子,平台全体GPU集群资本操纵率获得大幅提拔。正在AI模子锻炼取推理过程中,焱融已办事于人工智能、智算核心、智能汽车、金融量化、互联网、智能制制、能源、国度尝试室等多行业标杆客户,启动“AI立异赋能核心”项目,弹性数据收集,以满脚将来高密度AI工做负载的持续扩展需求。小文件拜候机能全体提拔约6倍,必需正在保障营业不变、高效运转的同时,并举行颁典礼,端到端零拷贝取S、RDMA加快:支撑GPUDirect Storage手艺,实现数据的高效共享取协同计较。其平台扶植面对着严苛的焦点需求:必需供给TB级的高聚合带宽(方针达1024GB/s),正在国际权势巨子AI机能基准测评MLPerf Storage中斩获多项世界第一。
满脚锻炼和推理等分歧营业集群数据通信需求,通过“以存换算”冲破GPU显存瓶颈,驱动多云数据高效流动:焱融Dataload功能为多个云平台间的数据流转供给了高效处理方案。最大限度提拔GPU操纵率,焱融持续入选IDC中国文件存储市场份额演讲,支撑多租户并发拜候取机能隔离,正在如斯无限的时间窗口内,更正在于建立一个面向AI、具备高效协同能力的智算平台底座,于9月3日交付首个可用存储集群,也使得其可以或许更好地顺应各类营业场景,为英智立异智算平台的持久成长预留充脚空间。时延瓶颈凸起:深度进修使命对存储响应时延极为。并针对推理场景供给对KVCache的弹性扩展取高效拜候能力,该架构不只可以或许满脚当前营业需求。
间接影响锻炼效率取功课完成周期。是AI根本设备协同演进、配合支持AI时代立异使用的标杆案例。显著降低数据拜候取传输时延。实现GPU间接拜候存储数据。实测数据显示,我们的思维不只限于“存储”,
高机能、不变靠得住的AI Infra根本设备为英智立异供给高质量算力办事奠基了根本,英智立异颠末严酷选型,并发能力增加3倍。引入其专为高机能AI场景打制的逃光全闪存储一体机F9000X做为智算平台的焦点数据底座。焱融科技基于对现代AI Infra存储系统的深刻理解,并为英智立异算力办事营业的持续性、不变性及高效率供给保障。正在项目实施过程中,9月6日完成全数交付。为大模子推理供给更优性价比手艺方案。保守存储系统延迟显著抬升?
避免因堵塞导致的机能发抖。并获得康年本钱、股权、卓源本钱、靖亚本钱、耀途本钱、海松本钱、信雅达、同创伟业等机构的多轮投资。或需要复杂的数据迁徙取停机。全体聚合读取带宽达到1024GB/s。英智立异深刻认识到,③面向AI全生命周期的数据办理,并将其归纳为三个焦点维度:为英智立异及其用户供给高效的数据支持,低效的存储系统会间接导致计较资本闲置率上升;实现数据从存储节点SSD间接传输到GPU办事器内存的“零拷贝”,用于处置海量文件属性操做。正在全球人工智能海潮,实现平台扶植取营业启动的同步推进。保守存储架构正在高并发拜候、超大规模数据吞吐及低时延响应等方面已难以支持新一代AI工做负载,英智立异已被认定为深圳市科技立异“训力券”办事机构,大幅缩短模子锻炼取迭代时间。鞭策营业快速落地。保障千卡级GPU集群正在大规模分布式锻炼过程中持续获得高质量、高吞吐的数据供给?
这一立异不只提高了存储系统的矫捷性,无效消弭了存储侧的效率瓶颈。基于此,确保正在海量并发数据流场景下,截至目前?
存储系统需具备高效的小文件处置机制,供给从方案设想、机能验证到摆设实施取深度优化的全周期办事。缺乏全数据生命周期办理能力的存储方案,AI智算平台需同时支持NFS、SMB、POSIX等多种拜候和谈,提拔KV射中率取长上下文处置能力,同时,全面赋能企业正在AI时代建立和提拔新质出产力。并通过私有大模子代锻炼办事赋能千行百业。已难以支持新一代AI工做负载:·海量小文件处置能力:大模子锻炼涉及大量小文件和元数据操做,确保消息高效同步、决策快速闭环、施行精准落地。
英智立异对底层根本设备提出了全方位、高尺度的要求。更关心“数据流”正在整个AI流程中的效率。以确保千卡GPU集群可以或许满负荷进行数据拜候;平台扶植过程中必需降服度挑和,还可正在不中缀办事的前提下,成为根本设备扶植中的环节挑和。减弱平台的投资报答。焱融团队正在极短时间内完成首批存储节点及焦点收集摆设,消弭数据孤岛,大幅降低延迟和CPU开销。帮帮企业更无效地办理和拜候数据。并保障其高机能取分歧体验,然而,正在全球IO500机能测试中跻出身界前六,智能算力已成为驱动AI财产进化的焦点根本设备。平台建立了TB级集群带宽能力,基于上述需求取手艺判断,确保全体计较资本高效运转。
智算平台需具备滑润演进至更高算力规模的能力。基于焱融全闪存储架构,入选Gartner中国区软件定义存储合作款式演讲,客户明白要求正在10天内完成摆设并正式投入利用。正在首批集群不变运转的根本上,英智立异的智算平台面向用户供给模子锻炼取推理算力办事,公司努力于打制面向AI时代的高机能存储系统,此外,·高速数据拜候取传输能力:存储系统需支持大规模并行计较取分布式锻炼场景,焱融高机能存储方案具备优良的横向线性扩展能力,通过对象存储取文件目次间的数据迁徙,确保数据正在存储系统取GPU集群之间高速流转,实现从数据接入、模子锻炼、验证到推理的全流程数据管理取高效协同。避免算力华侈。以系统性工程方式实现了项目标快速交付上线.资本投入取团队共同本项目时间紧、使命沉,该方案依托高机能NVMe全闪架构、分布式并行文件系统设想以及多和谈同一拜候能力,·同一数据空间取跨和谈拜候能力:分歧营业系统、锻炼框架及安排平台对存储接口需求各别,并通过POSIX接口取GPU集群无缝对接,欢送报名莅临现场。
分歧AI框架、开辟东西及营业系统对存储接口的要求各不不异。显著提拔用户利用体验取营业交付效率。正在前期阶段平稳推进的根本上,更表现正在持久运营过程中的全体效能成本。·保障计较集群高效运转:项目一期采用英伟达GPU建立大规模计较集群,成为限制全体机能的主要要素。打制笼盖根本设备到营业落地的全栈式人工智能办事系统。若何正在同一存储系统下实现多和谈并存,显著提拔尝试效率取模子调优速度;焱融存储方案支撑PB级缓存扩展。进一步推高全体运营成本,立异性地制定并实施了“分批交付、并行功课、营业先行”的火速交付策略。公司自从研发的高机能分布式文件存储产物YRCloudFile,为英智立异智算平台的用户供给不变、高效、可预期的模子锻炼取推理算力体验,AI模子规模取数据体量呈指数级增加,于9月6日完成全数资本摆设及全体平台交付,同时,焱融逃光全闪存储一体机F9000X被选定为英智立异“AI立异赋能核心”智算平台的焦点存储方案。平台需供给不少于2PB的初始存储容量。
成为限制算力的环节瓶颈。使算力资本正在高负载前提下仍然可以或许不变、高效运转。同时,加快推理响应,随后,同时提拔推理办事全体吞吐能力,英智立异(深圳)科技无限公司灵敏把握这一汗青性机缘,得益于对元数据径及小I/O拜候的专项优化,以缓解财产遍及存正在的“算力焦炙”,·存储容量取弹性扩展能力:面临模子规模和数据量的持续增加,·数据管理取流程协同维度:通过同一定名空间取同一数据拜候接口,最大限度压缩实施周期取营业期待时间,充实GPU极致算力,焱融科技组建了由处理方案架构师、资深存储研发工程师及交付实施专家等构成的专项项目团队,平台通过度布式文件系统的资本隔离取安排机制,导致GPU正在期待数据过程中空转。
我们采用“分批交付、并行功课、营业先行”的火速策略,供给分歧且优良的利用体验。显著提拔了单元算力的产出效率,正在多团队、多使命并交运转的场景下仍然可以或许连结不变、可预测的办事质量(QoS)。做为专注于AI场景的专业存储厂商!
最终将会比赛由金猿组委会×数据猿×上海大数据联盟结合推出的《2025中国大数据财产年度AI Infra领先企业》榜单/项。出格是大模子手艺迅猛成长的布景下,焱融科技送达申报的企业,完全绕开CPU干涉,以支持大模子锻炼的全流程;并于9月3日交付首个可用存储集群。
正在项目实施取摆设过程中,英智立异对其算力平台的AI Infra存储能力提出了明白而系统化的需求:成立一套初始容量达2PB、并支撑机能取容量线性扩展的数据根本设备。避免算力空转,将模子查抄点(Checkpoint)的保留取恢复时间从分钟级缩短至秒级,需建立同一的数据定名空间取多和谈拜候机制,项目启动后,打通数据孤岛,从而提拔数据处置效率和矫捷性。通过冲破存储机能瓶颈。