- 收藏
- 加入书签
基于超算架构云桌面的高性能模具设计平台研究与应用
摘要:在制造业数字化的全球大环境之下,塑胶模具行业同样也存在传统工作站算力不足、成本高、数据安全隐患严重等问题。本文以超算架构为依托,设计出高性能模具设计云桌面平台,在资源池化、GPU 分时透传和 WiseFS 安全存储等关键技术的基础上整合了 UG/NX、Moldflow 等工业软件,创建起一个完整的研发平台。经由实践得知,此平台可以把设计仿真速度加快 30%-50% ,硬件购置费用削减 40%-60% ,资源利用率达到此前不足 30% 的 70% 以上,并且达成数据“ 集中存放、统一管理” 的效果,很好地破解了传统模式下的诸多难题,给企业完成数字化转型赋予了关键支持。
关键词:超算架构;云桌面;模具设计;GPU 虚拟化;数据安全;降本增效
一、引言
传统工作站模式在性能、成本、安全等各方面逐渐暴露出不足之处,算力不够造成设计卡顿,研发时间延长 15% 到 20% ,硬件购置和运维费用昂贵,软件许可利用率只有 30% 左右,数据分散存放容易造成泄密,不能满足异地协同和快速扩编的需求。于是云端高性能计算 HPC+ 虚拟桌面基础设施 VDI 成为了解决方案。欧美日等发达国家已经将云桌面广泛应用于汽车、航空航天等行业,国内华为、深信服等厂商也推出了相关方案,但是塑胶模具行业的深度融合应用还不到 25‰ 。基于此,本文提出基于超算架构的云桌面平台方案,依靠技术革新冲破传统模式限制,达成模具设计研发的高效率、高安全性、低成本运行目标,给予行业数字化转型实际操作的参照。
二、项目实施的目的与意义
(一)传统模式面临的核心困境
传统工作站模式已经不能满足模具行业的发展需要,主要困境有五个方面。从性能方面看,复杂设计、仿真任务中经常出现卡顿、死机等问题,单次任务处理时间延长2 到3 小时,严重阻碍研发迭代速度;从成本方面看,新增研发人员的硬件部署需要3 到 5 天,年 IT 运维成本高达50 万元,软件授权费用近80 万元,而且资源利用率低;从数据安全角度看,研发数据分散存储,泄密、丢失的风险大,行业平均损失达百万元级别;从资源配置上讲,CPU、GPU 与软件许可证忙闲不均,独占现象普遍;从协作效率上讲,不支持远程办公,新员工环境搭建周期长,业务响应滞后。
(二)平台建设的核心目标
本项目要创建基于超算架构的一体化云平台,完全取代传统的工作站,达成五个主要目的。效能提升,利用云端 GPU 加速能力,使复杂的设计和仿真效率提升了 30%-50% ;成本优化,硬件采购、软件授权、IT 运维成本下降,其中硬件成本下降 40%-60% ;数据安全,建立集中存储、统一控制、不落地的安全体系。
(三)项目的战略价值
该平台是企业的数字化转型的基础设施,可以改变研发的工作方式,提高技术实力和市场响应速度。通过超算资源和工业软件的整合,冲破传统工作站的物理束缚,给予模具设计高效,安全,灵活的研发环境,助力企业于激烈的市场竞争中塑造核心竞争力,并且为制造业智能化升级赋予结实根基。
三、国内外发展状况
(一)国外发展现状
欧美日等发达国家在 HPC 和 VDI 领域技术成熟,NVIDIA GRID、Citrix HDX等技术已经应用到重图形负载行业。美国通用汽车通过云桌面平台整合全球研发资源,将新车型模具研发周期由原来的18 个月缩短到12 个月,降低成本 25‰ 。主流的 CAD/CAE 软件提供商正在向云端转型,Autodesk、Dassault Systè mes 等提供云端解决方案,GPU 虚拟化技术已经成为高性能云桌面的标准配置。同时GDPR 等法规要求数据集中管理,“ 数据不落地” 的方案被普遍使用,形成了比较完善的技术应用生态。
(二)国内发展现状
国内制造业对数字化转型需求十分迫切,高端装备、汽车、模具等产业对于云端高性能平台的需求激增。华为、深信服、锐捷等厂商的云桌面方案在政企市场广泛使用,但是塑胶模具行业深度融合的应用只占 25‰ 。本土技术创新成果显著,WiseCloud 平台在GPU 分时透传、WiseFS 存储安全等方面形成特色,突破国外技术限制。
四、平台核心研究内容
(一)超算云平台架构设计
基于 Kubernetes/OpenStack 创建超算资源池管理架构,改进 CPU、大内存、高速存储的调度策略,满足 CAE 仿真等高吞吐要求。设计高可用、高容错的架构,用冗余设计和故障自动切换保证业务的连续性。整合计算节点与GPU 节点,其中计算节点配置高性能多核处理器、≥512GB DDR4/DDR5 ECC 内存和 NVMeSSD 缓存,GPU 节点配NVIDIA RTX A 系列显卡,按需配置数量以满足分时复用的需求。
(二)高性能图形云桌面技术集成
改进 GPU 分时透传技术,依靠 CPU 内核调度达成单物理 GPU 多用户高效服务,支撑 1:6 以上比例,超越显卡型号与驱动的约束。集成KVM 虚拟化技术以及SPICE、PCoIP 远程显示协议来减少图形传输的延迟。创建负载均衡机制,依照任务负载智能分配资源节点,保证设计操作的顺滑性,给予类似物理工作站的图形性能。
(三)企业级安全存储与管控体系
部署 WiseFS 分布式存储系统,用单块硬盘多副本冗余、故障域隔离的方式达到数据高可用。严格实行数据不落地的原则,强制研发数据集中存储,建立多版本控制、文件流向跟踪、操作审计日志[1]。建立统一管控平台,实施设备认证、用户强认证的准入控制,管控 USB 外设、剪贴板的使用,建立“ 可进可出” 、“ 可进不可出” 、“ 下载审批” 三级数据外发策略,用RBAC 实现细粒度权限控制。
(四)软件部署与运维体系构建
研究在云环境下 UG/NX、AutoCAD、Moldflow 等软件最佳的部署方案,用智能调度实现许可证池化,使利用率提高 20% 到 40‰ 。建立TCO 成本效益模型,比较云平台和传统模式的投资收益。设计自动运维流程,系统监控、故障预警、自动修复等拟定管理员、最终用户培训方案,保证平台平稳过渡、有效使用。
五、平台特色与创新点
(一)突破性·GPU分时透传技术
利用CPU·内核调度显卡资源,摆脱英伟达特定·vGPU·技术以及驱动的依赖,支持各种显卡型号,提高硬件选择的灵活性。单物理GPU多用户共享模式可以降低人均·GPU成本,在保证图形性能的同时达到成本优化的目的,解决了传统模式下GPU资源浪费的问题。
(二)“数据不落地”·安全架构t
WiseFS分布式存储系统加上“数据不落地”的策略从物理上完全消除了终端泄密的风险,多副本和故障实时冷迁移保证数据的可靠性、业务的正常运行。全生命周期管控加上审计机制,实现数据下载的审批、流向的追踪、版本的管理,满足数据安全法规以及客户的审计要求。t
(三)精细化安全与资源管理
综合多层次安全措施形成准入、设备、数据、权限的全流程安全体系,三级数据外发控制策略满足不同密级数据的要求[2]。
六、市场前景与实施收益
(一)市场前景
塑胶模具、汽车零部件等制造业对高效、安全、低成本的云端研发平台有着非常迫切的需求,国家“ 上云用数赋智” 的政策为项目的落地提供了强有力的支撑。GPU 虚拟化、分布式存储等技术日趋成熟,经济下行时期企业降本增效的诉求十分强烈,项目方案准确对接市场痛点,应用前景十分广阔。
(二)直接经济效益
硬件采购成本降低 40%-60% ,瘦客户机取代高性能工作站,GPU 分时复用大大降低硬件投入,软件许可证利用率提高 20%40% ,减少采购量和授权费用,Π 运维人力成本降低 50%-70% ,集中自动化运维减少现场支持,能耗降低 30% 以上,瘦客户机和数据中心虚拟化提高能效。项目投入在 1.5 年到 2.5 年内可以收回成本。
(三)效率与安全收益
提高 30% 到 50% 的仿真任务处理速度、减少研发周期、把资源利用率由原来的不到 30% 提高到 70% 以上,提升资源的分配效率;新员工桌面环境几分钟就能完成分发、支持各种办公场景、提高业务的灵活度。
七、结束语
基于超算架构的高性能模具设计云桌面平台,采用超算资源池化、GPU 虚拟化、安全存储等技术,解决传统工作站模式下的性能、成本、安全、协作问题。平台达到的设计效率提升、成本节省、数据安全保证、管理升级等目的,给塑胶模具行业实现数字化转型提供了一个可行的途径。
参考文献
[1] 练建锋. 模具制造云平台及其若干关键技术研究[D]. 福州大学,2019.DOI:10.27022/d.cnki.gfzhu.2019.000216.
[2]练建锋,黄彬.模具制造云平台体系架构及其服务匹配技术研究[J].机械设计与制造工程,2022,51(09):85-90.
京公网安备 11011302003690号