您的位置:澳门402永利com > 编程应用 > U位物联结合CFD精细化监察和控制机房温度,阿里

U位物联结合CFD精细化监察和控制机房温度,阿里

发布时间:2019-09-30 08:20编辑:编程应用浏览(149)

    图片 1

    图片 2

    阿里妹导读:如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。

    数据中心运维,喜冷怕热。在服务器的丛林里,热点无处不在,如何采用安全的RFID新技术方案,从每个服务器真实的物理温度监控开始,准确得出机房的热点云图,是跨越传统技术方案,让运维人员轻松应对日常工作,有效保障用户资产安全的新课题。

    近期,阿里巴巴-南大联合研究院联合实现并上线完成了一个高精度,可连接实时监控系统、基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。今天,我们就来观摩这个从零到一的尝试。

    一、机房发现热点的方法

    随着阿里巴巴业务不断拓展,其数据中心规模也越来越大。相应地,数据中心内的日常演练、运营优化等变更操作越来越频繁;而规模增加导致环境的复杂程度呈指数增长,变更是否可能导致故障,仅凭专家经验,已经越来越难以判断。同时,数据中心变更故障可能造成的业务影响也越来越大,可能造成的损失已难以估计。所以,机房运营人员急需一个标准化的、可靠的机房变更安全验证系统,帮助他们获知变更产生的具体效果会是如何,是否影响生产安全,是否有更合理的变更建议。

    当前,大部分数据中心的“热管理”依旧处于被动运维的阶段,即先发现热点,再进行处理,这种思维模式导致的后果有可能是“先热后冷”,稍有不慎,就会酿成大错。

    对于电力变更,可以从电力拓扑图着手构建变更沙盘。但暖通变更,涉及到气流组织变化、热力变化,这些东西看不见也摸不着,传统的方式难以模拟出现实世界中的变化。IDC运营优化团队对此进行了一系列调研工作,认为利用计算流体力学(ComputationalFluid Dynamics,简称CFD)进行机房仿真是较为可能达到生产标准的一种方式。

    从技术角度看,这个锅不能由IT管理或运维人员来背。当前的技术环境,人员发现机房热点的方式,通常有以下三种方式:

    利用计算流体力学(Computational Fluid Dynamics,简称CFD)进行机房仿真是检查不同变更对机房的热力学影响的通用解决方案。CFD建模可以通过搭建物理模型,载入现实中的热力学设置(冷热量,空调server风速等)来计算一个包间内部的气流分布和温度情况。CFD模拟有较为成熟的技术积累,并被广泛应用与热力学和空气动力学领域。在数据中心领域,也有从包间到芯片级的CFD模拟应用。但由于其精度限制,一般只用于前期设计和规划。

    1.在机房内来回观察,用手亲测服务器或机柜的温度。

    图片 3数据中心包间流线图

    优点:经济、简单,对温度高的热点辨别最有效;

    应用CFD建立沙盘系统的挑战:

    缺点:准确性差,耗时、耗体力,辐射大。

    1)现有商业CFD软件可以根据对包间进行仿真,得到机房的热力分布、气流动向。但该软件通常应用于设计阶段,采用设计阶段的粗略数据进行模拟,对真实操作情况的还原度较低,温度预测精度仅能达到3度或以上,不能满足用于变更沙盘的精度需求。

    2.手持温度测量仪实测,检测机柜或服务器温度。

    2)当前CFD软件以人工交互为主,缺少对自动化操作的支持,不能满足自动获取数据和返回结果的需求。大量的操作只能通过人机交互进行,效率低下。

    优点:经济、有效,检测温度精度高;

    3)建模所需要的数据真实性问题。由于模型的准确性与其所采用的模拟设置与实际是否一致息息相关,因此获取的模拟设置信息(如功耗,空调设置信息等)准确性非常关键。通常这些信息是在设计阶段确定的,也有部分是运行时获得的。这些数据只有进行精细的核实才能保证建模的精度(反过来建模的过程可以反推设计实施情况和数据的标准化过程)。

    缺点:耗体力,辐射大。

    阿里巴巴联合新加坡南洋理工大学计算机科学与工程学院文勇刚教授团队,依托阿里巴巴-南大联合研究院平台,通过接近1年的研究,开发和测试,实现并上线完成了一个高精度,可连接实时监控系统的基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。

    3.自动检测方法,包括DCIM自动监测装置或CFD 软件预测热点。

    本次项目选定了某个机房包间作为技术试点,并在对该机房的物理建模,模型校准和工程落地上进行了紧密合作。

    优点:自动检测,省时省力,能把握机房的整体热点分布;

    1)物理建模:

    缺点:软硬件成本大,并且由于颗粒度大,对微观的热点布局把握不准。

    该过程主要将包间内各物理结构设置到模型,提供仿真基础。以达到最好还原度为准则,我们实现了下面所述方面的建模操作:

    二、热点分析的痛点

    结构建模:对机房结构、墙、通风口、天花板、管道进行设置

    从数据中心智慧化的运维发展趋势看,自动检测方法将会成为未来热点检测的方向。

    IT部署建模:机列、机柜、机位设置

    但是,目前DCIM通过少数重要检测点的传感器,或者服务器本身的IPMI接口检测温度,还存在问题:

    环境建模:空调设备、传感器设置

    1.如果通过传感器监控稳定,颗粒度会比较大,很多热点无法及时发现;

    设备建模:按厂商型号导入服务器模型

    2.如果采用IPMI接口获取温度的数据,会存在接口安全合规的风险,同时存在部署复杂,仅能监控CPU温度等问题。

    2)模型校准

    三、U位物联结合CFD技术方案

    模型校准的主要原则需要达到下述3个方面的真实还原:

    U位物联定位技术是解决服务器定位和数据读取准确率的安全高效的技术方案。通过数码人业内首创的MC-RFID技术,实现了机柜U位资源、容量、位置、状态、信息变更、温湿度的数字化管理,IT管理者通过后端的可视化平台,可以全局掌控U位资产的实时信息。

    机房冷热温度来源:校准中需要确认模型中冷热量与实际一致。

    英国Future Facilities公司推出的CFD软件——6igmaRoom是一款数据中心热环境分析工具,它可以预知整个数据中心范围内、长时间运行中是否会有热点产生,并且从气流组织的角度分析热点产生的原因分析,指导运维人员进行设备部署位置优化、空调制冷能力调整。

    机房气流变化原因:校准中需要保证冷热风气流与实际一致。

    图片 4

    温度测量数据:校准中需要保证模型预测温度与实际一致。

    上图通过CFD分析得到的热点机柜,通过气流组织确定热点服务器的位置。

    为了保证模型可以到工业级精度,项目团队进行了大量的数据核准和模型调整工作。这些工作全方位地对整个机房的相关信息和设置进行了梳理和核实,并形成了完整的标准化校准文档,为以后建模推广打下了坚实的基础。这些校准操作可以分为2类:

    Future Facilities公司的6igmaRoom产品联合数码人U位资产物联系统,可以为用户提供实时准确的资产部署数据——IT设备部署信息可以实时同步,无需人工录入,U位资产读取数据100%准确,机柜内的温湿度实时检测并得出报表数据。

    第1类:数据核准

    图片 5

    服务器核准(包含:少数服务器U位冲突、服务器功耗校准)

    该联合方案机柜内热点检测的方法是,通过数码人的智能控制模块,实时检测服务器及周边的温度,当服务器发生位置变更时,U位物联系统会及时更新信息,并重新检测机柜内的温度信息。然后,6igmaRoom会利用最新的数据进行实时的模型分析,从而预知可能产生的热点,帮助运维人员提前发现风险,及时预防。

    传感器核准(包含:空调供风温度、转速和冷热通道传感器位置、数据)

    四、运维成本下降是趋势

    第2类:模型调整

    Gartner公开的资料显示,数据中心资产运维管理的成本构成主要分为三部分:

    热气泄露设置调整,热气泄露会导致冷通道温度升高。

    流程维护成本:包括日常维护、变更管理、测试成本等;

    机柜模拟模式调整,设置为细粒度模拟模式。

    运维人员成本:包括招聘、培训、教育、人员流失成本等;

    Server风量设置调整,精确设置server风速以符合实际需求。

    技术和产品成本:包括硬件、软件、网络成本等。

    依托大量的传感器数据,通过上述校准操作,最终模型达到了设计阶段CFD使用未有过的精度。这些精度来源于我们精确地还原各项硬件的布置,各个操作的数据核准和细粒度的server风速校准。

    其中,人员成本支出接近运营支出的一半。因此,如何通过技术和产品创新,实现机器替代人类多承担工作,减少人为失误导致的损失,已经成为数据中心运营节省成本支出的重要方法。

    3)工程落地

    U位物联系统与CFD实时仿真系统的结合,是解决数据中心运维人员短缺和成本居高不下的有效实践,对数据中心自动化热管理能力的提升,降低运维的复杂度有非常大的现实意义。

    图片 6

    如图所示为沙盘系统的流程图。在模型达到预期精度后,团队进一步解决了CFD模拟的自动化问题。通过接入阿里巴巴自研的数据中心实时监控系统,我们获取到实时的服务器功耗、空调出风温度和风机转速等数据,通过6Sigma开放SDK将数据写入CFD模型,从而使得模型能够实时模拟包间内真实情况。此外,一旦仿真计算完成后,我们将计算结果从模型中导出,回传到监控系统,从而完成一次仿真计算的闭环。

    如此,我们实现了将沙盘系统整合进入DCIM系统,并且全程操作可以自动化进行,为将来沙盘系统的应用和推广打下了坚实基础。

    最终成果:

    1)精度达标:模型采用真实的监控数据作为输入,并计算模拟的目标传感器测温与实际的传感器测温之间的平均绝对误差来作为模型的准确性的测量依据。经过长时间观察(采用不同时刻的数据进行验证),模型模拟精度均能达到阿里巴巴数据中心建设标准要求。理论上可以替代冷热通道传感器,进行数据中心生产包间环境监控。

    2)成功落地:目前该模型已经成功接入DCIM系统,可以自动从DCIM中抓取数据,返回结果。当前模拟的时耗为大约1小时,通过升级6Sigma License规格未来有希望提升到10分钟。接入该实时CFD模拟系统意味着阿里自研DCIM系统成为世界上唯一有高精度实时CFD模拟模块的数据中心云维管理系统。

    包间可视化:由原来的2D、数字的方式,升级为3D、图形数字结合的展现方式,包括实际布局、热力情况、气流情况,从而可以让机房经理与设施专家能更直观、全面、迅速地了解机房的整体情况,更快发现包间暖通环境问题,辅助优化现场供冷分配与气流组织。

    故障发现:可以厘米级别监测包间内的温度,快速发现温升,从而具备更快、更强的风险识别能力,防止出现大范围的机房温升事件。

    设计验证:建模过程所需要的物理设置信息通常决定于设计阶段。建模过程中得到的误差反馈信息可以直接验证设计与实施的差别。

    设计优化:沙盘系统可以模拟不同设计下数据中心的操作情况,从而可以用于设计上的优化和数据中心变更的先验平台。

    暖通控制推荐:可以通过尝试不同空调设置应用到当前环境,得到温度控制最佳、能耗最低的空调设置,实现包间内供冷可靠、智能的控制。

    业务调度推荐:根据详细的机房温度分布情况,结合功耗水位数据,可以向业务调度系统提供调度参考,使得业务分布更均匀,机房温度分布也更加均匀,降低制冷能耗,提升服务器健康度。

    未来合作的方向之一是对变更沙盘系统进行产业级推广和验证,目标是做出业界标准。使得变更沙盘系统可以应用与阿里数据中心的更多机房,去验证设计和优化管理控制。

    未来,我们希望将系统沙盘推广到整个暖通系统,覆盖到机房外的制冷设备,实现全链条模拟。从而实现整个制冷系统的设计验证和控制优化。

    综上,变更沙盘系统将可以显著促进数据中心设计到运维的自动化水平,为实现更稳定更高效的数据中心运维提供支撑。这是一次从零到一的尝试,我们构建了第一个可实时的、高精度的暖通变更系统,帮助数据中心运维人员能够判断一次变更是否可能造成故障,从而减少由变更导致的故障。进一步,我们可以给出具体的变更后环境变化,给出变更建议,甚至能够实现自动变更。如此,我们将离机房无人值守的目标越来越近。

    本文作者:阿里&NTU

    阅读原文

    本文来自云栖社区合作伙伴“阿里技术”,如需转载请联系原作者。

    本文由澳门402永利com发布于编程应用,转载请注明出处:U位物联结合CFD精细化监察和控制机房温度,阿里

    关键词:

上一篇:入门例程

下一篇:没有了