Loading... 用绝缘冷却液降低服务器主机运行时温度。 ## 为什么这么热 这个话题之所以这么热,无外乎来自这么几个原因。 第一个经济原因:但是谈到PUE也好,空调的电费也好,制冷系统在数据中心里面所占据的能源消耗,所产生的费用是最大头的一块,基于这个原因,大家也希望能够把制冷这部分做的更加高效、更加节能,从而降低整个运营成本,这个是经济性的考虑。如果单从整个数据中心的能效提升来讲,其实有很多不同的技术路线,大家也看到从原来的房间空调、列间空调、自然冷却、通道封闭一系列手段都是在提升数据中心制冷效率技术的进步,如果把整个数据中心PUE的目标照1.2左右的水平为优化目标的话,就有相应的一些技术和选择性就没有那么多了。目前看到达到这种水平的,用一些全新风制冷或者完全自然冷源,比如在一些极寒地区、深层湖水等等这些冷源的地区能够达到这样的水平,但这些往往会受地理环境和自然环境的限制。那么真正能够标准化,不受地域环境限制标准化推广化的技术,液冷可能是其中一个趋势之一,所以我想这是为什么液冷在这几年热度这么高的第一个原因。 第二个原因确实是整个的计算单元,CPU、GPU功率密度不断的在提升,现在CPU已经占200W左右,GPU更高,300W左右。前面我们谈的数据中心大的更高效制冷的技术方案,能够解决数据中心整体制冷能效,但是对部件级的热点可能没有办法做到很好的管理和保障工作环境的作用。对于这种特别高热的热点,也需要有一种更突破性的,更有效的热管理的方法,我想这是第二个液冷技术这几年热起来的原因。 第三点整个用户的应用,我们也看到整个IT行业的应用,不断有新的应用在涌现出来,这两年可能特别热的,比如人工智能、大数据、深度学习等等,但是也有相互关联的,这些是目前最热的应用,甚至IT企业你要不说自己做人工智能都不意思说自己是IT企业了。这些应用当中,拿深度学习举例,最典型的案例,阿尔法狗具备了三天之内从完全没有围棋知识的一台机器,具备了能够打败人类最强围棋手的能力,这个过程是一个深度学习的过程,这个过程需要大量运用GPU的计算力,在这些应用当中,除了GPU、CPU本身的功率很大,同时很多应用场景会大量、高密度应用GPU、CPU,所以这个带来了,所谓热岛也好或者怎么样也好,已经没有一个更有效的制冷方式去解决的话,已经阻碍了这些应用系统的运转,所以这个时候我想液冷技术发展,近几年新兴起来特别受到关注的第三个原因。 ## 液冷技术发展的现状 以在液冷分主要还是按照这两种产品形式分类:第一个在分类里面提到叫冷板式,冷媒跟元器件产生换热,冷媒跟元器件并不接触。第二是浸没式,直接接触的。这两种制冷模式应该说目前的市场上我们都看到有很多的应用,它的优劣势我简单做个分析。 首先第一个看到市场相对比较多的,已经产业化产品化的叫冷板式的,之所以它最先产业化是因为它对整个服务器系统的变化比较小的,只要是把原来的电子元器件上的散热片通过冷板替代掉就可以实现,但是服务器的结构会做一些小的调整但是并不大。然后变化完以后,比较符合服务器原来风冷系统的操作维护习惯。 第二个优点对冷媒要求比较低,因为密封在箱体里面,不与元器件直接接触所以可以有多种冷媒的选择。比如像质优价廉的水都可以作为冷板式液冷服务器冷媒的选择。 第三点是它的产业链相对完备,虽然冷板技术应用到大规模商用系统里面是近几年出现的,但冷板自身这个技术在市场已经出现很多年了,所以相应的产业链和技术成熟度相对是高的。 但冷板与浸没式相比的缺点,第一它是通过冷板金属板去跟电子器件发生热交换,会中间是有传导热阻,效率会低于浸没式,第二个比较难以解决服务器内部全部的散热。我们会看到有全冷板的模式,其实是会带来用户的维护非常不方便等等其它方面的牺牲,所以绝大多数还是通过冷板式来解决关键部件的散热。整个空间散热想要通过冷板式液冷全部解决,是有一定复杂度的,这也导致用户在机房里面可能有两套系统一套传统的风冷系统,还有通过液冷解决,这是它的缺点。 浸没式最主要的优点第一冷媒和元器件直接发生接触,会有更强的制冷能力,第二它可以相对比较容易一次性把整个服务器全部的热量带走,第三它可以实现超高的高密度的主板设计。以往服务器主板都是根据风冷时代来设计的,就要求高发热部件之间不能挨的太紧,等等一系列的设计规范障碍,包括冷板式也不能很好解决这个问题。但是浸没式更高的制冷能力,可以实现这个主板非常高密度的排布,后面我们看到一些应用,浸没式液冷服务器主板的一些变化。但浸没式液冷的缺点换热机理是比较复杂的,实现技术难度比较大,这也是为什么冷板在2015年已经量产化了,但是浸没式预计在今年可能才实现量产化,另外一个缺点是易维护的特点对设计提出了非常高的要求。 ## 冷板式的原理图 ![image.png](http://blog.cpuck.com/usr/uploads/2024/10/2621531098.png) 通过这边的接触板,每家设计不同,但是不管怎么样,一定会有一个板去跟电子元器件进行接触,这是外部冷源,一般采用的是冷塔,外部冷源,整个系统往往也会设计成两个循环,通过分液器分到机柜里面,再分到服务器里面,服务器的热量传递到机柜外,跟二次冷源进行交换,设计体系基本上是这样的系统结构。 ## 冷板服务器发展现状 ![image.png](http://blog.cpuck.com/usr/uploads/2024/10/2670075052.png) 目前很多厂家都先后推出了自己冷板液冷服务器样机或者原理机,绝大多数是在2015年前后,真正实现标准化量产,目前还是比较少的。这是液冷服务器的一些关键技术,为什么元器件出来了,样机出来,为什么不能标准化量产,除了市场原因,还有关键技术的原因,冷板液冷服务器里面最专业的技术,首先是分液技术,包括热插拔技术,在产品设计阶段都要考虑的,但是另外更关键的技术是要对用户未来的应用产生关键影响的两个技术,这个是需要靠相对多的产业化的经验和运维的经验来实现的。第一个是防泄漏技术,我相信一定会有防泄漏系统,但真正的安全等级如何,这需要长时间验证。第二个防腐蚀技术,刚才说对冷媒的要求低,但并不是没有要求,特别是冷板式的,管路非常精细的,这里面可能采用适当的冷媒,甚至采用水是不是有其他的问题,导致管路的一些腐蚀,从而引发管路系统一些问题,这些都是靠比较长时间实验积累才能真正完成产业化。 这个是曙光液冷服务器发展的历程,前面的研发阶段就不用介绍了,实际上在2015年曙光是国内第一个真正推出来了标准化量产冷板液冷服务器,2017年冷板液冷服务器已经升级到第二代,在第一代产品只验证支持去离子水,第二代可以放去离子水和氟化液。从2015年推出来以后,也是得到了用户的高度关注,并且获得了广泛的应用,从国内来看冷板式液冷服务器绝大部分案例,特别是大规模的,基本上还都是曙光服务器应用比较广泛,其中影响力比较大的,比如像中科院大气所的地球模拟装置原型机,国家气象局的新一代的高性能计算,国家电网的电力仿真等等,这几个里面都是应用很大,大概千台左右级的应用部署,包括金融领域的用户,如建行也已经使用。在2015年发布的时候只有一个案例,今年我们已经有很多新的案例涌现出来。 > [曙光](https://www.sugon.com/about/news?time=0&category_id=1)天阔双路I620-G30服务器是曙光基于英特尔可扩展处理器平台全新开发的一款具有广泛用途的高端双路机架服务器,据测试,该服务器集群在30TB的数据规模上达到每分钟完成3383.95次大数据查询的速度,每次查询的成本为307.86美元,性能上高出上一个世界纪录一倍以上,成本相对上一个世界纪录节约了将近一半,成为全球大数据查询速度最快、性价比最高的服务器。侵删转自:[工业新闻网](http://www.cinn.cn/sjgy/201803/t20180328_179373_wap.html) ## 浸没式液冷服务器 刚才介绍的冷板液冷服务器,接下来更新的浸没式的,相比冷板式,浸没式它的制冷能力更强,所以应该算是在向更高阶段发展的话,浸没式是下一个阶段制冷最高模式。 我们又有分类,大概分类的方式,一种类型是按照制冷的原理,有相变和无相变,虽然都是浸没在那里面,但液体并不蒸发,并不沸腾,我是靠液体的温度提升进行热交换,相变是指液体产生沸腾,通过沸腾把热量带走,这两种来讲,相变的散热能力比温升的散热能力高出了百倍,如果按制冷原理来讲,浸没相变式是液冷制冷最终极的形态。如果按系统模式分的话,主要考虑用户的维护性,可以分成单片浸没和池级浸没,池级浸没里面可能放很多片服务器,从产品形态会有这两大类的分类。目前来讲整个浸没基本还处在研究阶段。 ## 浸没式液冷的发展现状 也有一些厂家纷纷推出自己的产品,我们看到更多是原理验证机,连样机都还没到,右下角这张图在全国来看是真正浸没式液冷服务器跑系统的,这是一个个人用户自己去定制的液冷服务器支持比特币挖矿机。还有intel联合制冷厂家一起做的实验。左下角这是国内某知名互联网企业做的浸没液冷的验证机。 在浸没液冷里面也有一些很关键的技术需要突破,这里面最关键的几个技术。 第一个是冷媒元器件材料兼容性。浸没一两天是看不到变化,但是长期运行,一台服务器使用周期寿命可能是五年,是否会有相溶性的问题?曙光从2012年开始做整个液冷的研究,所以每一种新的材料器件我们要求做到一万小时冷媒和原材料相溶性的实验,新的冷媒和新的元器件的验证。第二信号传输特性,电信号特别是高频信号在液体里面传输信号是不同的,在有的时候想象服务器只要它绝缘,原来怎么工作还怎么工作,确实不是这样,会带来一些信号传输上的失帧,带来性能的偏差,所以这方面我们还要做信号传输变化特性的研究,以及一些优化的设计,做一些针对性的,有些可以做材料的变化,有些不能做材料上的变化,所以在设计这些方面要去做一些优化。易维护的系统结构也是商业化很重要的考量的点,其他都是必然标准要配备的。 曙光浸没式服务器从2012年开始研究,从去年我们已经逐渐从研究阶段进入到了产品化阶段。这是我们自己每年制作的样机、验证机,很多在座的展会上也有人看到过。这是我们最早的一台浸没式的原理验证机,这里面元器件现在已经运行超过五年的时间了,同时也在做材料的验证。这是2015年我们推出来第一台液冷自动维护系统样机。这是2016年做的池级的非相变的原理验证机。从去年开始真正逐步进入到产业化的阶段,2017年推出来了第一台真正交付商用全浸没相变式的液冷服务器,叫I620-M20,这个是国内第一台真正商用化全浸没液冷服务器,应用到华中科大的项目上,实现批量采购冷板式液冷服务器的同时也采购了全浸没相变式应用于其健康大数据项目平台建设中。它目前还是单台应用,真正全系统的浸没式液冷服务器的部署,首先给大家汇报一下进展,实际上大规模的部署百台以上的全浸没相变液冷服务器的部署我们已经完成了,曙光正在研发的,也是国家十三五期间重点的科研课题,下一代超级计算机原型机里面已经部署完毕,整个超过500个节点,这是比较大的批量验证了。然后预计会基于这个原型机的部署,在这个基础之上进行标准的产品化,大概在下半年会让大家看到。我判断这可能是全球第一台可以实现大批量部署浸没变相液冷服务器的标准化产品,谢谢大家。 侵删转自:[数据中心](http://dc.idcquan.com/dc/157253.shtml) --- ## 阿里云液冷服务器 2020年1月6日,阿里巴巴宣布将“浸没式液冷数据中心技术规范”向全社会开放。这项规范旨在用一套标准流程为下一代绿色基地型数据中心的建设提供设计依据,通过液冷技术的普及,降低全社会的能耗水平。初步估算,如果全国的数据中心都采用液冷技术,一年可节省上千亿度电。 ![image.png](http://blog.cpuck.com/usr/uploads/2024/10/1245361322.png) 2016年,阿里巴巴就推出了全球首台浸没式液冷服务器,将服务器被浸泡在特殊的绝缘冷却液里,运算产生热量可被直接吸收进入外循环冷却,全程用于散热的能耗几乎为零。这种形式的热传导效率比传统的风冷要高百倍,节能效果超过70%。 ![image.png](http://blog.cpuck.com/usr/uploads/2024/10/3362748692.png) 相对于传统IT,液冷数据中心的背后是巨大创新和革命性变化,硬件与系统的变更需要大量人力和物力投入,当前这个领域几乎空白,没有标准可以借鉴。此次阿里巴巴开源的整套规范,涵盖了数据中心的设计、施工、部署、运维等各个环节,通过一体化设计合理规划,降低部署成本,提升稳定性,带领数据中心走上高效、清洁、集约的绿色发展道路。 转自:[阿里云社区](https://developer.aliyun.com/article/741829?spm=a2c6h.13262185.0.0.22d261cfbRjRor) --- ## **液冷式发动机** 液冷式引擎是描述发动机在运作时产生的废热是经由环绕在汽缸外围的冷却液的管线加以排除。冷却液在吸收汽缸的热量之后会通过一个热交换器,将吸收的热量与外界的空气进行交换,接着冷却液会回到储存箱中继续循环运作。大部分的冷却液是以水和其他添加物(如乙二醇)混合之后使用,因此也有人将此种发动机称为水冷式发动机。液冷式发动机或是引擎常见于螺旋桨活塞发动机或者是汽车的引擎使用上。早期的设计还分为加压与不加压两种型态。不加压的意思是指冷却管线当中的压力与外界大气压力相同,加压则以密闭的方式维持一个较高的压力。 加压的液冷式发动机的散热效果较好,发动机可以较高的转速持续运作,使用在飞机的发动机上面时,比较不会受到高度的影响而大幅减弱散热的效果。相对于气冷式发动机,液冷式发动机的设计比较复杂,生产上的精密度要求也比较高。对飞机的使用来说,液冷式发动机虽然有冷却水箱以及管线的体积,但是在正面的截面积上还是比气冷式发动机要小,飞行时产生的阻力也较低。可是在作战中管线发生损坏的时候,液冷式发动机很快就会因为缺乏有效的冷却而无法继续运作,相对于气冷式发动机而言,对抗作战损坏的能力较差。 转自:[维基百科](https://zh.wikipedia.org/wiki/%E6%B6%B2%E5%86%B7%E5%BC%8F%E7%99%BC%E5%8B%95%E6%A9%9F) 最后修改:2024 年 10 月 07 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏