处理器运算能力 – 代码笔记

1TOPS 处理器每秒进行一万亿次操作。

Table of Contents

浮点运算

1FLOPS 每秒所运行的浮点运算次数。

在进行非常大或者非常小的实数运算，或者参与运算的数字在一个很大的范围内变动时都非常需要浮点运算的参与。浮点数的表示方式类似于科学计数法，其区别在于科学计数法是以10作为基数，而浮点数以2作为基数。一些已经发表的编码标准定义了指数 (Cray和 VAX定义了基数为2的情况、 IEEE754 格式定义基数为2或10的情况， IBM浮点架构定义了基数为16的情况)和有效位数 (数字后有多少位小数)。实际应用中虽然有很多类似的格式，但最常用的是 ANSI/IEEE Std. 754-1985. 定义的格式，如果用于32位数字则称为单精度，用于64位数字的称为双精度，数字位数更长的称为扩展精度 (用于计算过程中得出的解，这可以防止最终结果误差过大)。浮点表示法可以比定点数表示更大范围内的数字，换言之，它能够表示非常小的数字和非常大的数字。

运算性能表现方式

FLOPS 和 MIPS 都是用来测量计算机数字运算性能表现的方式。浮点运算测试通常用在科研和研究领域。 MIPS则用来测量计算机的整数操作性能。整数操作的例子包括数据转移(从A到B)，条件测试(当 A=B时,执行C). 当一台计算机被用来进行数据库查询，文字处理、电子表格制作或运行多个虚拟机时，一般进行MIPS基准性能测试就足够了。来自劳伦斯利弗莫尔国家实验室（Lawrence Livermore National Laboratory）的弗兰克·H·麦克马洪（Frank H. McMahon）发明了FLOPS和MFLOPS(megaFLOPS)这两个术语。以便他能够比较现代的超级计算机每秒钟能够进行的浮点运算次数。这比普遍使用的MIPS更适合测算那些能够进行大量数字运算的计算机。

算力换算

一个MFLOPS（megaFLOPS）等于每秒一百万（10⁶）次的浮点运算；

一个GFLOPS（gigaFLOPS）等于每秒十亿/十亿（10⁹）次的浮点运算；

一个TFLOPS（teraFLOPS）等于每秒一兆/一万亿（10¹²）次的浮点运算；

一个PFLOPS（petaFLOPS）等于每秒一千兆/一千万亿（10¹⁵）次的浮点运算；

一个EFLOPS（exaFLOPS）等于每秒一百京/一百亿亿（10¹⁸）次的浮点运算。

算力排行

FLOPS

ENIAC: 300 FLOPS

MFLOPS

CRAY-1: 160 MFLOPS
Raspberry Pi Broadcom CM2708 ARM11 @1 GHz(OC): 316.56 MFLOPS
好奇号 BAE RAD750 抗辐射处理器(基于 IBM PowerPC 750 设计)@0.1~0.2 GHz: 400 MIPS

GFLOPS

Intel Xeon 3.6 GHz: <1.8 GFLOPS
Intel Pentium 4 HT 3.6Ghz: 7 GFLOPS

Raspberry Pi Cluster (32 node)x Broadcom CM2708 ARM11@1 GHz: 10.13 GFLOPS (集群由博伊西州立大学电气工程与计算机系博士生 Joshua Kiepert 实践)
Nintendo Wii: 12 GFLOPS
Intel Core 2 Duo E4300 14 GFLOPS
ARM Mali-400 MP4 @ 533MHz: 19.2 GFLOPS
树莓派上的 VideoCore: 24 GFLOPS
Intel Core 2 Duo E8400 24 GFLOPS
AMD Phenom 9950: 29.05 GFLOPS
Intel Core i5-4210U: 36.77175 GFlops (Win 8.1/Pro x64, LinX 0.6.5, Problem Size=11,530, MiB=1,024, 3 times) in 27.798sec
Intel Core 2 Quad Q8200 37 GFLOPS
Intel Core 2 Extreme QX9770: 39.63 GFLOPS
AMD Phenom II x4 955: 42.13 GFlopS
Intel Core i5-4210U: 43.4467 GFlops (Win 8.1/Pro x64, LinX 0.6.5, Problem Size=11,530, MiB=1,024, 3 times) in 23.526sec
Intel HD Graphics 2000 @ 1250MHz(SB): 60 GFLOPS
Intel Core i7 965: 69.23 GFLOPS
ARM Mali-T720 MP8 @ 600MHz: 81.6 Peak GFLOPS
Intel Core i7 980 XE : 107.6 GFLOPS
Intel HD Graphics 2500 @ 1150MHz(IVB): 110.4 GFLOPS
Intel Core i5 2500K @ 4.5GHz: 123.35 GFLOPS (w/AVX instruction set)
Intel HD Graphics 3000 @ 1300MHz: 125 GFLOPS
Intel HD Graphics 3000 @ 1350MHz(SB): 129.6 GFLOPS
New Intel HD Graphics GT1 @ 1150MHz(Haswell): 184 GFLOPS
SONY PlayStation 3: 228.8 GFLOPS
Mircosoft Xbox 360: 240 GFLOPS
IBM POWER7: 264.96GFLOPS^[2]
ARM Mali-T760 MP16 @ 600MHz: 326 GFLOPS
Nvidia Jetson TK1 (Tegra K1) 开发平台-Ubuntu: 326 GFLOPS (此为最大值且于自带风扇下运作)
Nintendo Wii U: 352 GFLOPS
Intel HD Graphics 4000 @ 1300MHz(IVB): 332.8 GFLOPS
NVIDIA GeForce 8800 Ultra（G80-450 GPU）:393.6 GFLOPS
Intel HD Graphics 4200/4400 (Mobile)/4600/P4600/P4700 GT2 @ 1350MHz: 432 GFLOPS
AMD Radeon HD 3870（RV670 GPU）:497 GFLOPS
NVIDIA Tegra X1:512 GFLOPS
Intel HD Graphics 5000 GT3 ~HD4XXX @ 1100MHz <15W+>: ~704 GFLOPS
NVIDIA GeForce GTX 280（G200-300 GPU）:720 GFLOPS
NVIDIA GeForce 840M w/2GB vRAM: 790 GFLOPS
NVIDIA GeForce 840M (2GB Dedicated VRAM): 790.3 GFLOPS
Intel Iris Graphics 5100 @ 1100MHz <28W+>: 704 GFLOPS
AMD Radeon HD 4870（RV770 GPU）:1008 GFLOPS
NVIDIA Jetson TX1: over 1,100 GFLOPS

TFLOPS

Microsoft Xbox One：1.3 TFLOPS
Microsoft Xbox One S：1.4 TFLOPS
NVIDIA GeForce GTX 950 ：1.57 TFLOPS
SONY PlayStation 4：1.84 TFLOPS
NVIDIA GeForce GTX 1050 ：1.862 TFLOPS
AMD Radeon HD 7850 ：1.946 TFLOPS
NVIDIA GeForce GTX 1050Ti ：2.138 TFLOPS
NVIDIA GeForce GTX 960 ：2.3 TFLOPS
NVIDIA GeForce GTX 580 ：2.37 TFLOPS
NVIDIA GeForce GTX 680 ：3.09 TFLOPS
AMD Radeon R9 380 ：3.48 TFLOPS
NVIDIA GeForce GTX 970 ：3.49 TFLOPS
NVIDIA GeForce GTX 1060 ：3.85 TFLOPS
SONY PlayStation 4 Pro：4.2TFLOPS
AMD Radeon HD 7970 Ghz Edition ：4.3 TFLOPS
NVIDIA GeForce GTX Titan ：4.5 TFLOPS
NVIDIA GeForce GTX 980 ：4.6 TFLOPS
AMD Radeon HD 6990 ：4.98 TFLOPS
NVIDIA GeForce GTX 780Ti ：5 TFLOPS
AMD Radeon RX 570 ：5.095 TFLOPS
AMD Radeon R9 390 ：5.1 TFLOPS
AMD Radeon RX 480 ：5.1 TFLOPS
NVIDIA GeForce GTX 1660 Ti ：5.5 TFLOPS
NVIDIA GeForce GTX 980 Ti ：5.6 TFLOPS
AMD Radeon R9 290X ：5.6 TFLOPS
Microsoft Xbox One X：6 TFLOPS
NVIDIA GeForce GTX 1070：6 TFLOPS
AMD Radeon RX 580 ：6.175 TFLOPS
NVIDIA GeForce RTX 2060 ：6.5 TFLOPS
NVIDIA GeForce GTX Titan X：7 TFLOPS
AMD Radeon RX 590 ：7.119 TFLOPS
NVIDIA GeForce RTX 2060 Super ：7.2 TFLOPS
NVIDIA GeForce RTX 2070 ：7.5 TFLOPS
AMD Radeon RX 5700 : 7.949 TFLOPS
NVIDIA GeForce GTX Titan Z ：8.1 TFLOPS
NVIDIA GeForce GTX 1070 ti : 8.168 TFLOPS
AMD Radeon R9 Nano ：8.19 TFLOPS
AMD Radeon HD 7990 ：8.2 TFLOPS
AMD Radeon R9 FURY X : 8.602 TFLOPS
NVIDIA GeForce GTX 1080 ：9 TFLOPS
NVIDIA GeForce RTX 2070 Super ：9.1 TFLOPS
NVIDIA Tesla P100 : 9.5 TFLOPS
AMD Radeon RX 5700 XT : 9.754 TFLOPS
NVIDIA GeForce RTX 2080 ：10.1 TFLOPS
SONY PlayStation 5：10.28 TFLOPS
AMD Radeon RX Vega 56 :10.54 TFLOPS
NVIDIA Titan X ：11 TFLOPS
NVIDIA GeForce RTX 2080 Super ：11.2 TFLOPS
AMD Radeon R9 295X2 ：11.46 TFLOPS
NVIDIA GeForce GTX 1080 Ti ：11.5 TFLOPS
Microsoft Xbox Series X：12.155 TFLOPS
AMD Radeon RX Vega 64 : 12.66 TFLOPS
NVIDIA GeForce RTX 2080 Ti ：13.45 TFLOPS
NVIDIA Tesla V100 :14.1 TFLOPS
NVIDIA Titan V : 14.9 TFLOPS
NVIDIA Titan RTX : 16.31 TFLOPS
Earth Simulator：35.6 TFLOPS
Blue Gene/L：135.5 TFLOPS
中国曙光Dawning 5000A：230 TFLOPS

PFLOPS

IBM Roadrunner：1.026 PFLOPS
台湾杉：1.7 PFLOPS
Jaguar：1.75 PFLOPS
天河一号：2.566 PFLOPS
IBM Mira: 8.16 PFLOPS
京：10.51 PFLOPS
IBM Sequoia：16.32 PFLOPS
Cray Titan：17.59 PFLOPS
天河二号：33.86 PFLOPS
BOINC运算平台：35.109 PFLOPS（2020-5-1）
神威太湖之光：93.01 PFLOPS
Summit : 122.3 PFLOPS
富岳 : 415 PFLOPS

EFLOPS

比特币全网算力(2013/5) : 1 EFLOPS
Folding@home运算平台：2.6 EFLOPS（2020/4/24）
比特币全网算力(2018/5) : 35 EFLOPS

转自：维基百科

地球模拟器

通过在计算机内设置“虚拟地球”，以预测及解析整个地球的大气循环预测、温室化预测、地壳变动、地震发生等大规模计算为目的而开发。其原形是NEC的矢量型超级计算机“SX-5”。

地球模拟器是由640台用来进行演算处理的“计算节点”（机体的长和宽均为1×1.4米，高为2米）和65台用于连接计算结点的网络设备构成。每个计算结点上配备有8个最大为8 FLOPS 的NEC产处理器和16GB的共享内存。计算结点和网络设备由通信速度为12.3GB/秒的网络连接，使用的电缆总长度达2800公里。整套设备共占用空间达3200平方米。“地球模拟器”的开发始于1999年。开发费用总计达400亿日元。2002年4月，“地球模拟器”在接受超级计算机的世界标准“Linpack”的基准测试时，运算性能达到了35.61 TeraFLOPS（1 TeraFLOPS＝1秒钟进行1万亿次的浮点运算），当时一度是世界上最高性能的超级计算机。

转自：维基百科

电子数值积分计算机

ENIAC 缩写，简称为伊尼亚克是世界上第一台通用计算机。它是图灵完全的电子计算机，能够重新编程，解决各种计算问题。 ENIAC为美国陆军的弹道研究实验室所使用，用于计算火炮的火力表。ENIAC在1946年公布的时候，就被当时的新闻赞誉为“巨脑”。它的计算速度比机电机器提高了一千倍。

ENIAC 包含了17468个电子管、7200个晶体二极管、1500个继电器、10000个电容器，还有大约五百万个手工焊接头。它的重量达27吨（30美吨），体积大约是2.4m×6m×30.48m（8×3×100英尺），占地167平方米（1800平方英尺），重30英吨，耗电150千瓦（导致有传言说，每当这台计算机启动的时候，费城的灯都变暗了）。IBM的卡片阅读器用于输入，打卡器用于输出。使用IBM会计机（比如IBM 405）可将这些卡片用于离线产生输出。

ENIAC使用十位环形计数器存储数字，每个数字使用36个电子管，其中10个是双三极管，它们组成了环形计数器的触发器。算数运算通过对环形计数器脉冲的计数进行，如果计数器被脉冲“环绕”了，则产生一个进位脉冲。“环绕”的思想在电子领域模拟了机械加法机数字滚轮的操作。ENIAC有20个带符号的十位累加器，它们使用10的补码表示方法，每秒可在它们和数字源（例如另一个累加器，或者常数传送器）进行5000次简单加减操作。因为几个累加器可以同时运行，所以潜在的速度峰值由于这种并发操作而比上述数字高得多。

通过将两个累加器用线连接起来，可以实现双精度计算，不过累加器进行电路时序控制，这阻止了三个或更多的累加器被连接起来让精度更高的扩充可能。ENIAC中的四个累加器被一个特殊的“乘法器”单元所控制，每秒可进行385次乘法操作。还有五个累加器被一个特殊的“除法器/平方-平方根器”单元，每秒可进行四十次除法运算或三次求平方根运算。

转自：维基百科

阿里云飞天异构计算加速平台

2017年9月12日，阿里云宣布推出全新一代异构计算加速平台，在行业内第一次覆盖了包括AMD、NVIDIA的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例，提供最高可达75TFLOPS的算力。

从计算机诞生到90年代，计算资源都是作为“可计划性”的资源来使用。无论是探索月球，还是研究基因的奥秘，计算资源本身是可规划的。然而，互联网时代的到来，一个爆发性事件，就有可能挑战整个计算资源，不确定性如影随形。毫无疑问，双11就是这样一个典型场景。

天猫与阿里云、万网宣布联合推出聚石塔平台，率先以云计算为“塔基”，为天猫、淘宝平台上的电商及电商服务商提供IT基础设施。基于阿里云的ECS云服务器、RDS云数据库、SLB负载均衡网络，商家订单源源不断的推送到商家平台上，保障了数据的稳定和延续。这是云计算首次参与双11，并且实现了191亿的交易总额。

5年的时间，飞天平台集群规模从1500台到3000台，2013年8月，单集群超越5000台，同时支持多集群跨机房计算，到2014年，聚石塔上96%的交易使用了阿里云。2015年开始，双11构建了全球最大的混合云，将公共云和专有云无缝连接。而这些成果最终成为了全社会的能力：无论是春节在12306抢票，还是在世界杯期间的狂欢，抑或是微博上的明星八卦，脉冲计算的能力在今天已经变成了常态。

2010年春，大数据引擎MaxCompute的前身SQL Engine第一版上线，运行在当时30台机器的飞天集群上。

2011年，飞天团队开始探索支撑集团内部数仓业务，在1500台机器上并行运行云梯2的生产作业，并取得了不输于Hadoop的性能和稳定性成绩。飞天5K项目之后，MaxCompute随之进入5000台机器和跨机房调度时代，并且可以在377秒完成100TB的排序。通过MaxCompute引擎助力，从2014年双11开始，千人千面成为常态。现在，这一产品已经成为阿里巴巴的主力计算平台：

•阿里巴巴集团99%的数据存储以及95%的计算能力使用MaxCompute；

•每天有超过500万个作业在平台上运行；

•2017年双11，MaxCompute单日数据处理超过320PB。

MaxCompute可以承载EB级的数据存储能力，成为全球首个100TB规模Bigbench测试通过的大数据计算平台；在公共云上覆盖国内外的十几个国家和地区，专有云上部署超过100+套。

2017年的双11被认为是人类历史上最大规模的人机协同“超级工程”：技术运维、商品推荐、客服、支付、物流等各个环节都引入机器智能。数据、计算力、算法是人工智能的三大核心要素。飞天在通用计算服务的基础上，开始探索面向人工智能的异构计算。

全新的基础设施让全球最大规模的人机协同成为了可能。双11大量AI和视频转码业务部署在ECS的GPU集群之上，包括视频云的视频智能处理、阿里小蜜、拍立淘和新零售的智能供应链管理等AI业务都通过阿里云异构计算GPU昊天平台进行加速。

• 阿里巴巴数据中心机器人“天巡”每天在机房巡逻，能接替运维人员以往30%的重复性工作。

• AI调度官“达灵”将数据中心资源分配率拉升到90%以上。

• 人工智能助手‘阿里小蜜’在双11当天承担95%的客服咨询。

• 菜鸟智慧货仓机器人单日可发货超过100万件。

• AI设计师“鹿班”，在双11期间设计了4.1亿张商品海报。

• 阿里机器智能推荐系统双11当天为用户生成超过567亿个专属“货架”，像智能导购员一样，给消费者“亿人亿面”的个性化推荐。

半年后的武汉云栖大会上，阿里云首次和合作伙伴一起展出了AI智能点单设备，在没有任唤醒词的情况下，客户以每秒5个字的速度，向一台机器点单，并频繁更换语句，这台机器对每次对话均作出了精准应答。

现在，这些基础设施以及商业化的产物正服务于各行各业。

飞天2.0支撑2018全社会的双11

如果说最初的技术变革是为了解决平台的流量峰值问题，那么现在新的篇章已经开启，新技术正在引领商业变革。

今年双11期间，阿里云上新增调用的弹性计算能力累计超过1000万核，相当于10座大型数据中心，创造了“脉冲计算”的新纪录。不仅如此，飞天2.0的新能力全面支撑双11：

• 阿里云自研神龙弹性裸金属服务器在核心系统中发挥巨大作用。其基于完全自研的新一代软硬融合的X-Dragon虚拟化架构，兼具物理机和虚拟机优势，解决了高峰值流量下的性能瓶颈。

• 业界首个百万级IOPS的ESSD云盘提供了数十PB的存储规模，应对了史上最大的高并发IO挑战。

• 猫晚网络直播创下带宽峰值记录，阿里云视频云高可靠直播方案完美保障了优酷2500万用户的体验。

• CDN为中国1/3以上的互联网流量提供加速，视频云在海外为Lazada提供直播服务。

• 国内首次大规模IPv6商业应用实践，云、网、端以及应用全面支持IPv6。

• 实时计算Blink处理峰值达到每秒17.18亿条，相当于120万本新华字典的数据量。

• MaxCompute单日数据处理超过500PB，平稳支撑电商混布单元在线流量洪峰12万笔/秒交易。

• 云盾为云上客户提供上千万次风险识别服务，并将DDoS高防技术输出到全球，保障全球业务。

在这些技术底座之上，整个系统应对流量洪峰更加从容，当天交易额达到创纪录的2135亿。

当然，IoT的登场则为双11创造了更大的想象空间。

在消费侧，IoT技术服务新零售的同时，正在催生新的追踪经济。消费者可以查看进口商品完整的商品溯源实时信息，确保天猫进口商品安全可溯，远洋运输也实时可见。

在制造侧，助力天猫品牌服装厂商数字化接单、下单和备货，个性化生产、柔性化制造，交期准确率近乎100%；对农业生产、运输、销售进行全链路升级。

从线上到线下，从生产制造到物流配送，从国内到海外，阿里云的技术能力延伸到各行各业。而这只是这些新技术应用的冰山一角，云与AI、IoT的有机融合未来还会产生什么化学反应？我们拭目以待。

转自：阿里云开发社区