三院共享高性能系统 走在高校HPC应用的路上
作者: 郭雪梅
责任编辑: 阚智
来源: 中小企业IT采购
时间: 2007-05-21 13:16
关键字: HPC
浏览: 0
点赞: 0
收藏: 0
作为传统的理论研究和实验科学方法之后第三大科研手段,高性能计算(HPC)正在各个行业中发挥越来越重要的作用。实际上,谈到HPC在教育行业的应用,曙光公司高级技术支持工程师,在高教HPC项目中经验丰富的袁伟表示,以前主要靠理论研究来带领技术的发展,比如牛顿由苹果落地想到了地球吸引力。而现在带领科学进步的方法主要有两个:其一是物理试验,其二是计算。显然,对于一个物理的现象,通过已有的知识抽象出来,建立一个模型,这个模型建立的比较科学,就可以基于这个模型编程序,这都是并行程序。如果这个模型建立比较准,程序编写也正确,求解具体的问题也是正确的,最后出来的结果就能够描述客观的现象。正是这套理论相对比较成熟,所以现在高性能计算发展非常快,应用的领域也非常多。比如科研、电信、石油以及天气预报等方面。
“而中国由于在高性能领域起步较晚,仅是应用推广的初级阶段,然而速度发展非常快,很多科研院校已经将高性能计算应用的很好,比如湘潭大学的高性能计算机集群的建设很有借鉴意义”,袁伟说。
三院共享高性能系统
湘潭大学是一所综合性全国重点大学,目前信工院、物理学院、土力学院、数学学院、化学学院都涉及到高性能计算机的应用。为了学校各个研究领域突飞猛进的发展科学研究,湘潭大学计划对高性能计算系统实施改造,以更加稳定高效的网络系统来协助各学院应用软件顺利高效的运行。据了解,该系统主要是由学校多个学院共同使用,应用于多个研究领域,涉及图像分析与处理、海量数据挖掘、材料设计、材料结构与性能分析、并行算法研究等。
显然,在原有的基础之上设计、完善高性能计算系统是一件复杂的系统工程,涉及从软件到硬件的各个层面,而且每一个环节都相互关联。湘潭大学希望采用目前最先进的系统架构及技术代替原有的技术,借以提高整个科研的发展速度和各种资源的完美整合。高性能计算系统是一个对于计算稳定性要求极高的系统,因此系统的建设不仅要体现出在各个节点机的稳定运行和网络系统的正常工作,还要具备非常完善的整合能力,能够及时发现和解决问题。由于三院共享这套高性能计算系统,用户的管理将非常重要。随着今后对数据精度和运算速度要求的不断提高,整个系统必然面临扩容的需求,那就需要这个系统必须具备很好的扩展能力并具备良好的向前兼容能力。
袁伟表示,HPC的规模和很多因素有关,首先是个人研究应用的需求,就是其课题研究需要多大计算能力以及能够承受的经费,这样规模很小;第二是目前各大高校正在进行的计算资源和数据资源共享的IDC建设。湘潭大学属于后者,是由计算机学院、信息学院、数学学院等3个院共同出资建立的HPC系统。
据悉,这套系统是基于机群架构来设计的,共采用68个节点,其中64个参与运算作为计算节点,其它四个节点分别承担I/O吞吐服务、用户登录服务、整个机群系统的管理、监控服务。在高性能计算领域里,计算节点是高性能计算系统中的单个计算机系统,它的计算能力是关系到整个系统性能的最主要因素,是整个高性能计算系统的基础,采用的是2U机架曙光天阔A620r-E。实际上,袁伟还介绍到,在湘潭大学的高性能计算系统的搭建中,各院系的应用对于节点机的结构有着很高的要求,同时要考虑到应用的粒度、应用的计算特性、应用时效性等方面的因素。尤其是物理系,要保证所使用的商业软件能正常运行,这就要求能够运行64位程序的同时向下兼容32位应用,同时对CUP的浮点运算能力要求较高,需具有很高的系统峰值。曙光天阔A620r-E作为计算节点搭建的机群系统,其理论峰值运算能力达到1024 Gflops,Linpack 效率可达70%,实际运算能力可达716.8 Gflops,很符合计算节点的要求。
此外,考虑到高性能计算对于网络性能的较高需求,湘潭大学的高性能计算系统采用了Myrinet 高速的通信网络,从而实现了高速度、低延迟、点对点的通讯能力。此项设计在解决数学的实际应用中尤为突出,数学系主要使用该系统作为并行程序设计应用,对一些算法的设计和优化进行操作,为其他学院提供一些程序设计的支持,对系统的通讯与交换能力有很高的要求。同时,在网络搭建中还采用千兆的无阻塞、全互连的快速网络,用以实现I/O吞吐,并通过网卡邦定技术,增加带宽,做到资源的充分利用。
有共享的地方自然有“资源竞争”的存在,所以针对湘潭大学三院共享HPC的情况,曙光在安装了4000L机群操作系统软件(DCOS),通过系统管理功能进行权限设置外,还部署了一个交互系统,制定了具体的调度策略,依据给老师的优先级选择,避免资源竞争的情况。
解决信息不对称问题
HPC还属于IT技术高端应用,是软硬一体的负责系统,无论对高校还是其他企业信息中心而言,相比各大IT制造商的工程师,IT技术方面的信息不对称问题都是最重要的制约。
“实际上,在任何项目中 ,需求和建议总会出现冲突。高校信息中心的技术人员并不是服务器市场的专家,同样对于CPU等基础架构核心部件的技术更是简单了解;而制造商的工程师技术实力固然比较强但是对于用户实际需求却没有实践,这样就存在了信息不对称的情况。这应该算是HPC项目中首先要碰到的问题。在湘潭大学的选型中,考虑到用户对于32位和64位应用的支持,曙光建议选择AMD芯片的产品(当时是2005年),而用户由于对于芯片市场不了解,倾向于选择其他厂商的产品。为了保证实施效果,曙光针对应用作了很多测试,用实际的测试数据最终说服了用户,选择了以2路双核处理器架构为主的产品。”袁伟说:“处理这样的信息不对称情况,最好是能从资料和实际应用效果进行比较,用事实的依据帮助用户作最终决定。”
对于HPC在教育行业的应用,袁伟主要还有3个方面需要注意:首先是培养人力资源。高性能计算机系统是一个庞大的系统,无论是小型机还是集群系统,其管理都需要非常强的计算机基础和丰富的经验。而对于高校各个院系来说,他们更加关注自己研究的领域,比如物理、化学、生物等等,但是对于高性能计算机系统的管理,则非常薄弱,他们需要花去大量的时间和精力去培养一个合格的高性能计算机管理和维护人员;第二是整合硬件资源,将各个院系都的计算机系统进行有效整合;第三是建立IDC管理制度,虽然很多高校已经整合了资源,完成了人员和技术的积累,但是还没有高效的管理理念,实现不了IDC更大层面的利用。
最后,袁伟还向记者透露,针对人才问题,曙光将会推出服务器认证和培训,面向所有技术人员,提供包括服务器基础知识,高端并行计算专业的培训体系。
“而中国由于在高性能领域起步较晚,仅是应用推广的初级阶段,然而速度发展非常快,很多科研院校已经将高性能计算应用的很好,比如湘潭大学的高性能计算机集群的建设很有借鉴意义”,袁伟说。
三院共享高性能系统
湘潭大学是一所综合性全国重点大学,目前信工院、物理学院、土力学院、数学学院、化学学院都涉及到高性能计算机的应用。为了学校各个研究领域突飞猛进的发展科学研究,湘潭大学计划对高性能计算系统实施改造,以更加稳定高效的网络系统来协助各学院应用软件顺利高效的运行。据了解,该系统主要是由学校多个学院共同使用,应用于多个研究领域,涉及图像分析与处理、海量数据挖掘、材料设计、材料结构与性能分析、并行算法研究等。
显然,在原有的基础之上设计、完善高性能计算系统是一件复杂的系统工程,涉及从软件到硬件的各个层面,而且每一个环节都相互关联。湘潭大学希望采用目前最先进的系统架构及技术代替原有的技术,借以提高整个科研的发展速度和各种资源的完美整合。高性能计算系统是一个对于计算稳定性要求极高的系统,因此系统的建设不仅要体现出在各个节点机的稳定运行和网络系统的正常工作,还要具备非常完善的整合能力,能够及时发现和解决问题。由于三院共享这套高性能计算系统,用户的管理将非常重要。随着今后对数据精度和运算速度要求的不断提高,整个系统必然面临扩容的需求,那就需要这个系统必须具备很好的扩展能力并具备良好的向前兼容能力。
袁伟表示,HPC的规模和很多因素有关,首先是个人研究应用的需求,就是其课题研究需要多大计算能力以及能够承受的经费,这样规模很小;第二是目前各大高校正在进行的计算资源和数据资源共享的IDC建设。湘潭大学属于后者,是由计算机学院、信息学院、数学学院等3个院共同出资建立的HPC系统。
据悉,这套系统是基于机群架构来设计的,共采用68个节点,其中64个参与运算作为计算节点,其它四个节点分别承担I/O吞吐服务、用户登录服务、整个机群系统的管理、监控服务。在高性能计算领域里,计算节点是高性能计算系统中的单个计算机系统,它的计算能力是关系到整个系统性能的最主要因素,是整个高性能计算系统的基础,采用的是2U机架曙光天阔A620r-E。实际上,袁伟还介绍到,在湘潭大学的高性能计算系统的搭建中,各院系的应用对于节点机的结构有着很高的要求,同时要考虑到应用的粒度、应用的计算特性、应用时效性等方面的因素。尤其是物理系,要保证所使用的商业软件能正常运行,这就要求能够运行64位程序的同时向下兼容32位应用,同时对CUP的浮点运算能力要求较高,需具有很高的系统峰值。曙光天阔A620r-E作为计算节点搭建的机群系统,其理论峰值运算能力达到1024 Gflops,Linpack 效率可达70%,实际运算能力可达716.8 Gflops,很符合计算节点的要求。
此外,考虑到高性能计算对于网络性能的较高需求,湘潭大学的高性能计算系统采用了Myrinet 高速的通信网络,从而实现了高速度、低延迟、点对点的通讯能力。此项设计在解决数学的实际应用中尤为突出,数学系主要使用该系统作为并行程序设计应用,对一些算法的设计和优化进行操作,为其他学院提供一些程序设计的支持,对系统的通讯与交换能力有很高的要求。同时,在网络搭建中还采用千兆的无阻塞、全互连的快速网络,用以实现I/O吞吐,并通过网卡邦定技术,增加带宽,做到资源的充分利用。
有共享的地方自然有“资源竞争”的存在,所以针对湘潭大学三院共享HPC的情况,曙光在安装了4000L机群操作系统软件(DCOS),通过系统管理功能进行权限设置外,还部署了一个交互系统,制定了具体的调度策略,依据给老师的优先级选择,避免资源竞争的情况。
解决信息不对称问题
HPC还属于IT技术高端应用,是软硬一体的负责系统,无论对高校还是其他企业信息中心而言,相比各大IT制造商的工程师,IT技术方面的信息不对称问题都是最重要的制约。
“实际上,在任何项目中 ,需求和建议总会出现冲突。高校信息中心的技术人员并不是服务器市场的专家,同样对于CPU等基础架构核心部件的技术更是简单了解;而制造商的工程师技术实力固然比较强但是对于用户实际需求却没有实践,这样就存在了信息不对称的情况。这应该算是HPC项目中首先要碰到的问题。在湘潭大学的选型中,考虑到用户对于32位和64位应用的支持,曙光建议选择AMD芯片的产品(当时是2005年),而用户由于对于芯片市场不了解,倾向于选择其他厂商的产品。为了保证实施效果,曙光针对应用作了很多测试,用实际的测试数据最终说服了用户,选择了以2路双核处理器架构为主的产品。”袁伟说:“处理这样的信息不对称情况,最好是能从资料和实际应用效果进行比较,用事实的依据帮助用户作最终决定。”
对于HPC在教育行业的应用,袁伟主要还有3个方面需要注意:首先是培养人力资源。高性能计算机系统是一个庞大的系统,无论是小型机还是集群系统,其管理都需要非常强的计算机基础和丰富的经验。而对于高校各个院系来说,他们更加关注自己研究的领域,比如物理、化学、生物等等,但是对于高性能计算机系统的管理,则非常薄弱,他们需要花去大量的时间和精力去培养一个合格的高性能计算机管理和维护人员;第二是整合硬件资源,将各个院系都的计算机系统进行有效整合;第三是建立IDC管理制度,虽然很多高校已经整合了资源,完成了人员和技术的积累,但是还没有高效的管理理念,实现不了IDC更大层面的利用。
最后,袁伟还向记者透露,针对人才问题,曙光将会推出服务器认证和培训,面向所有技术人员,提供包括服务器基础知识,高端并行计算专业的培训体系。
©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。