登錄
微信登錄
打開手機微信,掃描二維碼
掃描成功
請勿刷新本頁面,按手機提示操作
中科曙光不會以任何理由要求您轉賬匯款,謹防詐騙
您的微信還未注冊
中科曙光不會以任何理由要求您轉賬匯款,謹防詐騙
您可以同時關注中科曙光微信公眾號
使用微信掃一掃即可登錄! 查閱資料更方便、 快捷!
您已經注冊賬號和
關注微信公眾號
2025年1月
服務熱線:400-810-0466
發布時間: 2013-02-02
相信很多人都對傳說中的“隱身衣”有著不同尋常的好奇,這種只存在《哈利波特》中的魔法寶物是真的嗎?“隱身衣”到底是大自然的奇跡,還是科學的力量?深圳光啟高等理工研究院(以下簡稱光啟研究院)劉若鵬院長告訴記者:“隱身衣”是一種超材料技術研制、通過引導微波“轉向”防止物體被“發現”的科學產物。
光啟研究院自2010年7月揭牌成立后,吸引了多個國家和地區的杰出科學家,在充滿活力的交叉學科合作中,建立起具有廣闊國際視角的科研環境。不到兩年的時間內,光啟研究院已經成為中國超材料技術的領軍企業。
2011年,光啟研究院全面啟動超材料制備與封裝技術重點實驗室等5個重點實驗室和超穎射頻技術工程實驗室等6個工程實驗室的建設,在光啟的實驗室中,曙光GPU解決方案通過跨越“三重門”,成為集群管理成功的關鍵。
三重考驗 挑戰集群管理操作能力
因為研發需要,光啟研究院GPU集群所承擔的大部分科研工作需要使用CST Microwave studio2011、 COMSOL 4.2和MATLAB三個軟件作大規模計算,三個軟件對集群的要求各具特色:
可用的CST Microwave Studio 2011版本在分布式計算時,要求頭結點必須是Windows Server 2008 R2 操作系統,計算結點必須是LLinux系統。CST2011可以使用GPU加速,單結點可以掛載多顆GPU;自帶MPI通信工具;自帶作業調試器。
而COMSOL4.2有兩類使用,單個大作業、多個小作業。計算時需要調用MATLAB,因此需要將MATLAB與COMSOL配置正確,以使協同工作。
MATLAB 2011b 則需要支持GPU加速,同時支持分布式并行計算,自帶作業調度工具,客戶端不必登錄服務器就可以提交作業、查看結果。
面對三個大型軟件同時工作時,普通的GPU根本無法滿足如此大規模的計算,往往會陷入崩潰的狀況。針對光啟研究院的特別需求,曙光公司迎難而上,制定了一整套GPU解決方案。
一個集群管理軟件GridviewGridview PK多個工作調度
要滿足光啟研究院的需求,既要整合三個軟件到同一個作業調度系統之中,又要避免三個軟件使用各自調度器帶來的資源競爭和資源閑置。這是一個極具挑戰性的任務,必須深入了解這兩款商業的軟件的架構,實現無縫融合,讓軟件用戶感覺不到作業調試系統的改變。
為此,曙光公司研發人員認真研究了光啟的應用需求。光啟研究院的科學家是超材料的專家,卻不是IT專家,怎樣讓他們不必登錄集群、不必學習LLinux命令,只需打開瀏覽器就可以直觀地提交作業、查看計算結果呢?光啟近二百位科學家幾乎每天都在使用集群,而且運算能力越高越好,就需要GPU越多越好;光啟的機房剩余空間不多,必須提供計算能力密集的服務器;還要考慮同時配置Windows結點和Linux結點,以便使用CST2011,兩類結點要統一調度;而且單個作業需要使用多顆GPU,GPU間通信需要高速互聯網絡……
最終,曙光公司決定使用集群管理軟件Gridview中的作業調度模塊替代CST2011和MATLAB 2011b 自帶的作業調度工具,實現作業的統一調度。曙光公司集群管理軟件Gridview支持定制開發portal,集群管理員可以快速開發出特定應用軟件的portal。
而且曙光提供的GPU高性能解決方案系統中的大部分結點都部署了SUSE操作系統,少量結點部署windows server 2008 R2虛擬機。CST2011頭結點僅僅分發作業,并不承擔計算任務,負載較輕,虛擬機即可勝任。單個物理結點上部署多個虛擬機,節約投資。
在有限的預算內,曙光還配備了202塊NVIDIA Tesla C2050 GPU卡,使CPU與GPU的數量達到1:1的最佳比例。每個主板上掛載兩顆GPU,這兩顆GPU之間的通信不必通過網絡交換機,使用本地內存即可完成,大大減少了通信開銷,提高應用的擴展性。
當GPU跨結點并行時,通信開銷往往成為性能提升的瓶頸。為此,曙光GPU高性能解決方案配置高帶寬低延時的InfiniBand QDR網絡互聯設備,任意結點之間都能達到全線速40Gbps。采用極高密度的曙光GPU服務器,在1U空間實現兩顆CPU+兩顆GPU的計算能力,使光啟研究院有效節省機房面積,卻更快的提高了計算能力與計算速度。
在光啟研究院項目準備、實施過程中,曙光公司做了大量的定制研發,尤其是面對作業調度系統整合、極高密度GPU服務時,充分體現出多年深耕高性能計算的實力。曙光從單一服務器硬件供應商向“信息服務供應商”的轉型之路,漸行漸近。