コラム:GPU

失敗しないGPUサーバーのインフラ設計-3つのチェックポイントとは?-NVIDIA DGX-1を例に解説

GPUサーバーの置けるデータセンター
失敗しないGPUサーバーのインフラ設計-3つのチェックポイントとは?-NVIDIA DGX-1の例に解説

AIコンピューティング、ディープラーニング(深層学習)、科学技術計算など、ここ数年急速にGPUサーバーの利用が広がっています。GPUサーバーは、用途や条件次第で、CPU搭載サーバーの100倍もの高速な計算処理が可能です。CPU搭載サーバーに比べ、段違いの性能を誇るGPUサーバーを導入するお客様も急増しています。しかし、「初めてGPUサーバーを検討するので、どんなインフラ環境が必要かわからない」というお客様も多いのではないでしょうか。

そこで、初めてのGPUサーバー導入や、GPUサーバーのデータセンター移設検討中の方向けに、
「そもそもGPUサーバーには、どんな特徴があるのか」
「GPUサーバーの特徴を踏まえ、どんなインフラ環境を用意すべきなのか」
について解説します。サーバーインフラ設計の観点では、GPUサーバーと、CPU搭載のサーバーでは大きな違いがあります。GPUサーバーでは、インフラ設計での注意が必要です。
また、GPUサーバー導入検討時の注意点に加え、「データドックのハウジングサービスが、GPUサーバー導入において、安心なインフラ環境を提供できる理由」も解説します。

GPUサーバーとは

今必要とされるGPUサーバー

GPUは、グラフィック・プロセッシング・ユニットの略で、その名の通り元々3Dゲームや映画のCG作成などの画像処理に使われていました。画像処理では、足し算・かけ算などの、単純な演算処理能力だけが求められます。GPUは、CPUのような汎用処理ができない代わりに、単純な演算処理は高速です。単純な演算処理能力では、CPUより遙かに高い性能を持つGPUは、スーパーコンピューターなどに利用されています。
スーパーコンピュータランキング「TOP500」においてもGPU主体のマシンが上位にランクインするようになりました。今やGPUは、科学技術計算、ディープラーニングなど、様々な分野で活用されており、研究開発を飛躍的に加速させるツールとして、その導入が進んでいます。

GPUサーバー例

GPUは、進化し続けています。最近では複数GPUの並列動作に対応したアプリケーションも増えています。
NVIDIAの"Tesla シリーズ GPUアクセラレータ"は、マルチGPU演算による長時間運用に耐えうるGPU専用カードとして登場し、研究開発用システムに広く導入されています。カード自体は冷却ファンを持たず、また1枚あたり250W~300Wの電力を要求するため、強力な冷却ファンと、大容量の電源ユニット備えた専用サーバーに組み入れて使用されます。

GPUサーバー導入例、活用事例

某国立大学研究所:非定常・非線形風況シミュレータ用GPUサーバー

科学技術分野では、膨大な数値計算処理で、コンピューター上で現実の環境をシミュレーションする研究が盛んです。その一つが風力発電です。この研究では、風、すなわち「空気の流れ」をシミュレーションし、風力発電の課題を解決します。
風力発電分野の課題である、風車の局地的な風況を正確に把握し、風車に対する局所的なウインドリスク(地形乱流)を分析する風況予測シミュレータにGPUが使われています。このシミュレータは、マルチGPU演算にも対応し、数千万~数億点におよぶ大規模な演算が可能です。

GPUサーバー導入検討時のインフラ設計3つのチェックポイント

GPUサーバーの特徴:従来のサーバーとGPUサーバーの違い

従来のサーバーの構成要素:CPU、メモリ、ディスク

GPUサーバーは、従来のCPU搭載サーバーと何が違うのでしょうか? 一般的なサーバーの主な構成要素は、「CPU(Central Processing Unit)=中央演算処理装置」「メモリ」「ディスク」の3つです。
CPUはサーバーの頭脳。メモリはCPUが直接処理するデータを一時的に保存する役割、今後処理するデータを大量に保存しておく役割がディスクです。

サーバー概念図CPU+メモリ+Disk
GPUサーバーの構成要素:GPU、メモリ、ディスク

単純化して考えると、「従来のCPU搭載サーバーのCPUをGPUに置き換えたものがGPUサーバー」といってよいでしょう。つまり、GPUサーバーの主な構成要素は、「GPU」「メモリ」「ディスク」の3つです。
GPUは数値計算処理に特化しています。よって、GPUサーバーには、管理画面操作など数値計算以外の処理のために、CPUも併せて搭載されています。

GPUサーバー概念図GPU+メモリ+Disk
GPUサーバーでは、インフラ環境が異なる

単純には「CPUをGPUに置き換えただけの構造」であるGPUサーバー。よって、サーバーの基本構造は、CPU搭載サーバーと同じです。ただ、CPUがGPUに置き換わることで、大きく変わってくるのが、ラック、電力などの物理的な「インフラ環境」です。
さて、なぜ、基本構造が変わらないGPUサーバーで、求められるインフラ環境が変わってくるのでしょうか? ポイントは「電力」「熱」「奥行き」の3つです。それぞれについて解説します。

GPUサーバーのインフラ設計チェックポイントは、「電力」「熱」「奥行き」の3つ

GPUサーバーを導入検討するとき、インフラ設計において、必ずチェックすべきポイントは、「電力」「熱」「奥行き」の3つです。

1)電力:電力量の上限は?

GPUは、CPUに比べ10倍~100倍もの計算処理能力があります。この高い計算処理能力をフル活用するには、大量の電力が必要です。
GPUは、1つのGPUチップに数100から数1000に及ぶ計算コアを持っています。計算コアは、1つ1つがミニCPUのようなものです。GPUは、たくさんの計算コアで、同時並行処理を行うことで高い計算処理性能を実現しています。
※より深くお知りになりたい方は、コラム「GPUアーキテクチャ入門-GPU性能を引き出すために知るべき基本原理とは」を参照ください。

2)熱:高い冷却能力があるか?

使用電力量が大きいと、サーバー廃熱量が多くなります。GPUサーバーでは、CPU搭載サーバーの数倍の廃熱量があります。言い換えると、GPUサーバーのインフラ環境には、「CPU搭載サーバーの数倍の廃熱量に耐えられる冷却能力」が必要です。

3)奥行き:ラックの奥行きは、ロングサーバーに対応しているか?

近年サーバーの処理密度を高めるため、「ロングサーバー」と呼ばれる奥行きが長いサーバーが開発されています。「GPUサーバー ≒ ロングサーバー」であり、GPUサーバーでは、奥行きがチェックポイントです。
GPUサーバー導入には、ラックの奥行きはロングサーバー対応しているか?を確認します。ラック設置時に、「ラックの奥行きが足らず、扉が閉まらない」といった、事態になりかねません。

データドックのハウジングサービスと一般的なデータセンターの違い

ハウジングサービス仕様比較

カテゴリデータドックハウジングサービス仕様一般的なデータセンターラック仕様
電源仕様 最大30kVAまで
標準2回路、最大10回路
100V電源、200V電源。合計10回路まで、標準オプションサービスで対応可能
最大6kVAまで
標準100V電源×2回路。
追加100V電源、追加200V電源は、個別対応
冷却仕様 1ラック当り30kVAまでの廃熱に対応 1ラック当り6kVAまでの廃熱
ラックサイズ 幅 800mm × 奥行き 1,200 mm 幅 600 × 奥行き 1,000 mm

データドックハウジングサービスページはこちら

GPUサーバースペック具体例:NVIDIA DGX-1

NVIDIA DGX-1 :GPU=Tesla V100×8
カテゴリDGX-1必要スペックデータドックハウジングサービス仕様一般的なデータセンターハウジングサービス仕様
電源仕様 3,500W(最大消費電力)
200V電源×4本
※2回路必須(1回路当たり2本、合計4本)

1ラック当り200V(15A)電源×2回路(標準2回路)
△~×
200V電源×2回路は、個別交渉。標準サービス費用とは別に、200V電源用の追加設備工事費用が必要な場合も
冷却仕様 1台で3,500Wの廃熱量
1ラックにDGX-1
4台分の廃熱量でも対応可能な冷却能力
△~×
DGX-1
1台のみで廃熱量が冷却上限に達する(他の機器を入れられない)
ラックサイズ DGX-1システムサイズ
幅444mm×奥行き866mm

幅800mm×奥行き1,200 mm
※DGX-1などのロングサーバーを設置しても、奥行き10cm超の空き。電源ケーブル・光ファイバケーブルなどの配線もゆとりを持ってできる
△~×
幅 600mm × 奥行き 1,000 mm
※DGX-1などのロングサーバーを設置すると、奥行き5cm程度の空き。サーバー本体は設置可能だが、電源ケーブルが収まらず、扉が閉められないことも

GPUサーバー導入のインフラ設計でお悩みの方は、こちらへお問い合わせください。

ハウジングサービスへのGPUサーバー導入イメージ

データドックハウジングサービス フルラック + NVIDIA DGX-1

1)GPUサーバーシステム一式導入機器例
  • ・NVIDIA DGX-1×1台

  • ・ストレージ ×1台

  • ・スイッチ類(ネットワークスイッチ、インフィニバンドスイッチなど)

2)インフラ環境:データドック ハウジングサービス フルラック
  • ・ラックサイズ:高さ 2,200mm × 幅 800mm × 奥行き 1,200 mm

  • ・ユニット数:43U

  • ・電源:200V(15A)×2回路 + 100V(30A)×2回路

※標準2回路に、電源オプションを2回路分追加契約
※データドック ハウジングサービス フルラック詳細仕様

3)ラックへのGPUサーバーシステム一式設置イメージ
NVIDIA DGX-1を利用した場合のGPUサーバーシステム一式ラック設置イメージ
NVIDIA DGX-1を利用した場合の
GPUサーバーシステム一式ラック設置イメージ

①GPUサーバーシステム一式 インフラ環境のポイント

  • ・GPUサーバーは高速に計算処理を行います。一般的に、計算元データも膨大で、GPUサーバーシステム一式には大容量ストレージ機器の導入が必要になる場合が多いです。

  • ・GPUサーバー、ストレージに加え、各種ネットワーク機器が必要です。


②データドックハウジングサービスの特長

  • ・1ラックで、GPUサーバー + 大容量ストレージにも対応可能な電源・冷却仕様
    一般的なデータセンターハウジングサービスでの1ラック当たり電源・冷却仕様は、GPUサーバー1台で上限近くになってしまうことがあります。GPUサーバーに加え、大容量ストレージも大きな消費電力が必要です。そのため、ラックの空きスペースが残っていても2ラック分契約が必要な場合があります。
    データドックハウジングサービスは、DGX-1の3,500Wという膨大な最大消費電力が必要なGPUサーバーを設置しても、余裕を持った電源・冷却仕様。大容量ストレージを、GPUサーバーと同一ラック内に設置することも可能です。

  • ・200V(15A)電源 ×2回路 を標準オプションで提供
    データドックハウジングサービスでは、200V(15A)電源を「標準で」提供できます。GPUサーバーやストレージ機器はしばしば200V電源が必要です。200V電源のラック引き込みは、個別工事が必要なデータセンターも多いです。

  • ・200V(15A)電源+100V(30A)電源 混在を標準オプションで提供
    データドックハウジングサービスでは、200V(15A)電源+100V(30A)電源を「標準で」混在提供できます。GPUサーバーやストレージ機器はしばしば200V電源が必要です。しかし、ネットワーク機器などは「100V電源のみ対応」の場合がほとんどです。つまり、インフラ環境には、200V電源と100V電源の両方が必要となります。

データドックのHPC/AIソリューション

データドックは高性能計算処理を必要とする研究業務をサポートするため、HPC/AIシステムの専業インテグレーターであるHPCシステムズ社とタッグを組み、HPC/AIソリューションを提供します。

データドックのホスティングサービス

データドックでは、お客様専用のベアメタル(物理)サーバーの利用プランを用意しています。性能スペックの異なる3つのプランを用意。また特別プランとしてお客様の用途に合わせたスペックのサーバーを月額提供するオーダーメイドプランも用意。経験豊富なエンジニアがご要望のヒアリング・構築・運用まで丁寧にサポート致します。

Contact

データセンター見学のお申し込み、サービス詳細や価格、資料請求など
お気軽にお問い合わせください