コラム

Column

【TechTarget掲載】注目されるGPU コンピューティング 最適な環境はクラウドか、オンプレミスか

/images/column/06/cover.png

TechTargetジャパン

2018年1月22日 TechTargetジャパン
"注目されるGPUコンピューティング 最適な環境はクラウドか、オンプレミスか"
https://wp.techtarget.itmedia.co.jp/contents/25597)にて掲載

AIや機械学習の普及で、GPUコンピューティングが注目されている。クラウドで使うケースが多いが、コストとメリットを検討してクラウドからオンプレミスに戻す企業も存在する。GPUコンピューティングに適した環境はどちらだろうか。

主要クラウドが提供する「GPUインスタンス」、本気を引き出す高負荷アプリとは?

大手クラウドプロバイダーは、市場シェアの争奪戦を繰り広げながら提供するクラウドインスタンスの種類を拡大してきた。その流れの1つとして、ユーザーは、GPU(グラフィックスプロセッシングユニット)にアクセス可能なインスタンスをデプロイできるようになった。これは、特にAI(人工知能)などコンピューティングリソースを集中的に使用するワークロードにメリットがある。

今、大手クラウドプロバイダーによるGPUインスタンスを巡る競争がヒートアップし始めている。Microsoft の「Microsoft Azure」は、2016年12月にNVIDIAのGPUを搭載した「Nシリーズ」の仮想マシンを公開している。Amazonも、2016年9月に「Amazon EC2 (Elastic Cloud Compute) P2」インスタンスの新しい種類を公開したが、これにもNVIDIAのGPUを組み込んでいる。Googleでは、2017年2月に「Google Compute Engine」と「Cloud Machine Learning」でNVIDIAのGPUインスタンスをサポートすると発表している。

このようなGPUインスタンスをデプロイする前に、GPUインスタンスを使用するのが最適なアプリケーションとワークロードの種類を理解することが重要だ。このようなワークロードには、次のようなものがある。

ビジネス向けの分析アプリケーション

ビジネス向けの分析アプリケーションは、大規模な並列演算を行うGPU のメリットを享受できる。Hadoopのようなアプリケーションで、一連のエンジンにマップできるデータ処理を伴うものが最も適しているだろう。パブリッククラウドは従量課金制で、クラウドバーストによって変動するワークロードに対処できる。

このような機能は、小売業界で重要だ。小売業界では、ユーザーが分析結果を数分以内に必要としており、ワークロード需要のピークが異なるタイミングで発生する。

映像制作

映像製作では、大量のレンダリングとリアルタイムの編集が必要になるため、GPUインスタンスのメリットを享受できる。

人工知能(AI)

AIはまだ初期の段階にあるが、GPUにアクセスできるようにすると、高額な出費を伴うことなく、スケーラビリティのテスト方法を提供できる。これがAIスタートアップ企業の成長を促進し、ヘルスケアやバイオテクノロジーなどの業界から、軍事利用、自動運転車両に至るまで、さまざまなところに新しいAIを利用できる機会を開くことになる。

仮想デスクトップインフラ(VDI)

GPUインスタンスはVDIも後押しできる。例えば、Googleは、将来的にAMDのGPU「AMD FirePro」が利用できるようになることを発表している。これは、Google Compute EngineでVDIの高いパフォーマンスを実現するためだ。

スーパーコンピューティング

高パフォーマンスコンピューティングクラウドによって、小規模な科学機関でもスーパーコンピューティングを使用できるようになった。スーパーコンピューティングは調査や研究の速度を大幅に加速できる。GPUインスタンスは、スーパーコンピューティングを大学の学部レベルでも使用できるようにし、それが学術研究に恩恵をもたらすだろう。

エンジニアリングシミュレーション

石油産業、ガス産業、自動車業界で使用しているエンジニアリングシミュレーションは、クラウドベースのGPUインスタンスによる影響を受けるだろう。自動車メーカーは、時間のかかるエンジニアリングシミュレーションに大きく依存している。だが、GPUインスタンスは、携帯型の処理クラスタの必要性を排除し、分析コストを削減する。そして一般的に調査や研究の速度を加速するだろう。

増える"脱クラウド"、企業がオンプレミスに戻ることを決断した理由は?

イジャズ・ウッラ氏は、クラウドベースの医療記録サービスでカナダ最大手のNightingale InformatixでIT担当副社長兼プライバシー責任者を務めていたとき、2つのシステムに責任を持っていた。1つは、プライベートクラウドで運用していた「Nightingale On Demand」(以下、NOD)。もう1つは、パブリッククラウドで運用テストを行っていた「Nightingale v10」(以下、v10)だ。

パブリッククラウドシステムのNightingale v10は、同社のデータセンターで構築されたもので、北米の110の外来診療所でβ運用されていた。ところが突然、正式公開へのロードマップは一変した。

2016年秋に(v10が6月にクラウドで提供開始されてからわずか数カ月後)、Nightingale Informatixはカナダの通信会社TELUSに買収された。TELUSはv10の商用化を取りやめた。ただし、買収手続きが進められていた3カ月間、v10の開発はオンプレミスで継続された。「TELUSが、v10は売却できると考えたからだ」とウッラ氏は説明する。

「v10ソフトウェアの販売が取りやめになったと聞いてがっかりしてしまった。われわれは高度な自動化システムの開発に膨大な時間を費やしていたからだ。われわれにとってこのシステムは大きな誇りだった。もっとも、この製品の開発とデプロイでは貴重な教訓を得た。それらの過程で学んだ知識は移転可能なものだ」とウッラ氏は振り返る。同氏は現在、TELUS Healthの技術戦略およびデリバリー担当ディレクターを務めている。

ウッラ氏のチームは3年がかりでv10を開発し、クラウドインフラの構築や自動化関連の統合も行っていた。パブリッククラウドで提供していたβ版は、見本市で売り込みが行われ、多くの外来診療所をユーザーとして獲得していたが、その後の位置付けや扱いについては、明確な新方針が決定された。

それは、「TELUSによるNightingaleの買収完了後、この医療記録システムのパブリッククラウド版を提供する取り組みは全て終了し、ウッラ氏とそのチームは、v10の"脱クラウド化"に当たる」というものだった。

"脱クラウド化"のトレンド

ワークロードの脱クラウド化に取り組むことになったのは、ウッラ氏とそのチームだけではない。

オンプレミスでのワークロード実行と比べたクラウドコンピューティングのコストとメリットに関する企業の理解が深まるとともに、オンプレミスに回帰する企業も出てきている。DatalinkとIDGが最近発表したIT担当者に対する調査(回答者:100人超)によると、パブリッククラウドの利用経験がある企業の40%近くが、パブリッククラウドに移行したシステムを自社のデータセンターに戻していることが分かった。多くの回答者がその理由として挙げているのは、セキュリティ(55%)、コストや料金の問題(52%)、管理性(45%)だ。

CompTIAが2016年9月、ビジネス担当役員とIT担当役員を対象に行った調査(回答者:約500人)でも、システムをオンプレミスに戻す決定を行った理由について、ほぼ同様の回答傾向がみられる。すなわち、回答が多い項目はセキュリティ(58%)、コスト目標の未達(30%)、統合の失敗(24%)、信頼性に関する不満(22%)だ。セキュリティは、永続的な問題ではないとしても、現時点では最大の問題となっている。

「企業が特定のアプリケーションについて、クラウドプロバイダーが提供できる以上に強力なセキュリティを自社が求めていることに気付くことがある。その場合、そのアプリケーションをオンプレミスに戻して、管理を強化することを選ぶのかもしれない」と、CompTIAの技術分析担当シニアディレクター、セス・ロビンソン氏は語る。

長期的にみると、企業はそのアプリケーションをオンプレミスにずっと置いておくかもしれないし、クラウドプロバイダーが適切なセキュリティ対策を講じることができれば、企業はまたクラウドに戻すかもしれないと、ロビンソン氏は述べている。

ウッラ氏のチームにとって、脱クラウド化のプロセスで重要なファクターの1つとなったのが、2016年6月の比較的シームレスなクラウドへの移行プロセスが、厳格な方針に基づいて行われ、成功していたことだった。

「われわれは6月の移行時には、前もってアーキテクチャの確立に向けて多大な時間と労力をかけた。もしv10を別の場所にデプロイする必要が生じても、つまり、プライバシー法が変わって、データを米国企業に預けることができなくなっても、6月のクラウドへの移行時と同じ自動化の仕組みを使って、別のクラウドプロバイダーに移行できるようにするためだ」とウッラ氏は説明する。

Nightingaleチームがv10の移行を自動化するために作成したAPIとコードは、システムがクラウドに確実にデプロイされるように、まずオンプレミスでテストされた。また同チームは、自社のデータセンターをディザスタリカバリーに利用し、全ての重要情報を含むデータベースが、常にクラウドとデータセンターの間でレプリケートされるようにした。

Nightingaleは、v10をクラウドからオンプレミスに戻す移行プロセスでは、自動化ツール「Puppet」を使って、移行をフェイルオーバーとして扱えるようにした。「ほとんどディザスタリカバリーのシナリオのように、レプリケートされたライブデータベースを複数の場所に配置し、仮想マシンをフェイルオーバーすれば、直接移行が行われるようにした。移行プロセスはほぼシームレスで、影響としては、ネットワークの再調整の際に数秒間のダウンタイムが発生しただけだった」(ウッラ氏)

移行プロセスで得た教訓

脱クラウド化のプロセスでは、自動化と構成管理が大いに役立ったと、ウッラ氏は強調する。

「われわれは、多くの時間を割いてコードとしてのインフラを構築した。具体的には、製品のインスタンスを反復可能な形でデプロイするソフトウェアを前もって書いた。その実行が1回成功すれば、デプロイは、デプロイ先に応じて変数を変更し、コードを実行するという作業になる。それは反復可能な作業だ」とウッラ氏は語る。

NODは現在、TELUS Healthのプライベートクラウドで稼働しているが、v10での経験を生かし、大幅に自動化を取り入れている。

「v10の構築でわれわれが学んだことの大部分は、NODに活用されている。つまり、収集された有効な指標データを使って、アップグレードにおけるデプロイのようなタスクの自動化を進めている。自動化を行うコードは透過的であり、特定の環境に依存していない。どこにでもインストールできる」(ウッラ氏)

では、v10はどうなったのか。最終的に米国の企業に売却されたそうだが、ウッラ氏はその名前を明かさなかった。

GPUサーバーからHPCインフラまで。高度化したコンピューティングニーズに応える、データドックの新潟・長岡データセンター

ハウジングサービスはこちら

Contact

データセンター見学のお申し込み、サービス詳細や価格、資料請求など
お気軽にお問い合わせください