HPC、GPU、AIの内情に関するBerlin Summitの必見セッション 第25回 18年11月 / 最終更新:2018.11.30

こんにちはー。野田貴子です。今月も海外のOpenStackコラムを意訳してご紹介します。ご参考いただければ幸いです。

#

オープンインフラの構築や運営をしている人々と、11月のOpenStack Summit Berlinで交流してみませんか。[サミットの予定表](https://www.openstack.org/summit/berlin-2018)には200個以上のセッションがあり、それらは人工知能と機械学習、ハイパフフォーマンスコンピューティング、エッジコンピューティング、ネットワーク機能の仮想化、コンテナインフラ、パブリック/プライベート/マルチクラウド戦略といったユースケースで構成されています。

 

ここでは、みなさんが見ておきたいと思われる、HPC、GPU、AIについてのセッションの一部をハイライトします。これら3つのトピックに焦点を当てているすべてのセッション、ワークショップ、ライトニングトークは[こちら](https://www.openstack.org/summit/berlin-2018/summit-schedule/global-search?t=HPC%2B%2F%2BGPU%2B%2F%2BAI)でチェックできます。

 

## AIサンダードーム:OpenStackを使用したSahara、Spark、SwiftのAIトレーニングの加速

 

Red HatのSean Pryor氏によると、OpenStackはビッグデータの課題に適しています。彼はSwiftやCephを使うとデータストレージがどのように簡単になるのかについて話します。ビッグデータで最も重大な問題の1つは、AIを使用して絶えず増加するデータを解明することです。OpenStackはこの問題を解決します。Swiftに格納されたデータには、GPUインスタンスを使用してパラレルAIのハイパーパラメータチューニングを高速化できるSaharaクラスタがアクセスできます。この機能のおかげでユーザーはほんの少しの手作業で巨大なAIトレーニングファームのスピンアップとスピンダウンを行うことができ、最終的にはクラウドがすべてになります。**詳細は[こちら](https://www.openstack.org/summit/berlin-2018/summit-schedule/events/22126/the-ai-thunderdome-using-openstack-to-accelerate-ai-training-with-sahara-spark-and-swift)。**

 

## NASA Goddardのプライベートクラウド:創世記と教訓

 

2016年秋、NASA GoddardのNASA気候シミュレーションセンター(NCCS)とITCD(Information Technology and Communications Directorate)は、Discoverから回収されたNCCSの従来のHPCクラスタのハードウェアを使用してGoddardコミュニティ全体にオンプレミスプライベートクラウドを協力して提供することにしました。

 

2018年10月時点でGPCで稼働するQueensの製品運用が軌道に乗っていますが、Mitakaのプロトタイプ環境では30以上のプロジェクト(さらに増加中!)が稼働中です。

 

NASAのMike Moore氏は、テレメトリ/課金、データ保護/DR、セキュリティ、cloudifyのワークロード、コンテナ、クラウドコンピューティングへのパラダイムシフトを通じたHPCユーザーの先導など、この挑戦で直面した課題や革新的なソリューションについて説明します。 **詳細は[こちら](https://www.openstack.org/summit/berlin-2018/summit-schedule/global-search?t=HPC)。**

 

## HPCクラウドにおけるサービスとしての監視

 

アプリケーションをクラウドに移行する際に最初に行うことは、ソフトウェアで定義されたインフラ上で同じプラットフォームを再作成することです。これはクラウドの真の可能性に及んでいません。OpenStackインフラこれ以上のものを提供できるので、すぐにクラウドユーザーは強力なAPIやサービスが利用可能であることに気が付くでしょう。

 

この講演では、StackHPC Ltd.のStig Telfer氏とVerne GlobalのDarryl Weaver氏が、HPCクラウド移行を次のレベルに引き上げる方法について説明します。パフォーマンスに焦点を当てたデプロイの監視とロギングのためのMonascaサービスの統合を紹介する予定です。彼らはどのようにすべてのユーザーにとって最高のパフォーマンスのテレメトリが実現されるのか、そしてアプリケーションを理解し最適化する新しいチャンスをユーザーや管理者にもたらす方法について示します。**詳細は[こちら](https://www.openstack.org/summit/berlin-2018/summit-schedule/events/22446/monitoring-as-a-service-in-the-hpc-cloud)。**

 

## Cyborg:クラウドの加速

 

データセンターのワークロードにますます大量のコンピューティングが集中するにしたがい、アクセラレータの必要性が高まっています。GPU、FPGA、ASIC、TPUといったワークロード固有のものなど、さまざまなアクセラレータがあります。OpenStackのCyborgプロジェクトは、これらの多様なアクセラレータの採用とライフサイクル管理を容易にすることを目的としています。

 

CyborgとNovaの開発者は、IntelのSundar Nadathur氏によると、様々なアクセラレータへの負荷を軽減するためにアーキテクチャをまとめました。このアーキテクチャにはプログラミングとビットストリーム管理のユニークなニーズを持つFPGAが含まれています。このプレゼンテーションでは、一般的なデバイスへのオフロードの使用例、FPGAのプログラミングモデル、そしてPlacementにおけるデバイス(FPGAを含む)の表示について見ていきます。Nadathur氏はアクセラレータを必要とするインスタンスのスケジューリングについて詳しく見ていきます。彼はNovaがCyborgとやりとりするためのライブラリであるos-accのアーキテクチャを詳しく紹介します。そして最後に、Cyborg開発の現状についてお知らせします。**詳細は[こちら](https://www.openstack.org/summit/berlin-2018/summit-schedule/events/22050/cyborg-accelerate-your-cloud)。

 

※本コラムは以下の文章を意訳したものです。

引用元
http://superuser.openstack.org/articles/inside-hpc-gpu-ai-must-see-sessions-at-the-berlin-summit/

※本コラムは原文執筆者が公式に発表しているものでなく、翻訳者が独自に意訳しているものです。