海底ケーブルからカスタムサーバーまでハミルトン先生が語る物理なAWS

アスキー 2016年12月01日(木)00時00分配信

11月29日、ラスベガスにおいてAmazon Web Services(AWS)は年次イベント「AWS re:Invent 2016」を開催。2日目のナイトイベントに登壇したジェイムス・ハミルトン氏は、AWSを支えるインフラをケーブル、データセンター、ネットワーク機器、電気設備、ストレージ、サーバーのレベルまで解剖し、可用性・耐障害性への注力をアピールした。

AW
AWS VP、Designated Enginnerのジェイムス・ハミルトン氏

可用性・耐障害性を最重要視したインフラ設計

 AWSのVPで、トップエンジニアであるジェームス・ハミルトン氏は、2014年のre:Inventにおいて「AWS Innovation at Scale」と呼ばれるセッションを行ない、今まで語られなかったAWSのデータセンターについて詳細を説明した。今回のナイトイベントでも、あの伝説的なセッションの最新版を求め、多くの聴衆がSANS EXPOの会場を埋め尽くした。大声援の聴衆の前に登壇したハミルトン氏は、今回のre:Inventの参加者が3万2000人に達したことをまずアピール。初回のre:Inventが6000人だったのを考えると、驚異的な規模の拡大と言える。

 AWSのインフラに関して詳説するハミルトン氏がクレイジーな数字としてまず挙げたのは、「Fortune 500のエンタープライズ企業が利用するキャパシティを毎日追加している」という圧倒的なスケールだ。Amazon Prime Dayでのリソースグラフを公表したハミルトン氏は、ワークロードに合わせてリソースが伸縮できるメリットもあわせてアピール。オンプレミスのようにピークに合わせてリソースを用意する必要もなく、システムをすぐにデプロイし、迅速にスケールできる点が大きいと語る。「欲張りなみなさんがいろいろなワークロードを載せるので、より安くできる(笑)」(ハミルトン氏)とコスト面でも大きなメリットがあるという。

AW
Fortune 500の企業が利用するキャパシティを毎日追加している

 こうしたAWSを支えるリージョンは現在世界で14で、来年には4つ追加される予定。また、全世界で68のPOPが用意されており、これらをAmazonが管理するグローバルネットワークで結んでいる。「私たちがすべてのネットワークを1社でコントロールしている。われわれがアセットを持っており、障害に対してもアセットを展開できる。リンクが落ちても、サバイブするキャパシティを持っている」とハミルトン氏は語る。特に可用性・耐障害性にはつねに注力しており、100Gbpsのネットワークは、中国をのぞくほとんどすべてのリージョンでリンクが冗長化されているという。

AW
遅延やキャパシティ、可用性を意識したAWSのグローバルネットワーク

海底ケーブルプロジェクト、冗長化されたリージョンやAZ、データセンター

 ハミルトン氏は、米国オレゴン、ハワイ、オーストラリア、ニュージーランドを結ぶ総計1万4000kmの太平洋ケーブルのプロジェクトについて説明する。水深3マイルの深海に埋める海底ケーブルの敷設に際しては、「中継のリピーターを一定の間隔で設置しなければいけないし、20年間保守なしで動くことを担保しなければならない」(ハミルトン氏)などの課題がある。しかし、このプロジェクトでは光ファイバをシールドした銅線で電力を安定供給すると共に、ケーブル障害に備えてオーバーコミットした電圧キャパシティを用意している。また、ファイバーも3ペアで冗長化し、100波の波長多重によって、100Gbpsの伝送能力を確保しているとのことだ。

AW
太平洋ケーブルのプロジェクトを披露

 続いてハミルトン氏は、リージョン内のネットワークとAZ、データセンターにフォーカスを移す。現在14あるAWSのリージョンは2~5程度の複数のAZ(Availability Zone)で構成され、2つのトランジットセンターを経由して、AWSのグローバルネットワークに接続し、他のリージョンと相互接続されている。AZは最大8つのデータセンターで構成され、いくつかのAZでは最大30万台のサーバーをホストするという。これらAZ内のデータセンターは光ファイバーで接続され、AZ間もメッシュ状に接続。何層にも渡って、リンクがひたすら冗長化され、高い可用性・耐障害性を確保しているのが大きな特徴だ。

AW
リージョン、AZ、データセンターにまたがって多重化されたネットワーク

 また、データセンターは25~32MW程度の電力キャパシティで、5~8万台のサーバーをホストする規模にとどめている。この規模は、小さい規模からスケールアップし、コスト効率を考えた結果のキャパシティだ。「8万台のサーバーを倍、さらに倍にしていくと、得られるゲインが小さくなるし、ダウンするとネットワークトラフィックを復旧させるのもうまくいかない。少しコストはかかるが、われわれにとって、これが一番サイズだと考えている」とハミルトン氏は語る。

AW
25~32MWの電力供給、5~8万台の規模のデータセンター

ルーターはカスタム製品、ネットワークASICは自社開発

 続いてハミルトン氏は、ネットワークについてフォーカスする。「メインフレームと同じく、ネットワーク機器の世界も単一ベンダーが市場を支配する世界が続いてきた」と語るハミルトン氏。しかし、今まで垂直統合されてきたネットワークの複数のレイヤーが細切れにされ、サーバーサイドに比重が移ることで、コモディティ化された製品の価値が顕著になってきた。

 そして、AWS自体もカスタムルーターを自社開発しており、ハードウェアの設計からプロトコルの開発までをAWSのチームでまかなっている。AWS環境に最適かされたカスタムルーターを作る目的についてハミルトン氏は、「一番大きいメリットは、コストではなく信頼性だ。カスタムコードを盛り込んでも、結局保守が難しくなる。われわれの要件は1つ。シンプルにしておくことだ」と語る。シンプルにしておくことで、自社で障害に対して対応でき、ベンダーにわずらわせることもない。

AW
AWS環境に最適化されたカスタムルーターは25GbEを採用

 ルーターのインターフェイスは25GbEを採用している。「当時、業界標準は10GbEか、40GbEだった。なぜ25GbEなのかと言われたし、あとから問題になるとも言われた。それくらい25GbEは新しいものだった」とハミルトン氏は振り返る。実際、なぜ25GbEなのか? これについてハミルトン氏は、「40GbEは実際は10GbEを4つ束ねているので、40GbEは10GbEのコストの4倍かかる。しかし、25GbEと10GbEは実はコストがあまり変わらない。つまり、帯域単価で見れば、50GbE(25GbE×2)は40GbEよりも安価に実現できる」と説明する。

 また、カスタムルーターにはパートナーでもあるブロードコムのカスタムASIC(Tomahawk)を採用する。カスタムASICは25Gbps×128ポートの容量にあたる3.2Tbpsを全ポートノンブロッキングで転送できるスイッチング容量を実現。ハミルトン氏はパートナーがさまざまな製品を作ることができるシリコンのエコシステムを大きく評価した。

AW
ブロードコムのカスタムASICを採用

 ハミルトン氏は、SDN(Software-Defined Network)というキーワードでネットワークでの取り組みについても詳説した。AWSではEC2を対象に、2012年からカスタムのNIC<5742>によるサーバー処理のオフロードを開始。これにより、サーバーのコアをより多く使えるようになったほか、ネットワーク仮想化の負荷軽減、セキュリティ向上、遅延の短縮にも大きく寄与したという。「光の速度は変えられないので、ファイバの伝送遅延は短くできない。だけど、ハードウェアに載せることで、ミリ秒をマイクロ秒に変えられる」とハミルトン氏は語る。

AW
AWSにおけるSDNはサーバー処理のオフロードがメイン

 さらに25GbE対応のサーバー用ネットワークチップについても説明した。「Amazon Annapuma ASIC」と呼ばれるこのカスタムASICは、シリコン、ハードウェア、ソフトウェアまですべて自社設計・自社開発。スイッチと同じく25GbE×2の伝送容量を持ち、インスタンスサイズに合わせてスループットを可変できるという。

AW
サーバー用のネットワークチップはシリコン、ハードウェア、ソフトウェアまで自社が担う

あの航空会社の事故から学んだ電力設備の障害対策

 続いて、フォーカスされたのは電力設備の課題だ。ハミルトン氏はデータセンターの停電から多くの便が欠航・遅延した米国航空会社の事例を挙げる(おそらく今年8月に起こったデルタ航空の欠航事故)。初日だけで1000のフライトがキャンセルされたこの事故では、月の売り上げの2%にあたる1億ドルの損失を出したという。

AW
非常にまれながら、起こると大きな損害が出る停電事故

 この事故の原因となったのは、停電の際に自家発電機に電力供給を切り替えるスイッチギアの故障だ。しかし、こうした故障を完全になくすのは難しい。「事故当日、スイッチギアのメーカーの担当者は『そういうもの(うまく切り替わらないこともある)なんです』と説明していたが、データセンターのマネージャーは唖然としていた。ほかのメーカーも同じということだった」とハミルトン氏は語る。

 これに対して、AWSでは民生のスイッチギアにカスタムのファームウェアを搭載することで、停電のような外部障害にも対応している。「2013年のSuper Ballのときも同じようなことが起こって、34分間電気がダウンした。こんなことが起こったら、誰もAWSを買ってくれない。AWSでは絶対起こってはいけないし、実際に起こしていない」とハミルトン氏は力説する。

AW
民生のスイッチギアにカスタムファームウェアを導入

モンスターなストレージとシンプルなサーバー

 前半の最後のトピックとして披露したのはストレージとサーバーについての取り組みだ。ここでの焦点はやはり集積密度。AWSはストレージも自社設計しており、2014年のre:Inventではラック<3857>あたり880台のディスクを搭載できるストレージが披露されている。現在開発中の次世代ストレージは、42Uに1100台のディスクを搭載でき、8.8PBを収容できる。最新のディスクでは11PBまでカバーするという。

AW
1100台のディスクを搭載可能なお手製ストレージ

 一方、サーバーは冷却と電力の効率を考慮して、極力シンプル化した。写真を見ればわかるとおり、中身はスカスカだ。しかし、全体のPUEを追求し、1%の電力効率にこだわった結果、この形状に落ち着いたという。

AW
冷却と電力の効率を意識した1Uサーバー

 電力にこだわるハミルトン氏は、セッションの最後にAWSの再生エネルギー利用について説明した。Amazonが敷設した風力発電や太陽光発電によって、現在40%となっている再生エネルギー利用率を、2017年度までに50%にまで引き上げるとアピール。残りの日程を楽しむよう聴衆に呼びかけ、壇上から去った。

AW
再生可能なエネルギーの利用率は現在までで45%。これを2017年度には50%まで引き上げる

 今回、ハミルトン氏がアピールしたのは、可用性と耐障害性など地味ながら非常に重要な部分だ。パブリッククラウド市場でトップを走るAWSのサービス品質は、まさにクラウドそのものの評価に直結する。そして、圧倒的な規模を誇るAWSのインフラが落ちることは、クラウドに期待する多くの顧客の信頼を裏切ることになる。しかし、過去には自然災害やオペレーションの問題、外部からの攻撃などによって、AWSもいくつかの障害を起こしてきた。ハミルトン氏、ひいてはAWS自体が過去のこうした障害からさまざまなことを学んでおり、結果として自社設計・自社開発の仕組みを多く取り入れ、自らの手でインフラをコントロールしている。まさに「ここまでやるか」というハミルトン氏の技術者魂を見えた秀逸のセッションに多くの聴衆も酔いしれたはずだ。

アスキー
もっと見る もっと見る

【あわせて読む】

    最終更新: 2016年12月01日(木)00時00分

    【関連ニュース】

    【コメント】

    • ※コメントは個人の見解であり、記事提供社と関係はありません。

    【あなたにおススメ】