データの品質が差別化につながる時代のAWSのアーキテクチャ

アスキー 2016年12月06日(火)07時00分配信

米国ラスベガスで開催されたAWSの年次イベント「AWS re:Invent 2016」の大きなテーマの1つは「データ」だったように思える。アンディ・ジャシーCEOとヴァーナー・ボーガスCTOの基調講演をまたいでデータというテーマでまとめてみたい。

SA
データ分析のうち8割は分析とは異なる作業

今のデータ分析の8割は、データ分析の仕事ではない

 4日目の基調講演に登壇したAWS CTOのヴァーナー・ボーガス氏が掲げたテーマは「トランスフォーマー(変革者)」だ。デジタルトランスフォーメーションが叫ばれる昨今のIT業界で、このテーマは最近よく引き合いに出されるが、ボーガス氏は「開発」「データ」「コンピュート」という3つの領域で、変革者を支援できると説く。そして、このうち特に力点が置かれたのが、2つ目のデータに対する取り組みだ。

SA
4日目の基調講演に登壇したAWS CTOのヴァーナー・ボーガス氏

 IoTやAIなど最新のトレンドは、多かれ少なかれ、データ分析にひも付いている。デジタルトランスフォーメーションのためには収集したデータをなんらかの方法で価値に変え、ビジネスの拡大やオペレーションの効率化、コスト削減につなげていかなければならない。

 「会社の規模は関係なく、同じコンピュートリソースになった今、データの品質こそが企業の差別化につながる。だれが一番よいデータにアクセスできるのか? どう管理すべきか? 分析の精度をどのように高めていけばよいかが重要になる」とボーガス氏は語る。基調講演ではデータを活用して価値を生み出しているユーザーとして、地図のプラットフォームを展開しているMapboxや米国政府の健康医療局などの担当者が登壇し、AWSのスピードやグローバル対応について高く評価した。

SD
Mapboxは精度の高いロケーション情報を収集し、プラットフォームサービスとして提供している

 しかし、ボーガス氏は「現在、データ分析と呼ばれている仕事のうち、8割は分析ではない」とも指摘する。この8割は、データに対する「取得する」「インデキシングする」「溜める」「検索する」「アクセスする」「セキュリティを確保する」「ガバナンスを効かせる」といった処理を指しており、確かに分析作業自体ではない。この一連のフローのどこかに大きな負荷がかかるからこそ、データを価値に変えるのが難しい。変えられるのは、コストや人員がかけられるエンタープライズや、スキルに長けたWebサービス事業者のようなところだ。ここにボーガス氏が考える課題感がある。

 これに対して、ボーガス氏が提案するのが、「The Modern Data Architecture」という概念だ。データの収集、蓄積・保存、分析までの一貫したサイクルを実現するこのアーキテクチャを実現すべく、AWSはどのようにサービスを充てていくか。こうした視点で見ると、一見すると地味に見える今回の新サービスがなにを埋めるものなのか腹落ちして入ってくる。

SA
ボーガス氏が語るThe Modern Data Architecture

進化するS3とPostgreSQL互換になったAurora

 まずはデータの収集(インジェスチョン)の部分だ。AWSにはAmazon S3というデータのバケツがあり、集めたデータはとりあえずそこに放り込んでおける。また、リアルタイムなストリーミングデータを扱うサービスとしてKinesisやDynamoDB Streamsなどがあり、既存のデータベースの移行を実現するためにDatabase Migration Serviceも用意されている。さらに大容量データを物理的なアプライアンスやコンテナで可搬するSnowballも1つのデータ収集の入り口と言えるだろう。

SA
幅広いインジェスチョンの選択肢

 創業時のサービスであるAmazon S3は、今も着実に進化している。S3でのイベントをトリガにLambdaを呼び出したり、CDNであるCloudFrontを利用してアップロードのスループットを向上させる機能(Transfer Accerelation)などはこの数年で追加されたものだ。最近では、オブジェクトのタグ付け、証跡管理のCloudTrailでのイベント管理、CloudWatchへのメトリックスの払い出しなども、管理機能として強化されている。ただのバケツというには惜しいくらい機能が強化されているわけだ。

SA
ますます進化するS3

 また、収集したデータを安全に保存すべく、AWSではS3のほか、ブロックストレージのEBS、ファイルサービスのEFS、NoSQL DBのDynamoDB、コールドストレージのGlacierなど用途に応じたデータサービスを用意している。さらにRDSシリーズはRDBをサービスとして提供する。OracleやSQL Serverのような商用製品、PostgreSQLやMySQL、MariaDBなどのOSS、そしてAuroraのような自社製サービスなどを幅広く取りそろえている。

SA
オリジナルデータソースの保護を可能にするデータベース系サービス

 このうち高い性能と可用性を誇るMySQL互換のAmazon Auroraは成長率も高く、多くのエンタープライズで導入されているという。また、スキーマの変換とゼロダウンタイムでのレプリケーションを実現するDatabase Migration Serviceも着実に実績を重ね、すでに1万4000のデータベースをマイグレートしているとのこと。そして、今回「PostgreSQL For Aurora」が発表されたことで、MySQLやPostgreSQLのようなOSS DBからAuraoraへの移行がますます促進しそうだ。

AS
Auroraへのデータベース移行も1万4000におよぶという

S3にクエリをかけられるAmazon Athenaをデータ分析の選択肢へ

 一方、AWSはビッグデータやデータ分析サービスも充実したラインナップを誇る。Hadoop環境を提供するAmazon EMR(Elastic MapReduce)のほか、検索サービスのAmazon Elasticsearch、ストリーミング分析を可能にするAmazon Kinesis、DWHサービスのAmazon Redshiftなどがビッグデータの基盤を支える。また、昨年の4月には機械学習を提供するAmazon Machine Learning、10月のre:InventではBIサービスのAmazon QuickSightが発表されており、データの可視化までをカバーしている。今回はターゲットされたモバイルアプリにプッシュ通知を送れる「Amazon Pinpoint」も発表された。マーケティングという領域まで踏み込んできた印象だ。

SA
EMRからPinpointまで包括的なデータ分析サービス

 ただし、これらのビッグデータサービスは大容量データを高速に分析するのには向いているが、シンプルな分析をスピーディにこなすのには向いていない。「S3にあるWebログ、イベントデータなどを直接分析したいという意見があった」(ジャシー氏)とのことで、RedshiftとEMRを補完するサービスとして生まれたのが新発表された「Amazon Atehna」だ。

 OSSのPrestoを採用するAmazon Athenaでは、Amazon S3に保存されたCSV、JSON、ORC、Parquetなどのデータに対して標準SQLでクエリをかけることができる。また、QuickSightとも統合されているため、分析結果をグラフ化することも可能だ。ジャシー氏は、「データを移動したり、ロードしなくてもS3でクエリできる。インフラを別途で用意しなくても済む、レスポンスも数秒、マイクロ秒で返ってくる」とアピールする一方、Amazon AthenaがRedshiftやEMRを置き換える存在ではないことを強調した。

SA
S3のデータに対して標準SQLでクエリをかけられるAmazon Athena

データ処理を省力化するAWS GlueとAWS Batch

 これだけ豊富なサービスを持ちながら、冒頭に述べた「The Modern Data Architecture」という観点では、実はまだ欠けているピースがあるという。

SA
現状のAWSのサービスではオレンジの部分しか満たしていない

 「各サービスをつなぐ『のり』が必要になる」と語ったボーガス氏は、まさにその『のり』を名前にした「AWS Glue」を紹介した。AWS GlueはデータカタログとETLを提供するサービスだ。S3やRDS、Redshift、JDBC対応DBなどさまざまなソースからデータを抽出して、まずはデータカタログを作成。また、ユーザーに対するデータへのアクセスを管理できる。そしてETL(Extract、Transform、Load)機能によって分析しやすいフォーマットにデータを変換する。当然、ソースデータの更新に対して、一連の処理をジョブとしてスケジューリングしておくことも可能だ。

SA
データカタログの作成が可能
SA
分析しやすいデータへの変換処理設定

 ボーガス氏は、「AWS Glueの投入によって、すべてがカバーされる。包括的なデータアーキテクチャをAWS上で実現可能になった。われわれはお客様に選択肢を与えていく」とアピールした。

 そして、データ処理に関して、最後に新発表されたのが、マルチスケールでバッチ管理を行なえる「AWS Batch」だ。これはHPCや取引分析、不正監視、DNAシークエンス、メディアレンダリングなど「Large Scale Processing」と呼ばれる領域で使われるバッチ処理を対象としたモノで、マルチスケールが大きなメリットになる。

SA
AWS Batchでスケーラブルなバッチ処理を管理できる

データ分析の延長上にある機械学習サービス「Amazon AI」

 さて、こうしたデータ分析の延長上にあるのが、いわゆるAIの分野だ。ビッグデータを分析し、データを価値に変えて行くにはAIの存在が必須。これに対して、AWSはGPGPUを利用可能な「P2インスタンス」やディープラーニング用のAMI<3773>(Amazon Machine Image)、Amazon Machine Learningを提供すると共に、機械学習用のフレームワークを提供するMXNetへの投資を行なってきた。

SA
AI分野でのAWSのサービスと取り組み

 こうしたAWSの機械学習の利用実績はさまざまな業界に浸透しつつあり、ECのリコメンデーション、イメージ検索、不正利用の防止、自動運転、スポーツの事前予想などの用途で実績を挙げているという。また、Amazon自体も商品検索、出荷や物流の効率化、既存製品における機械学習機能の追加などを推進すると共に、Alexaの音声認識技術をベースにしたAmazon Echoのような製品を手がけている。

AS
Amazon自体もAIやディープラーニングの技術を活用している

 とはいえ、クラウドにおけるAIのサービス化は、競合となるGoogleやMicrosoft Azure、IBMの方が先行している分野でもある。これに対して、今回は「Amazon AI」と呼ばれる機械学習サービスの製品群を発表し、一気に巻き返しを図るようだ。

 今回発表されたAmazon AIでは、イメージ認識・分析を行なう「Amazon Rekognition」、テキストツースピーチの「Amazon Polly」、自然言語解析の「Amazon LEX」の3つが用意される。このうちAmazon LEXはAmazon Echoに搭載されているAlexaの技術を用いたもので、人間の会話から自動的に意図を読み取り、適切な回答を返してくれる。Lambdaをトリガーにして、サービスを起動することができ、各種のエンタープライズサービスと連携する。

AS
画像認識・分析を行なうAmazon Rekognition

 ジャシー氏の紹介で登壇したAWS プロダクトストラテジー GM マット・ウッド氏は、旅行予約を例にしたAmazon LEXの音声認識のデモを披露した。ウッド氏は話しかけると、録音した音声をテキスト化し、ユーザーの意図を読み取る。あとは意図を満たすためのスロットを埋め、適切な答えを戻すという流れになる。たとえば日付がなければ、「いつにするか」を聞く質問を戻すし、パーソナライズされたり、Webサービスと連携していて日付がわかっている場合は、ホテルや航空機の予約など具体的なアクションを促すという。

AS
Amazon LEXを使ったデモを披露するAWS プロダクトストラテジー GM マット・ウッド氏

 S3へのクエリ機能、ETLやバッチ管理など、一見地味なサービス群だが、実用性は高い。発表後に話を聞いたデータ分析系のエンジニアは、「今まで自分たちが手作業で補っていた領域が、すべてマネージドサービスになった」と興奮気味に話していた。ユーザーのニーズからサービスを組み上げるAWSの真骨頂が、まさにこれらの新サービスに現れているのではないだろうか? そして、AIの分野も順当にサービスを積み上げ、一気通貫のデータアーキテクチャを提案してきた。エンジニア層のみならず、よりビジネスに近いユーザー層が、今後AWSをデータ分析プラットフォームの選択肢に挙げてくるのは確実だろう。

アスキー
もっと見る もっと見る

【あわせて読む】

    最終更新: 2016年12月06日(火)07時00分

    【関連ニュース】

    【コメント】

    • ※コメントは個人の見解であり、記事提供社と関係はありません。

    【あなたにおススメ】