野中のre:Invent 2024 2 日目:Dive deep on Amazon S3

こんにちは、クラウドネイティブ技術部の野中です。
2024年12月2日から12月6日に開催される re:Invent 2024 に現地参加しています!
Dive Deep on Amazon S3 のセッションに参加しました。
このセッションを選んだ理由は、現在進行中の案件でS3を主軸としたアプリケーションを構築しており、その中で扱う膨大なデータ量やS3の卓越したデータ処理能力について、より深く理解したいと思ったからです。
S3の内部構造や設計思想を掘り下げることで、より効率的な運用や設計のヒントを得られると期待しています。

今回は、S3の内部アーキテクチャに関する内容となります。
セッションでは、S3の特徴や具体的な使い方についてではなく、その設計思想や内部構造について掘り下げた話が中心となりますので、その点にご注意ください。

Amazon S3のスケールを支える技術

Amazon S3は、膨大なデータ量を効率的かつ信頼性高く管理するクラウドストレージサービスです。
その背後には、スケールを最大限に活用した高度な設計と技術があります。
本記事では、特に「シャッフルシャーディング」を中心に、S3のスケールを支える仕組みを詳細に解説します。

1. S3の圧倒的なスケール

Amazon S3は、その規模と性能でクラウドストレージ業界をリードしています。

  1. 保存オブジェクト数
    • 現在、400兆以上のオブジェクトを保存。
    • データ量はエクサバイト単位に達する。
  2. リクエスト処理能力
    • 平均リクエスト数は毎秒1億5000万件。
    • 世界全体のピーク帯域幅は1秒あたり1PB以上。
      • 1 PBのデータ処理に必要な設計例:
        • 50台のストレージドライブ(1台あたり20 TBの容量)で1 PBを保存。
        • 最大275 GB/秒のスループットを実現可能。
        • バースト需要をサポートするために、5500台のドライブ(1台あたり50 MB/秒の速度)を用意し、通常の処理に対して100倍の対応能力を確保。
  3. イベント通知
    • 1日あたり2000億件以上のイベント通知を処理。

この規模は、単なる技術的な挑戦に留まらず、ユーザーの多様なニーズを支える強固な基盤となっています。これほどのスケールを支える鍵が「シャッフルシャーディング」です。

2. スケールを活用したパフォーマンス向上

i. ハードウェアと物理的制約の克服

Amazon S3は、物理的な制約を克服し、効率的なストレージを実現しています。

  • 課題: ハードディスクの制約
    • シークタイムや回転遅延といった制約により、データアクセスの速度が制限される。
  • 解決策: S3独自の技術
    • ShardStore: ログ構造化ファイルシステムでデータを連続配置し、シークタイムを削減。
    • イレイジャーコーディング: データを複数のシャードに分割し、効率的に冗長性を確保。

これらの技術により、S3はデータアクセスのパフォーマンスを最適化し、大規模なデータ処理にも対応可能になっています。

ii. 負荷分散と予測可能性

S3は、顧客ごとの突発的なワークロードを吸収し、全体として予測可能なパフォーマンスを維持します。

  • 統計的予測
    • 顧客のアクセスパターンを統計的に分析し、ストレージ全体の負荷を平均化。
    • これにより、個々のアクセスの突発性が吸収され、全体のパフォーマンスが安定。
      • 事例: FINRA
        • 株式市場データを処理するFINRAは、S3上で1日に906億件のデータを処理。
        • このような高負荷なワークロードでも、S3は安定したパフォーマンスを維持しています。

3. シャッフルシャーディングによる分散設計

シャッフルシャーディングは、S3のスケールを活かした分散設計の中核を担う技術です。

i. シャッフルシャーディングとは?

シャッフルシャーディングは、データをランダムに分散させ、特定のリソースへの負荷集中を防ぐ仕組みです。

  • 負荷の均等化: ランダムなデータ配置でホットスポット(負荷集中領域)を回避。
  • 耐障害性の向上: データが複数の場所に分散されるため、単一障害点(SPOF)を排除。
  • 顧客間の分離: 異なる顧客のワークロードが干渉しない設計。

ii. 実装の仕組み

シャッフルシャーディングは、「二択アルゴリズム(Power of Two Choices)」を活用し、効率的にリソースを活用します。

  1. リソース選択:
    • ランダムに選ばれた2つのリソース候補から、負荷が少ないリソースを選択します。
  2. 動的な負荷調整:
    • 定期的にデータを再配置し、時間経過による負荷変動に対応します。

iii. DNSでの応用

シャッフルシャーディングはDNSにも応用されています。複数のIPアドレスを返却することで負荷を分散し、性能を最適化します。

  • 耐障害性の向上: サーバー障害時でも別のサーバーにリクエストを再送可能。
  • スケーラブルなパフォーマンス: クライアントは複数サーバーへのアクセスを活用し、帯域幅を効率的に利用します。

4. 冗長性と耐障害性

S3は高度な冗長性設計を採用し、耐障害性と運用効率を両立させています。

i. イレイジャーコーディングの活用

イレイジャーコーディングは、効率的な冗長性を実現する重要な技術です。

  • 効率的な冗長性: レプリケーション(5倍以上のオーバーヘッド)に比べ、ストレージオーバーヘッドを1.8倍に抑え、同等以上の耐久性を実現。
  • 広範な適用性: データの欠損時にも迅速な復旧を可能にします。

ii. 高速なデプロイ

Amazon S3の冗長性設計は、新しい技術やハードウェアを迅速かつ安全に導入できる仕組みを提供しています。

  • ShardStoreを活用した段階的な展開
    新しいソフトウェアは、まず少数のシャードに適用されます。この段階で安全性を十分に確認した後、適用範囲を徐々に広げることで、大規模な障害を回避しながらデプロイを進めることが可能です。

  • リスクを最小限に抑える設計
    問題が発生しても、その影響範囲が限定されるように設計されています。これにより、システム全体への影響を最小限に抑えながら、必要な改善を迅速に反映することができます。

5. まとめ: S3が描くクラウドストレージの未来

Amazon S3は、スケールを技術的な挑戦に留めず、顧客に大きな価値を提供しています。

  1. スケーラブルな設計: 膨大なデータ量とリクエストを効率的に処理。
  2. 効率性の向上: シャッフルシャーディングとイレイジャーコーディングによるコスト削減と性能向上。
  3. 迅速な運用: 耐障害性を活かし、革新的技術をスピーディに導入。

現在、大規模なデータを扱うプロジェクトに取り組む中で、S3のような信頼性とスケーラビリティを持つサービスの価値を改めて実感しました。
特に、「シャッフルシャーディング」や「イレイジャーコーディング」といった技術を通じて、S3がどのように膨大なデータを効率的かつ安全に管理しているのかを知ることができ、とても興味深かったです。
こうした技術を理解することで、単にストレージを利用するだけでなく、システム設計の視点でも役立つと感じました。
今後のプロジェクトでは、S3の仕組みや考え方を参考にしながら、効率的で信頼性の高いデータ管理を目指していきたいと思います。

今回の記事が、皆さんのプロジェクトに役立つヒントになれば幸いです。