AWS GameDay Online ~ APN杯 ~に参加しました

インフラ担当の柴田です。 2020年9月2日にAWSのパートナーネットワーク(APN)加入者向けのGameDayがオンラインで行われました。

フェンリルも2016年からAWSのパートナーネットワーク(APN)に加入をしており、参加資格がありますので、社内の有志4人で参加しました。

GameDayとは?

■AWS GameDay(Microservice Madness)とは

みなさんのAWS スキルの腕試しに興味はありませんか?
AWS GameDayはクラウドを活用して、可用性高くサービスを運用しながら、システムを進化させていくスキルを競い合います。
主催者はみなさまに”ある”AWS環境を払い出します。
みなさまは払い出された環境を、どんなワークロードにも耐えられる環境へと進化させ、参加者の中で最も優れた進化をさせたチームがチャンピオンになります! クラウド ネイティブの世界にご興味のある方は是非ご参加下さい。

https://aws.amazon.com/jp/blogs/psa/apn-aws-gameday-online-apn/

そして私は実は2回目の参加になります。前回の報告https://engineers.fenrir-inc.com/entry/2019/10/30/170000で書いています。

2回目の参加ではあるものの、チームメイトが楽しめるように余計な前情報は共有せず、ただ、体調を整えようとだけ共有していたので、十分に楽しんでくれたはず。

slack画面
slackでの共有

当日の流れ

当日の流れは基本的には前回と同じですが、今回はチームメイトが全員同僚なので、会社のSlackで通話をしながら進めていきました。

元CEOの挨拶を聞く

私たちはUnicorn Rentals社のDevOpsチームに配属された新入社員ですので、最初に最初に元CEOからのありがたいお言葉(ビデオメッセージ)を聞きます。 でも不思議ですよね、既に紹介が元CEOなんですよね……。

私たちの仕事は引き継ぎ期間を取る事無く解雇された前任のDevOpsチームがそこそこテストしたMicroserviceをデプロイして運用することという説明と、 Unicorn Rentals社は「Scalability,Availability,Flexibility」を大切にしているのでお給料(スコアー)はサービスを提供している時間、応答速度、どれだけサービスが利用されているかの3つで決まることの説明がありました。 (Unicorn Rentals社の給料は完全に成果主義なのでサービスを提供できないと給料がマイナスになる!)

仕事を始める

Unicorn Rentals社のサービスはちょうど4つのサービスに分けることができたので、私たちは各サービス毎に担当を割り当てる方針で作業を開始しました。

兎にも角にもサービスを動かさないことにはお給料が増えないのでまずはサービスの提供開始を目標に頑張って行きます。

一通りサービスが動くようになった頃、どうやらセキュリティテストチームの仕業なのか、他の部署の人間の仕業なのかサービスに異常が発生しだします。

そんなことある??みたいなトラブルが何度も何度も何度も……起きます。

トラブルが発生した場合は、どういったトラブルが発生しているのかを特定した後、まずは障害から復旧させてから根本的な対応として同じトラブルが再度起こらないような設定をしていくのですが、私たちに与えられた権限では根本的な対応ができないトラブルがあるのと、そもそもトラブルの発生頻度が高く格好良く対応する時間もとれないので泥臭く手作業で対応していくことにしました。

有人監視によって、X-Rayなどの画面が更新されるよりも早くエラーに気づき、Auto Scaring Groupをあてにせず手動でインスタンスを入れ替える……そんな泥臭い作業のかいもあり、途中何度か私たちのチームは1位になっていました。

そうそう、全チームの現在の給料はスコアーボードで随時確認ができます。給料を見える化して競わせる会社の戦略ですね。

1位の時のスコアーボード
1位の時のスコアーボード(01Sleipnirが私たちのチーム名)

終業

Unicorn Rentals社の業務はきっちり定時に終わります。 スコアーの高かった上位5チームが紹介され、上位3チームには楯などが贈呈されました(ものは後日配送らしい)。

私たちのチームは後半3位ぐらいにはなれそうか?と思ったのですが他のチームの追い上げに負けて6位でした。

最終スコアー
最終スコアー

そして、終業後突然の会社解散の連絡があり1日でUnicorn Rentals社を退職することになりました。

突然の解散
突然の解散

感想

私は2回目の参加なのでもう少しスマートにトラブルに対応できるかと思っていたのですが思うようにはいかなかったです。 例えば、障害通知も自動化できれば良いなと思っていましたが蓋を開けると目視で監視していましたし、X-Rayの画面更新が思ったより遅かったりするのでAWSの環境外の情報を元に取りあえずの対処作業を開始した方がリカバリーが早かったです。

普段なかなか触れないAWSのサービスを触れたり、障害時になにを確認していくのかという経験が得られたりと楽しみながら仕事に役立つ経験が得られるので、フェンリルの他のメンバーにも参加して欲しいなと思いました。 (フェンリル社内でGameDayが開かれれば参加してくれるんだろうか?)