[レポート] 可観測性を構築して復元力を高める #AWSreInvent #COP343

AWS re:Invent 2023

xxx-yoshi

2024.05.02

re:Invent 2023 で行われた BreakOut セッション Building observability to increase resiliency (COP343) に参加したのでレポートいたします。

ざっくり概要

可観測性を効果的に使用することは、回復力のあるシステムが計画どおりに動作することを証明するために不可欠。適切に適用された可観測性は、顧客に影響を与える前に問題の初期の兆候を発見し、影響を軽減するために迅速に対応するのに役立ちます。

このセッションでは、可観測性のベストプラクティスを使用して AWS の復元体制を改善する方法が学ぶことができ、実際の障害状況を深く掘り下げ、インスツルメンテーションと可観測性ツールの適切な組み合わせを使用して障害を迅速に解決する方法を確認します。

observability （可観測性）とは？

システムの動作状況を把握できている状態
システム運用において、判断に必要な情報が取得できている状態

オンデマンド動画

印象的だったセッション内容

可観測性を活用して、水面下で問題が発生していることを知る方法を考えるパートがありました。
シチュエーションは、お客様が商品をカートに入れて注文したりする Web サイトでショッピングカートの Web ページで問題が起こっているとして、お客様から注文ができないと言われる前に気が付くにはどの様な可観測性データが必要か説明してくれました。

Web サイトでショッピングカートの Web ページで問題が発生

例えば Web サイトのエラーレートを確認するメトリクスを使用して、閾値を設定していた場合、ショッピングカートの Web ページで問題が発生していても警告してくれないでしょう。

特定の Web ページ異常に気が付けない

では、 Web サイト内をドリルダウンしてエラーがサイトの一部だけで発生していることを確認するにはどうすれば良いでしょうか？それには、次元性を考慮（Considering dimensionality）した可観測性を使用します。

"Show me [metric] per [dimension]”

metric には観測内容 レイテンシー リクエスト エラー
dimension には観測次元 Web サイト Web ページ

Web サイトを測定、アラームを設定しても特定の Web ページの問題に気が付くことができませんが

Web ページを測定、アラームを設定するこで

特定の Web ページ異常に気が付ける

しかし、このような設定で Web サイト全体で問題が発生した場合、多くの Web ページからアラームが届くことになるので、それはそれで不快になります。

このアラームの疲労を軽減するために使用できるツールとして CloudWatch Composite alarms があります。
各 Web ページを測定したアラーム設定を全て取り込み、条件を設定することで騒がしくないアラームを作成することができます。

CloudWatch Composite alarms とは？

すでに作成されているアラーム（子アラーム）の状態を監視対象にできるアラームです。その監視対象のアラームは複数指定でき、様々なルール式を設定できます。

更に原因を特定するにはどうすれば良いのか？

ショッピングカートの Web ページで問題があることが分かったとして、その理由はまだわかりません。
これを追跡する方法はどうしたらよいか？ Web サイトの特定の部分に問題があることを確認する方法が必要です。その答えは AWS X-Ray でトレースすることです。

AWS X-Ray とは？

アプリケーションへのリクエストに関するデータを収集するマネージドサービス、アプリケーションレイヤを対象としてレスポンスタイムやレスポンスステータスなどの情報を収集可能

トレースの仕組み

フロントドアにあたるシステム（ALB）にリクエストが入るたびにトレース ID と呼ばれるランダムな一意の識別子がスタンプされます。

トレース ID は次のシステムにバトンの様に渡されながらログが記録され AWS X-Ray に集約されます。

それらをつなぎ合わせてアーキテクチャ全体を視覚化することができます。 AWS X-Ray トレースを使用する CloudWatch ServiceLens map です。

CloudWatch ServiceLens とは？

X-Ray、CloudWatch Logs、CloudWatch Metrics などの各種サービスに散っていた情報（トレース、ログ、メトリクスなど）を、1 か所に統合して表示してくれるサービス

更にドリルダウンして問題の原因を調べる方法

このサービスにどのような問題が発生したのか調べる方法について考えてみましょう。
ALB 配下に 3 AZ 全体で 9 台の EC2 インスタンス上で稼働する Web サーバ群が存在するとします。
例えば 1 台の EC2 インスタンス上の Web サーバプロセスがメモリー不足でクラッシュがした場合、ALB のヘルスチェックが設定されていればヘルスチェックが実行され他の Web サーバにリクエストを送信し始めます。そのため、一瞬エラーレートが上昇するかもしれませんがほんの一瞬で誰も気にしません。

しかし、1 台のホストがクラッシュするのでは無く、一部の製品サービスとの通信で障害があり、他の製品サービスとの通信が可能な奇妙な状態 Gray failure ではどうなるでしょうか。

ヘルスチェックでは全ての障害状態を列挙することはできない

では、どこに障害があるかを理解するには、どうすればよいか？ここでも可観測性を使用できます。

インスタンス ID 毎に測定

問題があるインスタンスを特定できそうだが...

しかし、インスタンス ID 毎に測定、アラームを設定すると多くのアラームが届くことになる。では CloudWatch Composite alarms で全てのインスタンスに個別のアラームを纏めるれば良いのか？
いいえ、インスタンスが増える毎にアラームを設定する必要があったり、もう少し良い方法があります。
それは、CloudWatch Metrics Insights を使用して最も失敗したインスタンスをクエリする方法です。

CloudWatch Metrics Insights とは？

CloudWatch Metrics に対して実行可能な SQL ベースのクエリエンジン

クエリの内容は、最も失敗したトップ 10 を教えて下さい。そして、最も失敗しているインスタンスが 2 分間に 1 %以上失敗している場合はアラームするものです。

スマートに問題のあるインスタンスを特定できた

CloudWatch Metrics Insights query and alarm がどの様な見えるか

まとめ

Observability と聞いて可観測性？という状態でしたが、実際に発生しそうな障害状況を聞きながら、どの様な次元で測定していけば問題箇所の特定、原因を迅速に把握することが可能なのかイメージが湧きました。
Observabilityについてもとても興味が湧く内容でしたのでセッション内で出てきたサービスについて深堀していきます。

[レポート] 可観測性を構築して復元力を高める #AWSreInvent #COP343

ざっくり概要

observability （可観測性）とは？

オンデマンド動画

印象的だったセッション内容

Web サイトでショッピングカートの Web ページで問題が発生

特定の Web ページ異常に気が付けない

"Show me [metric] per [dimension]”

特定の Web ページ異常に気が付ける

CloudWatch Composite alarms とは？

更に原因を特定するにはどうすれば良いのか？

AWS X-Ray とは？

トレースの仕組み

CloudWatch ServiceLens とは？

更にドリルダウンして問題の原因を調べる方法

ヘルスチェックでは全ての障害状態を列挙することはできない

インスタンス ID 毎に測定

問題があるインスタンスを特定できそうだが...

CloudWatch Metrics Insights とは？

スマートに問題のあるインスタンスを特定できた

CloudWatch Metrics Insights query and alarm がどの様な見えるか

まとめ

イベント

EVENT【6/11（火）リモート】クラスメソッドの会社説明会を開催します

EVENT【6/18（火）】アノテーションのAWSエンジニア向けオンライン会社説明会を開催します

EVENT【6/5（水）リモート】筋トレに励むエンジニア向け会社説明会を開催します

EVENT【6/13（木）】認証機能の開発工数削減をデモで体験！次世代認証基盤サービス『Auth0 by Okta』導入実践ウェビナー

EVENT【5/22リモート】クラスメソッドのフリーランスエンジニア会社説明会〜AWSインフラ / Webアプリ案件特集〜を開催します

EVENT【6/19（水）】Snowflakeを触ってみよう！初めての方向けハンズオンセミナー

EVENT【5/30（木）リモート】クラスメソッドの会社説明会を開催します

EVENT【6/5（水）】AWS Well-Architected Frameworkの基づく、マルチアカウントの一元管理〜Account Factory for Terraformの活用メリット〜

EVENT【6/14（金）リモート】フリーランスになったら必要になる契約などの事務手続きを攻略 ‐ フリーランストーク#11

EVENT【6/5（水）】QuickSightとTableauのデモで営業分析を解説！アクションに繋げるダッシュボード設計

[レポート] 可観測性を構築して復元力を高める #AWSreInvent #COP343

ざっくり概要

observability （可観測性）とは？

オンデマンド動画

印象的だったセッション内容

Web サイトでショッピングカートの Web ページで問題が発生

特定の Web ページ異常に気が付けない

"Show me [metric] per [dimension]”

特定の Web ページ異常に気が付ける

CloudWatch Composite alarms とは？

更に原因を特定するにはどうすれば良いのか？

AWS X-Ray とは？

トレースの仕組み

CloudWatch ServiceLens とは？

更にドリルダウンして問題の原因を調べる方法

ヘルスチェックでは全ての障害状態を列挙することはできない

インスタンス ID 毎に測定

問題があるインスタンスを特定できそうだが...

CloudWatch Metrics Insights とは？

スマートに問題のあるインスタンスを特定できた

CloudWatch Metrics Insights query and alarm がどの様な見えるか

まとめ

イベント

EVENT【6/11（火）リモート】クラスメソッドの会社説明会を開催します

EVENT【6/18（火）】アノテーションのAWSエンジニア向け オンライン会社説明会を開催します

EVENT【6/5（水）リモート】筋トレに励むエンジニア向け会社説明会を開催します

EVENT【6/13（木）】認証機能の開発工数削減をデモで体験！次世代認証基盤サービス『Auth0 by Okta』導入実践ウェビナー

EVENT【5/22リモート】クラスメソッドのフリーランスエンジニア会社説明会 〜AWSインフラ / Webアプリ案件特集〜 を開催します

EVENT【6/19（水）】Snowflakeを触ってみよう！初めての方向けハンズオンセミナー

EVENT【5/30（木）リモート】クラスメソッドの会社説明会を開催します

EVENT【6/5（水）】AWS Well-Architected Frameworkの基づく、マルチアカウントの一元管理〜Account Factory for Terraformの活用メリット〜

EVENT【6/14（金）リモート】フリーランスになったら必要になる契約などの事務手続きを攻略 ‐ フリーランストーク#11

EVENT【6/5（水）】QuickSightとTableauのデモで営業分析を解説！アクションに繋げるダッシュボード設計

関連記事

[アップデート] Knowledge bases for Amazon Bedrock で推論パラメーターを調節できるようになりました

[アップデート] Amazon Pinpoint からの E メール送信時にもカスタムヘッダーが設定出来るようになりました

[アップデート] Knowledge bases for Amazon Bedrockで「推論パラメーター」の設定が可能になりました

Amazon EBS 스냅샷 아카이브를 이용하여 사용하지 않는 EBS 스냅샷의 요금을 줄여 보기

EVENT【6/18（火）】アノテーションのAWSエンジニア向けオンライン会社説明会を開催します

EVENT【5/22リモート】クラスメソッドのフリーランスエンジニア会社説明会〜AWSインフラ / Webアプリ案件特集〜を開催します