データコンサルタント視点から見るオブザーバビリティにおける詳細データ収集と分散環境対応
データコンサルタントの視点から見ると、非常に見つけにくい未知の障害条件(運用データにおける予測不能な異常パターン)をトラブルシューティングし、アプリケーションの動作をデータ分析に基づいて最適化するためには、環境に関するすべての運用データを、サンプリングすることなく忠実に測定してデータ収集するしかない点を強調できます。これは、運用データにおける盲点を作らない唯一の方法であり、必要なときに必要な運用データが手に入るようにするために不可欠です。
サービス指向分散アーキテクチャの複雑性と従来のサンプリング方式の限界
サービス指向の分散アーキテクチャ(マイクロサービスなど)では、サービス間の相互作用データ、依存関係データ、エラー伝播データが境界をまたいで高度に複雑化している現状を分析します。このようなシステムでは挙動の予測が非常に難しく、頻度は少ないながらも重大な問題が運用データに断続的に発生する傾向があります。従来のオブザーバビリティソリューションではトレースデータ(分散トランザクションの実行経路データ)をランダムにサンプリングするヘッドベースの確率的サンプリングが採用されており、しばしば本当に必要な情報(特定のトランザクションデータ、異常データ、外れ値データなど)がデータ収集されないことが起こるため、マイクロサービスベースのアプリケーションをデータに基づき監視するには十分とは言えない可能性があります。これは、データ収集における欠損リスクと分析精度低下リスクを示唆します。
オブザーバビリティソリューション評価のポイント:サンプリングなしトレース取得とデータ可視化機能
オブザーバビリティソリューションを評価する際には、サンプリングを行わず、すべてのトレースデータをデータ取得する機能を持つものを探すことが重要です。これにより、どのトレースデータ(分析対象)を保持しておくかを組織側でデータに基づいて決定できるようになります。また、有用な情報がダッシュボード、サービスマップ、トレースナビゲーションといったデータ可視化インターフェースに効果的に表示されるソリューションであれば、アプリケーションの監視(運用データ監視)とトラブルシューティング(運用データ分析)の際にとても役立ちます。これは、収集された運用データの活用とデータ分析プロセス効率化に貢献する機能です。
最新ソフトウェア定義インフラにおけるデータ粒度要求と運用への影響
最新のソフトウェア定義インフラ(またはクラウドインフラ)と同じスピード(データ処理速度)と粒度(データ収集頻度)で運用できるオブザーバビリティの必要性を強調します。運用ユースケースは多様であり、重要度も異なるため、それぞれに応じたデータ粒度が求められます。エフェメラルなコンテナやサーバーレス関数で実行される動的なマイクロサービスから運用データを収集する場合、モノリシックなアプリケーションから運用データを収集するときと同じ分単位のような粗い粒度では、おそらくデータ分析に不十分です。例えば、成熟度の高いモノリシックなアプリケーションが余裕を持ってプロビジョニングされた仮想マシン(VM)上で稼働しており、ユーザー数も比較的一定しているといったケースでは、パフォーマンスの測定(運用データ測定)に際しインフラの可視化レベルが多少粗くても問題ないかもしれません。一方、Kubernetesでオーケストレーションされたエフェメラルなコンテナで複数のマイクロサービスが実行されており、それらが分単位でスピンアップ/スピンダウンしていたり、わずか数秒でインスタンス化されるサーバーレス関数などのケースでは、アプリケーションやインフラのパフォーマンス(運用データ)を効果的に監視するにあたり、はるかに細かい粒度(1秒単位)でのデータ収集と分析が求められることをデータ分析に基づき提言します。
マイクロサービス導入における粒度選択の安全性と必要なオブザーバビリティ
マイクロサービスの導入を開始しているのであれば、データ粒度は粗すぎるよりも細かすぎる方が、データ分析の観点から安全です。クラウド環境でのアプリケーションの再設計やネイティブアプリケーションの新規開発にはデータ分析に基づいた試行錯誤が伴うからです。つまり、エフェメラルなソフトウェア定義インフラと同じ時間尺度(高頻度、細かい粒度)で運用できるオブザーバビリティが必要だということです。このような環境に対応するためには、オープンで柔軟なインストルメンテーション(データ収集方法の選択肢が広く、カスタマイズが容易)を採用し、開発者が使いやすい(データ収集実装の容易性)オブザーバビリティソリューションが不可欠である点をデータコンサルタントとして結論づけます。データ駆動型運用においては、分散環境からの詳細な運用データ収集と、環境の変化に追随できる柔軟なオブザーバビリティソリューションの選定が成功の鍵となります。
データコンサルタント視点から見る業界別オブザーバビリティ実践状況とデータ管理の課題
データコンサルタントの視点から見ると、業界によってオブザーバビリティの実践状況とデータ管理への取り組みには顕著な差が見られます。特に、行政・公共機関と金融サービス業界の状況を比較分析することで、データ駆動型運用成熟度の違いが明らかになります。
行政・公共機関におけるオブザーバビリティ導入状況とデータ可視性の課題
行政・公共機関は他の業界と比較してオブザーバビリティの導入で後れをとっており、調査データによると半数以上(54%)がビギナー組織に該当します(全業界平均は45%)。その大きな要因として、プライベートクラウド(38%)やパブリッククラウド(35%)といった組織の環境をかなりデータ可視化できていると回答した割合が低い点が挙げられます(全業界平均はいずれも47%)。データ可視性の向上はオブザーバビリティの成功の基盤であるため、可視化率が低いことは、オブザーバビリティのメリット(アプリケーション開発の迅速化データ(23%)、問題の検出時間の短縮データ(19%))を享受している組織も他の業界と比較して少ない状況に繋がっています(全業界平均はいずれも34%)。
行政・公共機関の約3分の1(29%)が、オブザーバビリティ関連のツールやテクノロジーに対する投資不足を感じている点(全業界平均15%と比較)は、データ管理や運用監視に必要なリソースデータ投入が不十分であることを示唆します。今後、行政・公共機関は、オブザーバビリティプラクティスを進化させ、成熟させていく必要があり、現在の投資がすでに測定可能なメリット(年間平均120万ドルの投資に対し240万ドルのビジネス価値創出)を生み出しているというデータは、オブザーバビリティへの投資がROIをもたらす可能性を示唆しています。データコンサルタントとして、行政・公共機関におけるデータ管理およびオブザーバビリティ戦略の策定と、データに基づいた投資判断の支援の必要性を提言します。
金融サービス業界におけるオブザーバビリティ実践の進展とデータ管理
金融サービス業界は、他の業界と比較してデータ可視化が進んでいることをデータ分析に基づき示しています。すべてのタイプのインフラ(組織が所有および運用しているネットワークインフラ(53%)、パブリッククラウドインフラ(50%)など)で「可視化がかなり進んでいる」と回答した割合が全業界の平均を上回っています(全業界平均はいずれも49%または47%)。これらの基本的なデータ可視化機能を確立した金融サービス企業の多くは、AIOpsなど、他の運用データ分析領域への投資を進めています。57%がAIOpsツールを活用し、複数の監視システムからの運用データを統合してデータ可視性を向上させるなどのユースケースを実践している点は、データ統合と高度な運用データ分析が進んでいることを示唆します。こうした先進的なデータ活用への取り組みが功を奏し、67%の企業が、ROIが期待を上回っていると回答しているデータは、データ駆動型運用が経済的な成果に繋がっていることを示します。
金融サービス業界の企業は、オブザーバビリティプラクティスの成熟とともに、OpenTelemetryを導入する際の互換性課題に直面しており、57%の企業が互換性の問題に直面していると回答しています(全業界平均は46%)。ただし、この互換性の問題は、OpenTelemetryプロジェクトが成熟し、ベンダーがOpenTelemetryとのデータ連携を強化するにつれて、自然に解決していくでしょう。OpenTelemetryの成長に伴う課題がある中でも、金融サービス企業はすでにメリットを享受しており、例えば半数近く(45%)が、データに対する主導権と所有権が向上したと回答している点は、データガバナンスとデータ管理の自由度に関するデータ視点からのメリット認識を示しています。データコンサルタントとして、金融サービス業界における複雑なデータ環境におけるデータ管理、オブザーバビリティ、およびデータガバナンスの課題解決を支援し、データ駆動型ビジネスのさらなる加速に貢献します。
データコンサルタント視点から見るデジタルエコノミーにおけるオブザーバビリティとデータ中心の運用
データコンサルタントの視点から見ると、今日のデジタルエコノミーにおいてスピード(ビジネス応答速度、市場投入速度など)は成功の鍵であり、顧客は円滑なデジタルエクスペリエンスデータ(サービス利用体験データ)を期待しています。他に先んずるチャンスを競合他社に奪われるかどうかは、データ処理速度や迅速な対応にかかっています。企業は、変革を加速し、アプリケーション開発速度データ向上、パフォーマンスデータ改善のために、マイクロサービス、コンテナ、Kubernetesといったクラウドネイティブテクノロジーへの転換を図っていますが、これらの分散アーキテクチャへの移行は、データの速度、規模、複雑性に関する新たな運用データ管理上の課題を企業にもたらしています。従来の監視ソリューションがこれらの課題を想定して設計されていない現状に対し、オブザーバビリティが必要不可欠なツールとして登場します。
オブザーバビリティの役割とメリット:運用効率と信頼性向上
企業は、質の高いコードと卓越したユーザーエクスペリエンス(データ駆動型サービス品質)をスピーディーに提供するよう求められており、オブザーバビリティはDevOpsチームやSREチームが想定外の動作(運用データにおける異常)をデータに基づいて把握し、説明するのに役立ちます。これにより、エフェメラル(一時的)なインフラ上で分散して稼働しているマイクロサービスを効果的かつプロアクティブに管理できるようになります。適切なオブザーバビリティ戦略とソリューション(データ収集、データ分析、データ可視化能力を備えたもの)が導入されれば、システムの信頼性データ、カスタマーエクスペリエンスデータ、チームの生産性データ(運用効率データ)を向上させることが可能になります。環境の規模や複雑さを問わずオブザーバビリティを継続的に成功させていくための、データ管理と運用に関する不変の規則や考慮事項が存在します(12のイミュータブル・ルールへの言及)。システム全体のオブザーバビリティが増せば増すほど、運用データ分析に基づき迅速に不具合の原因を把握して修正できるようになり、これはサービスレベル指標(SLIデータ)やサービスレベル目標(SLOデータ)を満たす上で非常に重要であり、ひいてはビジネスの成果(ビジネス成果データ)を促進させることにも繋がります。
オブザーバビリティの定義とデータとの関係性
オブザーバビリティとは何かをデータコンサルタントの視点から明確に定義します。それは、システム(インフラ、サービスなど)の状態に関する問いに対し、テレメトリーデータ(メトリクス、トレース、ログといった運用データ)を使ってどれだけ正確に推論または回答できるかを示す尺度です。優れたオブザーバビリティを備えたシステムでは、DevOpsチームはシステムに発生し得るあらゆる問題(運用データにおける異常)、たとえそれが未知の障害データであっても、あるいは原因がマイクロサービス間の複雑な相互作用にデータとして深く埋もれているような障害であっても、データ分析に基づき特定して修正することができる点を強調できます。オブザーバビリティのメリットはトラブルシューティング(運用データ分析による問題解決)にとどまらず、システム全体のデータ可視性向上により、チームはコードリリース(ソフトウェア開発データ)やシステムアーキテクチャ(構成データ)をプロアクティブに改善したり、よりすばやく変更を行えるようになる点を述べます。
オブザーバビリティはデータ中心であり、すべてのデータを使用する重要性
データコンサルタントとして、単にデータさえあれば、オブザーバビリティソリューションを実現できるというものではない点を指摘します。データは不可欠な要素ですが、それを効果的に収集、管理、分析、活用する仕組みが必要です。今ではオブザーバビリティはDevOpsツールチェーンに必須の要素となりつつありますが、オブザーバビリティを検討、導入、改善するにあたっては、データ管理と運用に関するいくつかの不変の規則に留意する必要があります。サービスの状態を本当の意味で、しかも開発中からデータとして把握するにはどうすればよいかという問いに対し、すべてはデータ(運用データ)から始まることを改めて強調します。特に重要なのは、すべての運用データを使用して、運用上の盲点(データ収集漏れ、分析不足による見落とし)を残さないようにすることです。これは、サンプリングに頼らず、網羅的にデータを収集・分析することの重要性を示唆し、データ駆動型運用の基本原則となります。データコンサルタントとして、組織のオブザーバビリティ戦略において、データ中心のアプローチと網羅的なデータ収集の重要性を強調し、データ駆動型運用の実現を支援します。
データコンサルタント視点から見るオブザーバビリティにおけるデータ分析、可視化、およびAI活用
データコンサルタントの視点から見ると、最新のアーキテクチャが膨大な量の運用データを生成する現状において、オブザーバビリティは調査を迅速化するために不可欠です。これらのデータはシステムの理解に役立ちますが、データ単体では十分に意味を持たず、データ集約、データ分析、そしてそれに基づく対応が必要であることを強調できます。
設定不要の直感的な可視化機能(ダッシュボード、チャート、ヒートマップなど)は、システムから生成される膨大な運用データを一目で簡単に理解し、重要なメトリクスにリアルタイムで対応することを可能にします。オブザーバビリティソリューションでは、導入するだけでデータが集約され、メトリクスダッシュボード、サービスマップ、コンテナアーキテクチャが自動で表示される機能、そして動的なディメンションベースのフィルタリング、グルーピング、集約ができる機能が重要です。特定のサービスを監視できるカスタムダッシュボードを備えていることも、運用担当者のニーズに合わせたデータ可視化のために不可欠です。
コンテキスト関連付けによる迅速な問題特定:運用データ分析ワークフロー
コンテキスト関連付けは迅速な問題特定に欠かせません。例えば、オブザーバビリティソリューションから、サービスの99パーセンタイルのレイテンシが上昇したというアラートデータを受け取った場合、アラート情報からのデータリンクで直接サービスダッシュボードに移動し、そこに表示されたサービスのコンポーネントに関する運用データやチャートからデータストアに何らかの問題があることをデータ分析によって特定できる運用ワークフローが理想的です。さらにリンクをたどってデータストアのダッシュボードを確認することで、特定のインスタンスで過去にレイテンシが急上昇しているデータを発見し、問題が正確にいつ、どこで発生したか(何が、いつ、どこで)をデータに基づいて特定できる点を述べることができます。この情報に基づいてデータリンクをたどりログデータを見れば、「なぜ」その問題が発生したか(根本原因データ)を、フルスタックのトレースデータ(分散トランザクションの詳細データ)といった詳細な運用データから把握できる運用データ分析プロセスを構築すべきです。オブザーバビリティツールは、このような一連のデータ追跡とデータ相関付けを通じて、少ないステップで問題の発生源をデータに基づいて容易に特定できるようでなければなりません。
AI活用によるアラート管理効率化とリアルタイム分析
ストリーム内AI(データ処理パイプライン上でのリアルタイムAI分析)を活用することで、アラートの迅速化と精度向上、インスタントトラブルシューティング、高速なインサイト(運用データ分析から得られる知見)提供を実現できます。クラウド環境では、人間では処理しきれないほど膨大な運用データが生成される現状に対し、このデータすべてを迅速にデータ処理し、意味のあるパターン(運用データにおける異常パターン)を見いだし、実用的なインサイトを得るには、リアルタイム分析(収集したデータを即座に分析)が不可欠です。ベーシックなアラートが静的なしきい値(固定値による監視)に基づいて生成され、ハートビートチェック(システム生存確認)がしばしば不正確であるため、ノイズ(誤検知アラート)が多く発生する点は、従来の監視における課題であり、これらはアラートを大量に発生させる主な原因となり、オンコールエンジニアに運用負担をかけ、問題を解決するよりもむしろ問題(アラートノイズ)を増加させている状況をデータコンサルタントの視点から分析します。こうした非効率なアラート状況から脱却し、高度な統計モデル、AI、複雑な条件に基づく動的なしきい値(運用データに基づき変動するしきい値)によるアラートを検討する必要がある点を提言します。リアルタイム検出ソリューションを評価する際には、パフォーマンス履歴データからのベースライン設定(過去の正常な運用データに基づいた基準値)、高度な比較、外れ値/異常のリアルタイム検出機能を持つものを探すと良い点をデータ分析に基づいたアラート設定の重要性として述べることができます。アプリケーションの環境に合わせてアラートルールを運用データに基づいて微調整したり、カスタマイズできることも、アラート精度を高めるために重要です。
コード変更についての迅速なフィードバック提供
実稼働中も含め、コードの変更についてのフィードバック(運用データ、パフォーマンスデータ、ユーザーエクスペリエンスデータなど)を迅速に提供できるデータ収集・分析体制は、開発プロセスと運用改善の両面で重要です。データコンサルタントとして、これらのデータ駆動型アプローチを組織に導入し、運用効率と信頼性の向上を支援します。
データコンサルタント視点から見る開発ライフサイクルにおけるオブザーバビリティ、自動化、および「as Code」の実践
データコンサルタントの視点から見ると、オブザーバビリティは運用段階に限定されるものではなく、開発中から開始されるべきデータ駆動型プラクティスです。シフトレフト(テストなどのDevOpsプロセスをパイプラインの早期から開始し、問題をできるだけ早くデータに基づいて発見して解決するアプローチ)や、シフトライト(デプロイ前のプロセスをパイプラインの実稼動段階まで拡大し、テストと監視の適用範囲をデータ収集・分析の観点から拡大するアプローチ)といった概念は、この開発ライフサイクル全体でのオブザーバビリティ導入の重要性を示唆するものです。コードデプロイ後、各リリースがデリバリーパイプラインデータ(ソフトウェアの構築、テスト、デプロイメント、運用プロセス)を流れていく過程で、チームはアプリケーション内部で何が起きているか(運用データ)をデータに基づいて知る必要があり、それが分からないと、パイプライン全体を理解したり、アプリケーションパフォーマンスデータやエンドユーザーエクスペリエンスデータとパイプラインイベントデータ(デプロイメントイベント、構成変更イベントなど)をデータ相関付けすることが困難になります。
コードからクラウドまでのデータ可視化とオブザーバビリティ機能
コードデータからクラウドデータまでをデータ可視化するアプリケーションテストおよびパフォーマンス管理は不可欠です。オブザーバビリティは、合成モニタリングデータ(合成トランザクションデータを用いたテスト)、リアルユーザートランザクション分析データ(実際のユーザー操作データ分析)、ログ分析、メトリクス追跡といった多様な運用データ収集・分析機能を提供するため、チームは開発からデプロイに至るまでのコードの状態(運用データ、パフォーマンスデータ)をデータに基づいて理解でき、開発ライフサイクル全体にわたって各リリース(ソフトウェアのバージョン)の状態をデータとして把握するための詳細情報を得ることができます。これは、データに基づいた意思決定と継続的な改善に不可欠な情報となります。
自動化と「as Code」による運用効率向上
組織の生産性データ、効率データ、予測可能性データ(システム挙動の予測)を大幅に向上させるには、プログラム機能(APIなど)を最大限活用することが重要です。APIを利用すれば、インフラリソースの管理(Kubernetesオーケーストレーターの使用など)、変更管理、コードデプロイ(Jenkinsとの統合など)といった運用関連のタスクをデータ駆動で自動化できます。実稼動環境全体でクローズドループの自動化(リアルタイム運用データに基づいた自動的な対応)を構築することで、リアルタイムなアラートデータ(異常検知)をトリガーとして自動ロールバックや自動修復といった高度な操作を実行できるため、平均解決時間(MTTRデータ)を大幅に短縮できます。これは、運用レジリエンス向上における自動化のメリットを示唆するものです。
Everything as Code (EaC)の取り組みは、オブザーバビリティも例外ではありません。Observability as Codeの考えの背景には、ディテクターデータ(異常検知ルール)、アラートデータ、ダッシュボードデータといったオブザーバビリティアセット(運用データ分析・可視化資産)の開発、デプロイ、テスト、共有をコード(設定ファイルやスクリプト)で行うという発想があります。監視やアラートを「as Code」で行う場合は、チャート、ダッシュボード、アラートの作成と保守をサービスライフサイクル(ソフトウェアの計画、開発、デプロイメント、運用、廃止までの一連のプロセス)の一環として自動化します。そうすることで、可視化やアラート(運用データに関する設定)が、無秩序に陥ることなく、常に最新の状態にデータに基づき保たれ、リポジトリの一元化を通じてバージョンを管理できるといったメリットが得られます。これは、オブザーバビリティ関連の設定管理を効率化し、構成の整合性をデータに基づき維持するための重要なアプローチです。データコンサルタントとして、開発ライフサイクル全体でのオブザーバビリティ導入と、「as Code」によるデータ資産管理の自動化を推進し、データ駆動型DevOpsの実現を支援します。
データコンサルタント視点から見る組織文化、ビジネス戦略、およびデータ駆動型パフォーマンス測定におけるオブザーバビリティの役割
データコンサルタントの視点から見ると、組織文化とビジネス戦略においてオブザーバビリティは不可欠なデータ関連投資です。特に昨今では数秒のダウンタイムが数百万ドルの損失(経済的損失データ)に繋がりかねない状況であり、その重要性はますます高まっています。また、オブザーバビリティによってDevOpsチームの守備範囲はさらに広がり、組織のレジリエンス(回復力)や円滑なカスタマーエクスペリエンスデータ(サービス利用体験)をもデータ分析に基づいて支える存在になりつつあります。これは、オブザーバビリティが単なる運用ツールではなく、ビジネス継続性と顧客満足度向上に貢献する戦略的なデータ活用能力であることを示唆します。
ビジネスパフォーマンス測定の中枢機能としてのオブザーバビリティ
パフォーマンスに優れたアプリケーションや円滑なカスタマーエクスペリエンスデータを提供するには、システムの信頼性データが重要ですが、オブザーバビリティなしでは信頼性をデータに基づいて確立することは困難です。オブザーバビリティがなければ、運用上の課題に対し、データに基づいてどこに時間とリソースを割くべきか、どのようにして信頼性を評価するのか(可用性測定データ、パフォーマンス測定データ)、そしてその時点のシステムの本当の状態をどのようにデータで把握するのかといった判断が困難になります。データの時代においては、開発から実稼動まで、デリバリーの各ステージで成果物の状態をデータによって確認する必要があります。オブザーバビリティを取り入れることで、CPU使用率データやスタックの各ステージにおける基本的なメトリクスデータのみならず、ユーザーエクスペリエンスデータ、SLXパフォーマンス結果データといったビジネスニーズに応じた主要メトリクスもデータ可視化できるようになります。クラウドネイティブな環境では、ある顧客に対するサービスの小さな遅延でさえ、運用データ分析の結果としてレイテンシの増大リスクデータに発展する可能性があり、これらのビジネス関連のメトリクスを詳細にデータ把握することの重要性を強調できます。
ビジネス成果測定KPIとデータ利用の理解
ビジネスの成果をデータに基づいて測定するための主要業績評価指標(KPIデータ)と、その関連データを組織の各チームがどのようにデータ分析し利用するかを理解することが重要です。そうすることで、以下のデータ関連の活動が可能になります。
監視データに必要なディメンション(データ分析軸)をデータに基づき予測する。
基盤インフラデータからアプリケーションデータやマイクロサービスデータまで、スタック全体の運用データをデータ相関付けする。
組織のデジタルビジネス全体の運用データとビジネスデータをデータ相関付けする。
具体的な例として、アマゾンウェブサービス(AWS)で稼動しており、ユーザーが世界中にいるアプリケーションのケースをデータ分析に基づき考えます。地域ごとのエンドユーザーエクスペリエンスデータ(UXデータ)を完全に理解するには、AWSのリージョンデータやアベイラビリティーゾーンデータに基づいて、ユーザー、マイクロサービス、インフラに関する運用データを詳細にデータ分析できることが重要です。必要なメタデータ(データに関するデータ、例えばサービスのデプロイ地域、インスタンスIDなど)が事前にデータとして把握できていれば、はじめから可視化機能をデータ収集・表示の観点から適切に設定できます。これは、データスキーマ設計とデータガバナンスの重要性を示唆します。
オブザーバビリティをサービスとして提供すること
オブザーバビリティを組織内のチームや外部顧客に対してサービスとして提供することの可能性もデータコンサルタントとして考慮すべきアプローチです。これは、オブザーバビリティによって収集・分析された運用データを、他のチームや顧客がデータ活用できるようなデータサービスとして提供するアプローチであり、データプラットフォーム戦略の一部となり得ます。データ駆動型組織においては、オブザーバビリティを単なる運用監視ツールではなく、ビジネスの意思決定とサービス改善を加速するデータプラットフォームの中核と位置づけることが重要です。
データコンサルタント視点から見るビジネス成功に向けたオブザーバビリティ戦略と可観測性への移行
データコンサルタントの視点から見ると、ビジネスの成功にオブザーバビリティは不可欠なデータ関連要素であるにも関わらず、組織の中核機能になっていないことが少なくない現状を分析します。クラウドジャーニー(クラウドへの移行と活用)を支援できるSplunkのようなオブザーバビリティソリューションプロバイダーをパートナーとすることの重要性を述べる価値は高いと言えます。Splunk Observability Suiteのようなソリューションは、監視、トラブルシューティング、調査といった運用データ分析ワークフローをシームレスかつ効率的にし、問題のデータ検出から解決までをわずか数分で完了できるように設計されています。特定のベンダーソリューション(Splunk Observability Suite)は、カスタマーエクスペリエンスに関する情報(ユーザーエクスペリエンスデータ)を必要とするフロントエンド開発者、APIやサービスに関する運用データに関わるバックエンド開発者、日々オンコール対応を行うSREなど、データ活用ニーズを持つあらゆるユーザーに対し必要なインサイト(運用データ分析結果)を提供し、コラボレーションを円滑にして障害をデータに基づき迅速に解決できるよう支援する機能を備えています。
監視から可観測性へのデータ駆動型移行
クラウドの複雑性データ(分散、動的変動)に関する重要な要素として、従来の監視ソリューションの限界を見逃してはなりません。従来のソリューションは、調整、更新、パッチ適用によってクラウドの需要に対応してきたというよりは、問題をデータとして先送りする傾向があり、最終的にはデータに基づいた全体像の把握不足から運用が破綻するリスクを伴うと分析できます。従来のソリューションはクラウド環境向けに設計されていないだけでなく、その多くは自身に備わるデータ収集・分析上の盲点に無自覚であり、クラウドに基づく変革によって生じる膨大な量のサービス、アプリケーション、インフラの変更を監視し管理するために不可欠な全体像(エンドツーエンドのデータ可視性)が把握できていません。従来の監視ツールは、よりシンプルな環境で「知られていると知られているもの」(事前に定義されたメトリクスやログパターン)だけをデータ収集・分析対象としているという限界があります。
最新アーキテクチャのデータ量と可観測性の必要性
1つのアプリケーション内部でも、何千にもおよぶマイクロサービスとサーバーレス機能が緩やかに結合しており、これらが複数のオンプレミス環境とクラウド環境にまたがっていることもあるといった、最新アーキテクチャが生成する運用データの量、種類、速度に関する現状をデータ分析に基づき理解する必要があります。組織は、量や種類、速度に関係なく、すべての運用データをデータ収集してすばやくデータ分析しなければならない点を強調します。従来の監視方法では、このデータ量と複雑性に対応するには不十分です。チームに「可観測性」(システム内部の状態を運用データから推論する能力)が必要とされるのは、メトリクスデータ、トレースデータ、ログデータといった運用データをデータ分析して、問題の発生したタイミング、場所、理由(根本原因)をデータに基づいて見つけ出すことができるからです。
可観測性による「知らないことを知らないこと」の視野拡張とDX促進
可観測性という新しいデータ分析能力があってこそ、「知られていると知られているもの」(予測可能な問題)だけにデータに基づいて行動するのではなく、発生の可能性すら認識されていなかった問題である「知らないことを知らないこと」(未知の障害、運用データにおける予測不能な異常パターン)も視野に入れてデータ分析・対応できるようになります。これは可観測性の背後にある基本的なデータ駆動型思考です。また、組織が自身のレガシーサービス(運用データ量が比較的少ない、単純なアーキテクチャ)だけを監視するのではなく、可観測性戦略にデータに基づき投資してデジタルトランスフォーメーション(DX)を促進しなければならない理由でもあります。従来の監視方法では、現代の複雑な環境に対応するには不十分であり、チームに「可観測性」が必要とされるのは、メトリクスデータ、トレースデータ、ログデータといった運用データを分析して、問題の発生したタイミング、場所、理由(根本原因)をデータに基づいて見つけ出すことができるからであることを改めて強調します。
運用環境の未来予測とデータ駆動型変革の加速
2022年の予測(IT運用/オブザーバビリティ編)で示されたように、クラウド導入の加速、DevSecOpsの普及、カスタマーエクスペリエンスの新たな戦場といったトレンドは、運用環境の複雑性とデータ量の増加をさらに推進しており、データ駆動型変革の未来は加速し続けることを示唆します。データコンサルタントとして、これらのトレンドを踏まえ、組織がデータ管理とオブザーバビリティ能力を強化することの戦略的な重要性を提言します。データ駆動型運用の成熟度を高めることは、将来の運用環境の変化に対応し、ビジネスの成功を持続させるために不可欠です。
データコンサルタント視点から見るクラウド移行後の運用課題とオブザーバビリティによるデータ駆動型CX向上
データコンサルタントの視点から見ると、2020年以降のデジタルトランスフォーメーション(DX)とクラウド導入の急加速というデータに基づいたトレンドは、IT環境に大きな変化をもたらしました。この流れは、多くの組織でITインフラのモダナイズが必要な領域が残っていること、そして不確実性データが継続していることが要因であると分析できます。特定の関係者が述べるように、クラウドは不確実性に対応するための最適なプラットフォームであるという認識はデータ分析に基づいても支持されます。当初はパンデミック対策として緊急に行われたクラウド移行であったが、今後はセキュリティデータやリソース管理データに対する厳格なデータ管理が求められる点を指摘できます。パンデミックを長年計画実行の機会と捉え、既存の変革ロードマップを推進した組織のデータに基づいた合理性にも言及する価値はありますが、デジタルトランスフォーメーションをデータ駆動で加速し続けていくことには、その規模の大きさや絶対的な重要性といったデータ管理上の課題も伴う点を強調すべきでしょう。
カスタマーエクスペリエンスの次の戦場としてのオブザーバビリティ:データ駆動型CX理解
かつては、クラウドサービスを早期に導入した組織がカスタマーエクスペリエンス(CX)競争で優位に立っていましたが、クラウド導入が広まった今、それはもはや競争の差別化要因データではなく最低条件となっています。そして、新たな差別化要因となるのがオブザーバビリティである点をデータコンサルタントとして提言します。
今日のアプリケーション環境における顧客とのやり取り観察と監視の課題
顧客とのやり取り(サービス利用に関する運用データ)をデータに基づいて観察することは常に重要課題です。今日のアプリケーションやサービスは流動的であるため、アプリケーションパフォーマンスの監視(運用データ監視)は困難性を増しています。ステートフルな環境であれば、アプリケーションの処理に関する運用データの一部をサンプリングし、問題が見つかったら顧客とのやり取りを開始から完了まで運用データを追跡するといった従来の方法も可能でしたが、この方法はデータ収集の網羅性に限界があり、完璧ではないことを述べるべきでしょう。
ステートレス/サーバーレス環境における運用データ収集と分析の課題、そしてオブザーバビリティの必要性
一方、ステートレスでサーバーレスなクラウドベース環境で問題(運用データにおける異常)をデータ検知し、時間(運用ログデータ、トレースデータなど)をさかのぼって調査するには、数千にもおよぶ動的なAPIデータ(運用データ発生源)で生成されるすべての運用データを収集し、関連するメトリクスデータやトレースデータを効果的にデータ抽出すると同時に、未加工のデータフローを保存しなければならないといった、運用データ管理上の大きな課題が伴います。そこで必要になるのがオブザーバビリティです。オブザーバビリティを実現すれば、複雑に構成されたクラウドサービスのパフォーマンスをリアルタイムデータ(運用データ)で把握し、カスタマーエクスペリエンスデータ(サービス利用体験データ)に影響している問題の原因(根本原因データ)がアプリケーションコードデータ、ユーザーインターフェイスデータ、インフラパフォーマンスデータ(運用データ)のいずれにあるかをデータ分析に基づいてすばやく特定して修復できる点を述べます。これは、データ駆動型運用がCX向上にどのように貢献するかを示すものです。データコンサルタントとして、クラウド移行後の複雑な運用環境において、オブザーバビリティによるデータ駆動型CX向上戦略策定と実行を支援します。