INSIGHT

インサイト

AI×24/365インシデント対応──未知インシデント攻略が起業の切り札に

2025.5.30

RSS

執筆者:鳥海俊輔

1. 「またか…」午前3時のアラート地獄 ― 現場の悲鳴と問題提起

「午前3時の鳴り止まないアラート…また定型的な障害対応か、それとも未知の障害の始まりか?」オンコール対応を経験したエンジニアなら、一度はこんな心境になったことがあるのではないでしょうか。

現代のビジネスにおいて、ITシステムの安定稼働は生命線です。特に、24時間365日、一瞬たりとも止まることが許されないサービスが増える中、インシデント対応のプレッシャーは増すばかり。優秀なエンジニアが疲弊し、イノベーションよりも日々の運用に忙殺される現実は、多くの企業が抱える根深い課題です。実際にエンジニアは本来注力すべき開発業務の最大90%もの時間を運用対応に割かれているケースもあります。

事実、「SREチームの90%が半年以内にオンコール疲れで退職した」という深刻な声も上がっています。
「このまま疲弊し続けるだけで、本当にやらなければいけないことができない」という声は、現場の切実な声と言えるでしょう。

また、IT障害によるビジネス損失は年々増加傾向にあり、2024年には大企業の90%以上で1時間のダウンタイムコストが平均30万ドル(約4,700万円)を超え、そのうち41%の企業では1時間あたり100万ドルから500万ドル以上(約1億5,700万円~7億8,500万円)に達すると報告されています。また、サービス停止は企業の収益だけでなく、ブランドイメージにも深刻なダメージを与えます。

2. 複雑化するシステム、疲弊する現場 ― IT運用が抱える構造的課題

この問題の背景には、IT運用業界が直面する構造的な課題が存在します。

システムの指数関数的な複雑化: マイクロサービスアーキテクチャ、クラウドネイティブ技術の普及により、システムはかつてないほど複雑化。コンポーネント間の依存関係も絡み合い、障害発生時の影響範囲特定や原因究明はますます困難になっています。

SRE人材の不足とバーンアウト: 高度なスキルを持つSRE(Site Reliability Engineer)の需要は高まる一方、供給は追いついていません。結果として、既存のSREに負荷が集中し、バーンアウトが業界全体の大きな問題となっています。

従来型AIOpsの限界: 既存のAIOps(AI for IT Operations)ツールは、多くが既知の問題のパターン化や、膨大な事前学習データに基づいてアラートを発するものが中心でした。しかし、過去に経験のない、予測困難な「未知の未知(Unknown Unknowns)」のインシデントへの効果的な対応や全体的な対応の自動化には限界があったのです。

3. AIがオンコール担当に? ― 注目スタートアップ「Resolve AI」登場

この深刻な課題に対し、生成AIとマルチエージェント技術という最先端の武器を手に立ち向かうのが、米国サンフランシスコを拠点とするスタートアップ「Resolve AI」です。

彼らが提供するのは、ソフトウェア運用のインシデント対応を自律的に行う「AIオンコール担当(AI Production Engineer)」サービス。まさに、人間のSREが担ってきた役割をAIエージェントが代替し、24時間365日体制でシステムを守ることを目指しています。

Resolve AIのプロダクト概要

Resolve AIの中核を成す「AI Production Engineer」は、以下のステップを通じてインシデント対応プロセス全体を自律的に実行します。

1.アラートの自動受信と高度なトリアージ


既存の監視・アラートツール(Datadog、Prometheus、PagerDutyなど多数)とシームレスに連携し、発生するすべてのアラートをリアルタイムで取り込みます。
取り込んだアラートに対し、AIが即座にその重要度や緊急度を評価。人間のエンジニアによる即時介入が必要なものと、AI単独で対応可能なもの、あるいは経過観察でよいものなどを的確に振り分け(トリアージし)ます。これにより、エンジニアは本当に重要な問題に集中できます。

2.「知識グラフ」を活用した自律的な根本原因分析(RCA)


AIの内部には、顧客システムの構成情報、サービス間の依存関係、過去のインシデント履歴などを構造化した「知識グラフ」が構築・維持されています。
インシデント発生時には、この知識グラフを基盤とし、関連するログ、メトリクス、トレース情報、さらには直近のコード変更履歴やデプロイ情報などを多角的に参照。数分以内という迅速さで根本原因の仮説を複数生成し、データに基づいて検証します。

3.安全ガード付き自動修復アクションの実行


特定された根本原因に基づき、システムの再起動、リソースのスケール調整、問題のあるバージョンのロールバックといった修復オペレーションを、あらかじめ設定された安全ガード(例:影響範囲の制限、実行回数上限など)の下で自律的に実行します。
より慎重な対応が求められる場合や、顧客のポリシーに応じて、修復アクションを実行する前にSlackやインシデント管理システム(例:Jira Service Management)を通じて対処案を人間のエンジニアに提示し、承認を得てから作業を開始するオプションも柔軟に提供します。これにより、AIの自律性と人間の監視・統制をバランス良く両立させます。

Resolve AIの核心的価値 ― 未知への挑戦: 特に注目すべきは、Resolve AIが既知のインシデントの自動対応に留まらず、過去に経験のない未知のインシデントに対しても、その場で根本原因を推論し、有効な対応策を導き出す可能性を追求している点です。これが実現すれば、従来の自動化ツールとは一線を画し、真の意味でプロアクティブなインシデント管理への道が開かれるかもしれません。

企業情報

  • 会社名: Resolve AI
  • 本社所在地: 米国カリフォルニア州サンフランシスコ
  • 最新の調達ラウンド: シードラウンド
  • 資金調達総額: 3,500万ドル
  • 主な株主: Greylock Partners(リード)、Unusual Ventures、Fei-Fei Li(スタンフォード大学教授)、Jeff Dean(Google DeepMind チーフサイエンティスト)、Reid Hoffman(LinkedIn 共同創業者)、Matt Garman(AWS CEO)
  • 公式ホームページ: https://resolve.ai

4. Resolve AI導入の成果と工夫

Resolve AIの革新的なAIソリューションが、実際のIT運用の現場でどのように活用され、どのような成果をもたらすのか。そして、その価値を企業がスムーズに享受するために、Resolve AIはどのような工夫を凝らしているのか。本セクションでは、具体的なユースケースと導入効果、そして顧客と「共創」する独自の導入プログラムについて詳しく解説します。

デザインパートナーシップから生まれる具体的な成果:顧客の声とユースケース

顧客の声が示す効果: Blueground社 (不動産テクノロジー)

大手不動産テクノロジー企業である Blueground社のCTO、Stratos Pavlakis氏は、Resolve AIの導入による変化を次のように証言しています。

Resolve AIはトリアージプロセスを迅速化し、本番運用を標準化することで、私たちがより自信を持って迅速に機能を拡張し、リリースすることを可能にしてくれます。」

Resolve AI 公式HPより

このコメントは、Resolve AIが単に技術的なインシデントを解決するだけでなく、ビジネス全体の俊敏性向上や運用基盤の強化といった、より広範な戦略的価値を提供し始めていることを示唆しています。具体的には、障害発生時の迅速な初期対応(トリアージ)、運用プロセスの標準化による品質向上、そしてその結果としての開発サイクルの加速と信頼性の高い機能リリースが期待されます。

Resolve AIがもたらす具体的な導入効果

1. オンコールエンジニアの生産性75%向上

Resolve AIは、自社のウェブサイトで「運用上のトラブルシューティングを自動化することで、オンコールエンジニアの生産性を75%向上させる」と公表しています。これは、エンジニアが繰り返されるアラート対応や原因調査といった時間のかかる受動的な業務から大幅に解放されることを意味します。その結果、エンジニアはシステムの信頼性向上のためのプロアクティブな改善活動、新しい技術の導入検討、アーキテクチャ設計、自動化ツールの開発や運用プロセスの最適化といった、より戦略的で付加価値の高い業務に集中できるようになります。

2. 導入企業が享受する本質的な価値

生産性向上に加えて、Resolve AIの導入は企業に以下のような本質的な価値をもたらします。

劇的なMTTR(平均修復時間)短縮
24時間365日、AIが即応することで、インシデントの検知から解決までの時間を大幅に短縮し、サービス可用性を向上させます。

運用コストの最適化
エンジニアの対応工数削減はもちろん、ダウンタイムによるビジネス機会の損失を最小限に抑えます。

SREチームの戦略的価値向上
アラート対応という受動的な業務から解放されたSREチームは、よりプロアクティブな信頼性向上活動やイノベーションに貢献できます。

「未知のインシデント」への対応力強化
過去の経験則だけに頼らず、AIが持つ推論能力と網羅的なデータ分析力を駆使することで、予期せぬ問題にもより効果的に対処できる可能性が生まれます。

スムーズな導入と価値実現への「工夫」:オンボーディングとデザインパートナープログラム

このようなシステムは導入をしてもらうのが一番難しい問題です。そこでResoleve AIは以下のような工夫をしています。

1. 顧客成功へのコミットメント:オンボーディングとサポートの基本姿勢

Resolve AIは、単に製品を提供するだけでなく、顧客がその能力を最大限に引き出し、ビジネス成果に繋げられるよう、導入の初期段階から密接に連携し伴走します。

専任のサポート体制
セットアップ、環境設定、ナレッジグラフの構築、AIのトレーニングといった初期導入フェーズでは、専任のオンボーディングチームやカスタマーサクセスエンジニアが顧客をきめ細かくサポート。技術的な疑問や運用上の課題に迅速に対応し、スムーズな立ち上がりを実現します。

実践的なトレーニングプログラム
導入企業のエンジニアがResolve AIを効果的に活用し、AIエージェントと協調してより高度なIT運用を実現できるよう、実践的なトレーニングセッションやワークショップが提供されます。

2. 価値共創の核心:「デザインパートナープログラム」(目標4週間オンボーディング・プロセス例)

Resolve AIの顧客中心アプローチを最も象徴するのが、先進的なSRE組織を対象とした「デザインパートナープログラム」です。このプログラムは、約4週間という短期間で具体的な成果を出すことを目指し、Resolve AIの価値検証、顧客環境への最適化、そして自律運用レベルの段階的引き上げを、顧客と一体となって推進します。

プログラムの理念: デザインパートナープログラムは、Resolve AIが実際の運用現場のニーズを深く理解し、真に役立つ機能を開発するための「共創」の場です。パートナー企業は最新技術へ早期にアクセスできると同時に、Resolve AIは貴重なフィードバックを得て製品を磨き上げます。

フェーズ1: スクリーニングと準備(約1週間)

対象の明確化: 月に60件以上のSev-1/Sev-2アラートを経験しているなど、インシデント対応に大きな課題を抱えるSRE組織を主な対象とします。

情報共有と契約: 顧客から環境構成シートなどを提出いただき、NDA(秘密保持契約)およびSOW(作業範囲記述書)を締結してプログラムを開始します。

フェーズ2: 接続とサンドボックス環境での検証(約1週間)

安全なシステム連携: 読み取り専用IAMロールを用い、顧客のAWS、Kubernetes、PagerDutyなど主要システムとResolve AIを安全に接続します。

AIモデルの初期評価と最適化: 過去90日間のインシデントデータをリプレイ検証し、AIによる根本原因分析の正答率70%以上、誤った修復提案ゼロ件を目標にAIモデルを顧客環境に最適化します。

フェーズ3: 本番環境でのHuman-in-the-Loop(人間参加型)運用(約1~2週間)

AIによる修復案提示と人間による実行承認: AIが本番インシデントの修復案をSlackなどに投稿。担当エンジニアが確認し、「/approve」コマンドなどで実行を承認します。

効果測定と定量的目標によるレビュー: MTTRや夜間アラート対応件数を自動集計し、週次レビューで効果を検証。「MTTRを40%削減」「夜間アラート対応件数を50%削減」などを目標とします。

フェーズ4: 自律運用レベルの引き上げ(約1週間)

段階的な自律実行への移行: 効果と安全性が確認されたTier1/Tier2レベルの障害は、AIによる自律的な修復実行へと移行します。

安全対策の徹底: 自動修復失敗時のためのロールバック用ランブックを設定・検証。「AIによる自律解決率70%以上」「ロールバック成功率100%」を目指します。

最終フェーズ: ROIレポート作成と商用契約への移行

投資対効果の明確化: 削減できたエンジニア工数をSREの人件費単価で金額換算し、具体的なROIを算出。Resolve AIの利用量ベース料金と比較した評価レポートを提示します。

長期的なパートナーシップへ: 12~24ヶ月の利用契約を締結し、可能であれば導入事例を共同公開することで、Win-Winの関係を構築します。

5.日本市場への道:特有の文化と構造を乗り越え、AIによる運用革命をどう起こすか

Resolve AIのような革新的なAIオンコールソリューションにとって、日本市場は大きな潜在力を秘めています。深刻化するIT人材不足やデジタルトランスフォーメーション(DX)への強い希求は、運用自動化・自律化技術への関心を高めているからです。しかし、その門を叩く際には、米国をはじめとする海外市場とは異なる、日本特有のIT運用文化と業界構造という「壁」を理解し、巧みに乗り越える戦略が不可欠となります。

日米IT運用文化と業界構造のコントラスト

日本市場と米国市場においては以下のような、違いが見られます。

米国型(内製化とSRE主導の改善文化)
多くの米国テック企業、特に先進的な企業では、SREやDevOpsエンジニアがビジネス部門と密接に連携し、システムの信頼性向上や運用効率化を主体的に推進する文化が根付いています。彼らは新しい技術やツールに対する感度が高く、自らの判断で優れたツールを選定・導入し、継続的な業務改善(カイゼン)に活かすことが一般的です。開発と運用が一体となり、内製でスピーディに意思決定が行われるため、革新的なソリューションの導入も比較的迅速に進む傾向にあります。

日本型(外部委託中心と多層的な意思決定構造)
一方、日本の多くの企業、特に伝統的な大企業においては、長年にわたりITシステムの開発・運用を情報システム子会社や外部のシステムインテグレーター(SIer)、ベンダーに委託してきた歴史があります。この結果、ユーザー企業本体には最先端の運用ノウハウや技術知見が蓄積しにくく、IT部門は企画管理やベンダーコントロールが主業務となるケースも少なくありません。
この構造は、新しいツールの導入検討において、発注者であるユーザー企業、実際に運用を担う子会社や大手SIer、さらにその先の協力会社といった複数の組織が関与する、多層的で時間のかかる意思決定プロセスを生みがちです。また、実績の少ない革新的なツールの導入には慎重な姿勢が見られることも特徴です。DevOps/SREといった概念の認知度は高まっているものの、その実践レベルや文化としての定着度合いは、企業や組織によって大きなばらつきがあります。

この「壁」がAIインシデント対応スタートアップにもたらす課題

このような日米間の違いは、Resolve AIのようなAIインシデント対応スタートアップにとって、日本市場参入時の特有の課題を生み出します。

リーチと訴求の難しさ
米国のように、直接SRE/DevOpsエンジニアにアプローチし、技術的な優位性や効率化効果を訴求するだけでは、導入決定に至りにくい場合があります。ツールの選定権限や予算執行権限が、より上位の部門や、場合によっては外部委託先にあることも珍しくありません。


導入リードタイムの長期化
関係各所との調整、稟議プロセス、既存システムへの影響評価、セキュリティ要件の確認などに時間を要し、PoC(概念実証)から本格導入までのリードタイムが長くなる傾向があります。

Resolve AIが日本市場で成功するための「戦い方」

Resolve AIのような革新的AIスタートアップが、日本の複雑なIT市場で成功を収める鍵は、エンドユーザー企業への直接的なアプローチと並行し、あるいはそれ以上に、日本のITサービス提供の中核を担うSIerを最重要パートナーと位置づけ、彼らのビジネスを「エンパワーメント(強化・能力向上)」する戦略が良いと私は考えます。これは、米国型とは異なる日本独自の市場構造と、SIerが持つ顧客との強固な信頼関係を最大限に活用するアプローチです。

なぜ「SIer中心戦略」が日本で有効なのか?

既存の顧客接点と信頼関係の活用

上記の通り、日本の多くの企業、特に大企業や中堅企業は、長年にわたり特定のSIerと緊密な関係を築いています。SIerは顧客のシステム環境、運用課題、ビジネス文化を深く理解しており、新しい技術やソリューションを提案する上で、既に強固な信頼基盤を持っています。この既存のチャネルと信頼を活用できれば、市場への浸透スピードを格段に早めることができます。

「運用丸ごと委託」文化への適合

前述の通り、日本企業はIT運用をSIerやIT子会社に包括的に委託するケースが一般的です。この状況下では、エンドユーザー企業が主体的に個別の運用ツールを選定するよりも、信頼するSIerが「運用サービス全体の効率化・高度化」の一環としてResolve AIのようなソリューションを組み込み、提案する方が受け入れられやすい傾向にあります。

SIer自身の課題解決とビジネス変革への貢献

SIerもまた、IT運用における人材不足、コスト圧力、そして顧客からのより高度なサービス要求といった課題に直面しています。Resolve AIのようなソリューションを導入することで、SIerは自社の運用サービス提供能力を飛躍的に向上させ、コストを削減し、エンジニアをより付加価値の高い業務(例:顧客へのDX提案、コンサルティング)にシフトさせることが可能になります。これはSIer自身のビジネス変革にも繋がります。

日本市場へのローカライズとサポート体制の強化

SIerは日本市場の商習慣、言語、規制に精通しており、Resolve AIのようなソリューションを日本の顧客に最適化する上で不可欠な知見を提供できます。また、SIerが一次サポート窓口となることで、きめ細やかな日本語サポート体制を迅速に構築できます。


これらのように最新技術を一方的に持ち込むのではなく、日本のIT運用文化を尊重しつつ、その変革を支援する「伴走者」としてのスタンスを示すことで、長期的な信頼関係を築くことができると私は考えます。

6. まとめ ― AI SREが変えるIT運用の未来と起業家へのヒント

Resolve AIの挑戦は、生成AIとエージェント技術が融合することで、従来のAIOpsの限界を打ち破り、インシデント対応のあり方を根本から塗り替える大きな可能性を示しています。特に、24時間365日体制での自律的な対応能力と、人間でも困難な未知のインシデントにも立ち向かえる潜在力は、多くの企業が長年抱えてきた運用課題に対する一条の光と言えるでしょう。

将来的には、Resolve AIのようなAI SREは、発生した問題に事後対応するだけでなく、障害の予兆を検知し、未然に防ぐプロアクティブな役割、さらにはシステムの自己修復・自己最適化まで担うようになるかもしれません。人間とAIが真に協調し、よりレジリエントで、より革新的なIT運用が実現する未来は、そう遠くないのかもしれません。

「生成AI起業のヒント」では、ANOBAKAが注目している海外の生成AIスタートアップを取り上げて、生成AIの活用方法を分析・解説していきます。
生成AI領域で起業を考えられている方にとって事業のヒントとなれば幸いです。


ANOBAKAでは、日本において生成AIビジネスを模索する起業家を支援し、産業育成を実現する目的で投資実行やコミュニティの組成等を行う、生成AI特化のファンドも運用しております。

生成AI領域で起業したい、ANOBAKAメンバーと話してみたいという方はぜひお問い合わせよりご連絡ください!

お問い合わせ

ANOBAKAコミュニティに参加しませんか?

ANOBAKAから最新スタートアップ情報や
イベント情報をタイムリーにお届けします。