執筆者:川野孝誠(@_takamasaaaaa_)
長らく音声技術は、スマートスピーカーの音声認識やナビゲーションシステムの自動音声案内といった補助的な役割に留まっていました。しかし近年、AIの進化によって音声生成技術の品質が飛躍的に向上し、より高度な活用が広がりつつあります。単にテキストを音声に変換するだけでなく、感情やニュアンスを伴った自然な発話が徐々に高精度で再現できるようになっており、音声AIは実用化に向けた新たなフェーズを迎えています。
こうした変化を象徴するように、2025年1月にはElevenLabsがシリーズCラウンドで1億8,000万ドル、Hippocratic AIがシリーズBラウンドで1億4,100万ドルという音声AIスタートアップの大型調達が目を引きました。ElevenLabsはテキストをリアルな音声に変換する高精度な合成技術を提供し、動画やオーディオブック、ナレーションといった音声コンテンツの制作を大きく変革しようとしています。そしてHippocratic AIは、医療現場で対話による患者のケアなどを担うAIエージェントの開発に取り組み、安心・安全、そしてハイクオリティな医療サービスを提供することを目指しています。こうしたスタートアップの台頭は、音声AIの進化が新たな市場の形成を促進しており、私たちの生活へ徐々に深く組み込まれつつあることを示しています。
今回は、2025年の大きな盛り上がりが期待できる音声AI領域にフォーカスし、先月に資金調達を発表したばかりの海外の最新スタートアップを何社か取り上げながら日本市場での可能性を探ってみたいと思います。
「生成AI起業のヒント」では、ANOBAKAが注目している海外の生成AIスタートアップを取り上げて、生成AIの活用方法を分析・解説していきます。
生成AI領域で起業を考えられている方にとって事業のヒントとなれば幸いです。
海外の最新音声AIスタートアップ
2024年、音声AIスタートアップによるベンチャーキャピタルからの総資金調達額は3億9,800万ドル(約600億円)を超えました。市場規模も約25億ドル(約3,840億円)と推定されており、2023年の約19億ドル(約3,000億円)から130%ほどの成長となっています。そして、2030年までの今後6年間で市場は約98億ドル(約1兆円)にまで到達すると見込まれています。

リアルタイム音声処理技術などの進展により新たなユースケースが続々と生まれていることが、VCからの期待値を高めていることは間違いありませんが、元より現代の私たちにとって「音声」というインターフェースは最も馴染みやすいということも、音声AI市場の急激な成長の後押しになっているのだと思います(「Hey, Siri!」が代表例ですね)。
ということで、そんな音声AI市場における最新事例として、今回は下記の5社を紹介していきます!
- Mercor – 企業と求職者のマッチングプラットフォーム
- maki – 人事業務を自律的に実行する会話型AIエージェント
- GetVocal AI – 会話型AI電話エージェント
- Boardy – ビジネスマッチングプラットフォーム
- Matin – 個人用のAIアシスタント
1. Mercor

Mercor(メルコア)は、ジャック・ドーシー氏(Twitter共同創業者)やピーター・ティール氏(PayPal, OpenAI, Palantir共同創業者)も個人で出資しているHR領域のスタートアップで、生成AIを活用した採用プラットフォームを提供しています。これまでの職務経験や学歴など、“履歴書上の見た目”だけで本来は優秀な人材が選考フローから不当に排除される状況を解決することを掲げ、2023年8月に創業されました。
求職者は、自身の履歴書やポートフォリオをアップロードして、AIと20分間面接をするだけで準備完了です。このAI面接官に、自然言語処理(NLP)と音声認識技術が活用されています。面接終了後は、世界中の企業から集まった数千もの募集の中から、適切な職種とマッチングするのを待つだけです。また、下記画像のように模擬面接もいくつか用意されており、求職者は実践的な面接練習を行うこともできるようになっています。

基本的にはMercorのAIが履歴書などの確認→1次面接→最適な求人とのマッチングまでを行なってくれるため、企業がやることはマッチングした候補者の中から採用したい人材を選択するだけです。また、「I want a full-time python developer, with computer vision experience, 6k/month(コンピュータビジョン経験があり、フルタイムで勤務可能なPython開発者を月6,000ドルで探しています)」のように自然言語で条件を指定することでも、適切な候補者を特定することができます。
設立当初のMercorは、インドのエンジニアと米国スタートアップのマッチングに取り組んでいましたが、わずか数カ月で年間収益は100万ドル(約1億4,300万円)の規模にまで成長しました。そして、今でも毎月50%のペースで伸びており、既に黒字化も果たしているとのことです(設立は2023年8月です)。24年9月にBenchmarkがリードを務めたシリーズAラウンドでの時価総額は2.5億ドルでしたが、わずか4ヶ月後に行われた本ラウンドでは時価総額20億ドルと、およそ10倍近くにまで時価総額が跳ね上がっていることからも、現在急成長中の音声AIスタートアップとして業界のリーディングカンパニーにこれから名を連ねていく企業だと言えます。
企業情報

- 会社名:Mercor
- 本社所在地:サンフランシスコ(アメリカ)
- 最新の調達ラウンド:Series B
- 資金調達総額:7,500万ドル
- 主な株主:General Catalyst, Benchmark, Link Ventures, Soma Capitalなど
- 公式ホームページ:mercor.com
2. maki

makiは、会話型AIエージェントを活用した人材採用・管理プラットフォームを提供しているスタートアップで、「労働成果を提供する」というビジョンに則り、ソフトウェアではなくデジタル従業員としてAIエージェントを提供している点が特徴です。
MakiのAIエージェントは、採用候補者のソーシングから面接、選考までのプロセスを包括的に管理し、人事担当者の業務の80%を自動化します。特に、音声・ビデオ・テキストを統合したマルチモーダル対応によって候補者との対話がよりスムーズになる点や、リアルタイムデータを活用した動的な意思決定を可能にする点が強みです。また、50カ国以上の労働法規や企業文化に適応できる柔軟性を持ち、導入企業ごとの人事ポリシーに沿って運用することができます。
こうした特徴から、makiのAIエージェントはH&MやBNPパリバ、デロイトなどのFortune 500企業にも導入が進んでおり、採用期間が従来の3分の1に短縮され、人事部門の負担が大幅に軽減されたとのことです。

また、makiのAIエージェントは単に採用を効率化するだけでなく、採用後の従業員の定着率向上にも寄与します。
- ハード/ソフトスキル両面での評価や組織文化への適合性の予測により、組織文化とのミスマッチを42%削減
- 性別・年齢・人種情報をマスキングした構造化面接によりバイアスを低減し、多様性指標を35%向上
- 従業員のパフォーマンスデータと離職リスク要因(勤務時間やプロジェクト負荷など)の分析を行い、ハイリスク従業員を93%の精度で特定
- 音声AIを活用したボイストーン分析により89%の精度で従業員のストレス検知
結果として、makiのAIエージェントを導入した企業では、離職率が20%削減され、従業員のエンゲージメント向上にも寄与しています。
企業情報

- 会社名:maki
- 本社所在地:パリ(フランス)
- 最新の調達ラウンド:Series A
- 資金調達総額:3,800万ドル
- 主な株主:DST Global, Blossom Capital, Global Founders Capitalなど
- 公式ホームページ:www.makipeople.com/
3. GetVocal AI

GetVocal AIは、カスタマージャーニーに特化した会話型AIエージェントを提供するスタートアップです。リードジェネレーションからオンボーディング、クロスセル/アップセルに至るまで、各フェーズに特化して自社独自のAIエージェントを構築することができるのが大きな特徴です。
GetVocal AIの会話型AIエージェントを支えているのが「Conversational Maps(会話マップ)」と呼ばれている独自の技術です。この技術は、企業の内部文書や通話記録、ナレッジベースをAIエージェントが学習し、ブランドの価値観に沿った会話フローを構築することを可能にします。エージェントは各通話から得られる回答やコンバージョン率、感情分析、離脱率、インテント分析などのデータを活用して会話マップを成長させ、応答パターンを最適化していきます。

実際に導入企業からは、リード獲得数43%増、週22時間の業務時間削減、接触コスト79%削減といった実績が報告されています。2025年1月にはイギリスのアウトソーシング会社大手のCapitaとの戦略的提携を発表し、270万ユーロの資金調達を完了しました。これにより、公共部門を含む大規模顧客基盤への展開を加速させています。
企業情報

- 会社名:GetVocal AI
- 本社所在地:パリ(フランス)
- 最新の調達ラウンド:Seed
- 資金調達総額:280万ドル
- 主な株主:Speedinvest, Elaiaなど
- 公式ホームページ:https://www.getvocal.ai/
◾️ Boardy

Boardyは、音声AIアシスタントを搭載したビジネスマッチングプラットフォームを提供しているスタートアップです。
このプラットフォームでは、Boardyという名の音声AIアシスタントが、キャリアや目標、興味、個性などの情報に基づいてユーザー同士のマッチングを自動的に行います。こうした情報は、Boardyとユーザーの間で行われる電話での会話を通じて収集されますが、会話内容を分析することで潜在的なニーズやユーザーの個性などもBoardyは収集しています。これにより、単なる属性の一致だけに留まらない高度なマッチングを実現できる点が、Boardyの強みとなっています。
10月にプレシードでの調達とサービスローンチを発表してからわずか3ヶ月ほどでシードラウンドでの調達となりましたが、今回のラウンドをリード投資家として取りまとめたのは、SpotifyやKlarnaといった北欧を代表するスタートアップを支援してきた著名なVC、Creandumです。そしてなんと、今回の資金調達に創業チームは一切関与しておらず、CreandumとAIアシスタントとしてのBoardyの間で終始行われたそうです!
この領域はLinkedInやIndeedなど大手の既存プレイヤーが高い認知度を誇っており、レッドオーシャンだと考えられがちです。しかしBoardyは音声AIを活用し、人間の声が持つ微妙なニュアンスや感情の情報を取り込むことで、既存のビジネスマッチングに新しい価値を生み出そうとしています。
企業情報

- 会社名:Boardy
- 本社所在地:アメリカ
- 最新の調達ラウンド:Seed
- 資金調達総額:1,100万ドル
- 主な株主:Creandum
- 公式ホームページ:https://www.boardy.ai/
◾️ Martin

Martinは、個人用AIアシスタントを開発するスタートアップで、イェール大学とUCバークレーを中退した2人の19歳によって設立されました。
スケジュール管理やメッセージ送信などのタスクをMartinに指示して実行させることができるのですが、自然言語処理と独自の音声認識技術を組み合わせることで、自分の手を使わずに音声のみで情報収集やアプリケーション操作を行うことができる点が大きな特徴となっています。もちろんテキストでもMartinは操作可能で、SMSやメール、Slackなど日常的に使用するコミュニケーションチャンネルには基本的に対応しているのも嬉しい点です。
また、Martinのもう1つの特徴が、Martinとのコミュニケーション回数を重ねていくに連れてパーソナライズ化が強化されていく点です。「カスタム・メモリー・アーキテクチャ」と呼ばれる構造により、ユーザーとのやり取りやフィードバックなどから個性や好みを継続的に学習していきます。これにより、わざわざ指示を出さなくてもユーザーからの指示を推測して自律的に実行してくれるような未来が来るかもしれません(現時点ではまだ青写真でしかありませんが…)
OpenAIの「Operator」やGoogleの「Jarvis」などビッグテックも取り組むパーソナルエージェントですが、強大なライバル企業を相手に19歳という若者がどのように立ち向かうのか、非常に楽しみです。
企業情報

- 会社名:Martin
- 本社所在地:サンフランシスコ(アメリカ)
- 最新の調達ラウンド:Seed
- 資金調達総額:2,500万ドル
- 主な株主:Y Combinator, Pioneer Fund, Splash Capital, Eight Capital, FoundersX Venturesなど
- 公式ホームページ:https://www.trymartin.com/
日本の“音声AI”はこれからだ
先日、名古屋大学が開発した「J-Moshi」という日本語特化のリアルタイム音声対話モデルがすごいと、X上の一部がざわついていました。というのも、相槌や発話のオーバーラップがあまりにも自然すぎて、言われなければAIとは気づかないほどの驚くべきクオリティだったからです。まだおかしな文脈で返答をしたり、会話が思わぬ方向へ逸れていったりすることがあるようですが、オープンソースですので進化の速度には期待できるものがあります。
欧米と比較した時に日本の音声AI市場の盛り上がりが控えめだった要因の1つに、日本語の難解さが挙げられると思います。これまでにも日本語に特化した言語モデルはあったとはいえ、今回のJ-Moshiのように日本語特化の高精度モデルが登場し始めたことで状況が変わる可能性は大いにあります。
現在は、コールセンター業務やカスタマー対応業務など対人間の業務をAIエージェントとして置き換えるか、文字起こや発声による記録、さらには会話の解析など音声情報として活用するかが主なユースケースになっていますが、基本的にはこのユースケースが今後も軸になると考えています(これ以外のユースケースが現状思いついていないだけですが…)。
その上で製造や建設、介護、農業など身体的な労働を基本としていて、だからこそ直感的かつ簡易な操作が受け入れられやすい業界は、手動での操作や写真撮影などから音声へインターフェースが移行した時にそれなりのインパクトが見込めるのではないかと思います。
ということで、音声AIに今まさに取り組もうとしている方がいましたら、ぜひANOBAKAまでご連絡いただけると幸いです!!
ANOBAKAでは、日本において生成AIビジネスを模索する起業家を支援し、産業育成を実現する目的で投資実行やコミュニティの組成等を行う、生成AI特化のファンドも運用しております。
生成AI領域で起業したい、ANOBAKAメンバーと話してみたいという方はぜひお問い合わせよりご連絡ください!
お問い合わせ