未上場10兆円スタートアップ Databricks 創業物語

驚愕のシリーズJ 1.5兆円調達を実現したビッグデータ分析ソリューションを提供するDatabricksは、大学の研究者たちの研究成果で創業した、いわばDeepTech企業でした。現代の未上場企業でもトップクラスの業績と時価総額を誇るスタートアップの創業期に迫ります。
田中 洸輝 (IncubateFund VC) 2025.03.27
誰でも

Databricksは、なぜ注目されるのか

忙しくて全部は読めない or 要点だけ知りたい方のために、

主なポイントを以下に記載します

  • Netflixが公開したビッグデータ分析の懸賞金プログラムが起業の原点に

  • データ量の急速な増加とクラウド移行という大きな2つの波が来た市場での起業

  • 既存解決策Hadoopと付随サービスでも解決しきれていない多くの問題点を解決した

  • プロダクトの原型を大学内で開発し、先に需要を確認してから創業した

  • VCと友人関係にあったことが初期から多額の資金調達を可能にした

  • CEO含めて経営陣を技術サイドからビジネスサイドに刷新し、本格的なPMFへ

  • PMF達成後、データ保管領域、AI領域と事業領域を拡大し10兆円企業へ

Pitchbookより抜粋

Pitchbookより抜粋

***

目次

第1章|創業のきっかけ:Netflixの懸賞金プログラム

第2章|Databricksの創業とPMFまでの成長戦略

第3章|競争戦略の真髄:後追い企業が常識を覆す

第1章|創業のきっかけ:Netflixの懸賞金プログラム

1-1. ビッグデータ時代「データは新たな石油」

2000年代後半、「ビッグデータ」や「非構造化データ」という言葉が IT 業界を席巻し始めました。インターネットの勃興に伴うWebサービスやモバイル端末の普及により、企業や研究者はこれまで扱ったことのない規模のデータに直面し、これらのデータを最適に活用する方法を模索していました。ユーザーが残すクリックログやテキストメッセージ、画像・音声などが指数関数的に増え、それらのデータを保存し、データごとにアルゴリズムを作成し実行する、その結果、膨大な量のコンピューティングパワーを必要とし、従来のリレーショナルデータベースでは処理が追いつかなくなるケースが増加していました。このタイミングでこれらの課題を解決するべく、Hadoopというソリューションが誕生します。

HadoopはGoogle の論文をもとに実装され、データを複数のサーバーに分散して保存し、並列処理する仕組みを提供しました。これにより、1台の高性能マシンを使い続けるよりもはるかに大きなデータを扱えるようになり、多くの先進企業(Yahoo!、Facebook、LinkedInなど)がこぞって採用します。Hadoop は「大規模データを安価に扱う」ための画期的なソリューションとして、“ビッグデータ革命” の先頭に立ったのです。

しかし、Hadoop にはいくつかの制約があり、特に機械学習や反復型の分析では処理効率が低いという大きな課題が露呈していきます。ここにDatabricksの存在意義が浮かび上がってくるわけですが、その始まりをもう少し深く見ていくために、Netflixが果たした役割を振り返ります。

1-2. Netflixのビッグデータ分析 懸賞金プログラム

2006年、DVDレンタルサービスとして名を馳せていたNetflix は、映画のレコメンドアルゴリズムを 10%以上向上させたチームに1.5億円(100万ドル)の賞金を与えるコンテスト「Netflix Prize」を発表しました。しかも公開されたデータセットは45万人以上のユーザーと1.8万件を超える映画タイトル、1億件を上回る評価データを含む膨大なもので、当時の常識を超える“ビッグデータ”の好例でした。(Netflixの意思決定が凄いですが、それくらい困っていたということですかね)

DatabricksのシリーズA(創業初期)の投資家向け資料には、ビッグデータ分析がいかに非効率で困難なものであるかという内容が記載されています。

Databricks Series A Pitch Deck

Databricks Series A Pitch Deck

このNetflixのコンテストには世界中から研究者やエンジニアが集まり、 2009年までになんと5万人がコンテストに参加しましたが、10%の改善要件を満たした人はいませんでした。

“機械学習を使ったレコメンドの高度化”はビジネスになると大きな可能性を示した一方、当時主流のHadoopの課題を明確化しています。先ほど触れた通り、Hadoop は大容量データを安価に分散処理できる基盤としては革命を起こしましたが、技術が広がるにつれ、多くの問題点が注目されるようになります。

  • 遅い
    ・Hadoopは繰り返し計算やストリーミング処理を想定しておらず、単純なクエリ(簡単な検索・処理)でも数分かかってしまうため、機械学習で使うには遅すぎる。

  • 活用が限定的
    ・Java ベースでのプログラミングのため、Pythonなどは使えず、膨大な量のコードを書く必要がある。また、ImpalaやRedshift といった高速な分析ツールはあるものの、SQLの範囲を超えた複雑な処理(例えば非構造化データの処理、ストリーミング分析など)には対応しておらず、使える場面が限られる。

  • 使用が困難
    ・オンプレミスの自社で物理サーバーを保有している前提の設計であり、ノード数を増やすとストレージと計算を同時に拡張せねばならず、クラウド上でのスケールアップ/スケールダウンが柔軟ではない。導入や運用に専門的なスキルや手間がかかる。

こうした制約を乗り越えようと、多くの企業がHadoopの周辺ツールを開発しました。ClouderaやHortonworks、MapRはオンプレでの導入支援やサポートを手厚く行うアプローチでVCから大きな資金調達を受けて成長を遂げた時期もありました。しかし、本質的な解決策であるクラウドネイティブに最適化されたデータ分析ソリューションを待ち望む声が多かったのです。

カリフォルニア大学バークレー校(UC Berkeley)でPh.D(博士号)のレスター・マッキーという人物もNetflixのコンテストに参加を決めた一人で、まさにこの課題に直面していました。その課題を解決するべく、クラスメートの一人であったマテイ・ザハリア(DatabricksのCTOを務め、データ分析業界の伝説と呼ばれるようになる人物)を頼ります。ザハリアは2007年からFacebookやYahooなどHadoopの初期ユーザーと働いていた経験があったため、この課題を深く理解していました。

マッキーを助けるべく、ザハリアはより効率的にアルゴリズムを処理する「Spark」というツールを開発します。Sparkには以下のような特徴を設計に盛り込みました。

  • メモリに保持したまま繰り返し演算できるように設計➨計算速度の向上

  • Scala、Python、R、Javaも含めた複数言語に対応する➨活用範囲の拡張

  • コンピューティングとストレージの分離➨拡張性向上とコストの低減

Databricks Series A Pitch Deck

Databricks Series A Pitch Deck

Sparkを利用した彼らはなんとNetflixのアルゴリズムを10%改善することに成功します。しかし、幸か不幸かNetflix Prize の提出期限を20分すぎてしまっていたため、残念ながらAT&Tのチームが賞金を獲得することになりました。(もし彼らが賞金を獲得していたら、賞金に満足して起業しなかったかもしれないですね)

Sparkの出現は、学術的な観点でも実務的な観点でもインパクトが大きく、GitHub やカンファレンスで急速にコミュニティを広げました。Hadoopの「反復計算の遅さ」を大幅に改善できる一方、クラウド上での動作も視野に入れた設計が多くの企業の興味を引いたのです。その結果、Sparkは Hadoopの次なるステップと期待されるようになり、Databricks 創業へと繋がっていきます。

第2章|Databricksの創業とPMFまでの成長戦略

2-1. Sparkの商業需要を確信し、Databricksを創業

Netflixの懸賞金コンテストを経て、SparkはGitHubやカンファレンスで急速にコミュニティを広げました。Sparkがオープンソースとして広まり始めた2010年前半、多くの企業やエンジニアが「Hadoop + Spark」を実験的に導入しはじめていました。しかし、Sparkはいくら性能が高いとはいえ、企業が本番運用で使いこなすには「運用・保守」「チューニング」「可視化・管理ツール」「セキュリティ」といった要素が不可欠であり、大学の研究チームでしかなかったSparkの主要開発者たちは、この需要に応えるソリューションを商業的に提供する意味があると確信します。

Databricks Series A Pitch Deck

Databricks Series A Pitch Deck

こうして 2013 年頃、UC Berkeleyの研究室AMPLabメンバーを中心にDatabricksが設立されました。

2-2. 「最悪のピッチデッキ」でも投資を勝ち取れた背景

2013年、DatabricksはAndreessen Horowitz(a16z)のベン・ホロウィッツから約1,400万ドル(約20億円)の投資を得ます。その際に用いられたピッチデッキは、彼ら自身も後に「ものすごくひどい」と自嘲するほど簡素で粗末なものでした。

First Pitch deck of Databricks

First Pitch deck of Databricks

しかし、投資家にとっては以下の点が極めて魅力的でした。

  • Sparkの成長:
    学術界・オープンソースコミュニティで支持を獲得しつつあり、Hadoopに代わる次世代フレームワークとして期待を集めていた。

  • 最高峰の頭脳とチーム:
    UC BerkeleyのAMPLabは世界有数の分散コンピューティング研究の拠点です。そこから直接スピンアウトしたチームには技術優位性を感じさせます。

  • ビッグデータと機械学習への需要:
    Netflix Prizeをきっかけに “大規模データを高度に活用する企業ほど競争優位を築ける” という世間の認識は広まっており、Sparkはその欠かせない手段になりうる候補でした。

  • クラウド上で動く新しいデータプラットフォーム:
    将来的にオンプレミスからクラウドへの移行が加速するという予測も広まり始めていたタイミングであり、先駆者となる可能性を感じさせた。

データ分析という巨大な成長と、クラウド化という市場が大きく変革する千載一遇のタイミングに、「Spark」というプロダクトと高い技術力を持った大学発の学術的権威のあるチームがそろっていた点が投資の決定打となりました。さらに幸いだったのは、チームメンバーの一人でUC Berkeleyの教授であるスコット・シェンカーがa16zのベンホロウィッツと友人だったことでした。

2-3. オープンソースのSparkが収益化を困難に

Sparkは無償公開されているため、誰でもダウンロードして使うことができます。この事実は Databricks創業後に収益化しようとするにあたり、大きな障壁となりました。

なぜなら、無料で純分便利なツールを利用できるのにもかかわらず、なぜお金を払ってDatabricks を使う必要があるのか?」という当然の疑問が生まれるからです。これに対し、Databricksは以下の方針を取りました。

  • Sparkコアはオープンソースのまま:
    多くのユーザーが Spark自体を自由に活用でき、コミュニティが発展するようにする。

  • クラウド上の運用を圧倒的に簡単にする付加価値:
    自動スケールやノートブック UI、ジョブ管理、セキュリティ認証などの独自技術・UIを組み込んでいき、有償サブスクリプションで提供する。

  • 企業向けサポート、SLA 保証:
    大規模導入の際のトラブルシューティングや性能チューニングなどを担い、本番運用での安心感を提供する。

これにより、Sparkコミュニティの発展を妨げることなく、企業顧客から継続的な収益を得る仕組みを構築することに成功しました。一部のオープンソース支持者からは「コア機能がどんどん有料化している」という批判もありましたが、Databricks はビジネスとの両立を目指します。

また、2016年になると、本格的にPMFを目指すべく、MBA保有者のアリ・ゴードシがCEOに就任し、エンタープライズソフトウェアの販売経験があるメンバーを中心とした経営陣に再構築します。これによりセールスだけでなく、事業連携などが加速していくことになります。

ただし、創業メンバーのほとんどは会社に留まり(そして多くが今でも関与)テクノロジー部門を主導し続けました。

Databricks Series B Deck

Databricks Series B Deck

2-4. 大企業Microsoftとの協業:成長戦略の転換点

経営陣をビジネスや事業開発経験豊富な人材に再構築したことでDatabricksは大きな成長を遂げることになります。その大きな成長を支えた要因の一つが、Microsoft Azure との協業で誕生したAzure Databricksです。2017年にリリースされ、Azure ポータル上からワンクリックでSparkを利用でき、各種Azureサービス(Data Lake Storage, Power BI, Azure ML など)と連携できるメリットを打ち出しました。

Microsoftが保有する強力な顧客基盤へ短期間でアクセスできるようになったことで、Databricks は大企業への導入事例を一気に拡大させました。また、Azureの成功体験から、彼らはAzure以外のクラウドとも連携していきます。 USの多くの企業は特定のベンダーにロックインされることを嫌う傾向があるため、AWSやGoogle Cloudでも似たような機能を提供していくことで成長をさらに加速させていきます。

当時の検索ワード推移

当時の検索ワード推移

クラウドでの機能を拡張していく点について、2016年当時はオンプレミスのHadoopが一般的で、クラウドにデータを預けることへ懐疑的な企業も少なくありませんでした。

しかしDatabricksはAzureでの成功でクラウド移行の波を肌で感じ取っていました。クラウド移行が爆発的に進むにつれて、Databricksは結果的に大きな先行者メリットを得ることになります。    

このクラウドファーストの方針と大手パートナーとの連携が相まって、Databricksは競合の Cloudera や Hortonworks が苦戦する一方で、急速に評価額を高め、巨大デカコーン企業へと変貌を遂げていきます。

Databricks Series B Deck PMFを証明

Databricks Series B Deck PMFを証明

PMFを証明した2017年以降の5年間で、Databricksは5回の資金調達ラウンドを経て、750億円の評価額から5兆円の時価総額に到達していきます。

  • 2018年のシリーズDで1億4000万ドル調達

  • 2019年のシリーズEで2億5000万ドル調達

  • 2019年のシリーズFで4億ドル調達

  • 2021年のシリーズGで10億ドル調達

  • 2021年のシリーズHで16億ドル調達、企業価値は約5兆円に

第3章|競争戦略の真髄:後追い企業が常識を覆す

3-1. 次なる成長戦略:Lakehouseが変えたデータアーキテクチャの常識

データ分析ソリューションでPMFし、大きな成長を遂げたDatabricksは次なる成長戦略の一手として、企業のデータ保管の仕組みの課題に着目します。

データ保管は大まかに言えば、データウェアハウス(DW)とデータレイクという2大アーキテクチャが長らく存在してきました。前者は構造化データに対して高速な SQL分析を行うのに適し、後者は半構造や非構造データを含む膨大な情報を丸ごと保管する点に利点があります。しかし多くの企業が両方を併用するため、データが分散し二重管理の手間がかかるという問題が顕在化していました。

ここに着目したDatabricks は “Lakehouse” という概念を打ち出します。要点は「データレイクの柔軟性とDWの信頼性・高速性を一つのプラットフォームで安価に実現する」というものです。

Tidal Waveブログより抜粋

Tidal Waveブログより抜粋

Tidal Waveブログより抜粋

Tidal Waveブログより抜粋

3-2. データ保管領域で先行する強力な競合(Snowflake)との競争

Lakehouseを強力に推進するDatabricks に対し、データ保管領域は既にSnowflakeという先行する強力なプレイヤーが存在しており、クラウド型のデータウェアハウスとして既に大きなシェアを持っていました。Databricksは顧客のユースケースに着目し、Snowflakeがニーズが先行するビジネス分析で強みを保有していた一方で、機械学習需要はまだ開発中だったことから、機械学習とビジネス分析双方で利用しやすい管理の仕組みを構築していきます。

  • Snowflake側:SQLなどのビジネス分析を高速かつ簡単に扱える点が強み。Python/Java の UDF や外部機械学習ツールとの連携も強化中。

  • Databricks側:データサイエンスとBIを一元的に管理できる。データをすぐに機械学習へ回せる利点がある。

Databricksは両社が実際の顧客ユースケースで差別化を図っており、この対立は「単準に既存の強者と正面からぶつかるのではなく、少し異なる参入角度で市場に切り込んでいく」後追い企業の参入戦略の好例と言えます。

結果、DatabricksはSnowflakeをと同等 or 超えるスピードで成長していきます。

Tidal Waveブログより抜粋

Tidal Waveブログより抜粋

3-3. AI 大規模言語モデル開発ニーズも捉え10兆円企業へ

ご存じの通り、2022年末にChatGPTが登場して以来、大規模言語モデル(LLM)が業界を席巻しています。企業が自社データを活用して独自LLM を作りたいという需要が高まる中、「どうやって膨大なテキストを安全かつ効率的に学習させるか」という課題がクローズアップされました。

Databricksは既にSparkベースの機械学習基盤やクラウドマネージドサービスで大規模データを扱うノウハウを持っているため、この大きな波が来る中で再度注目を浴びているわけです。さらに独自 LLM「Dolly」をオープンソース化し、“自社クラウド上で機密データを使ってモデルをトレーニングしたい” というエンタープライズの要求に応えようとしています。

自然言語生成や文章分析への応用を拡大させており、テキストや画像など非構造データを円滑に取り込み、モデル学習に活かすAIプロダクトポートフォリオを充足させています。

The Strategy Deck

The Strategy Deck

2024年12月、DatabricksはシリーズJで約1.5兆円の資金調達を完了し、10兆円企業となりました。

売上高は4,500億円、売上成長率は脅威の57%です。

まとめ

Databricksは単なる「Hadoop の次世代版データ分析ツール」を超えて、データ管理、大規模言語モデル開発までを網羅的にサポートするプラットフォーム企業へと進化していきました。

高い技術力と事業開発力、さらに新市場への巧みな参入戦略といった複数の成功要因が絡み合っていますが、最も重要な点は、データ量の爆発的増加、クラウド化、AIなど巨大な3つの市場トレンドを捉える事が出来たという点だと感じます。

よくサーフィンに捉えられますが、Databricksは巨大な3つの波が重なった海でサーフィンできたからこそ、圧倒的な成長率でここまで成長できたのだと感じます。

これから起業する方、成長戦略で悩まれている方は、市場の新しい波を意識すると良いかもしれません。その波があるところには、Hadoopしかり、Snowflakeしかり、既に競合となる企業やサービスが存在するはずです。その競合の問題点や改善点を考えていくと、起業アイデアや参入戦略に繋がる

ということが、このDatabricksの事例から最も学べるポイントかもしれません。

***

新たな事業アイデアや起業構想を練りたい方、ぜひお気軽にご連絡ください

まだ曖昧なアイデアであっても、共に検証し、突破口を探っていくことに情熱を注いでいます。起業家の方や起業を検討中の方と共に、ビジネスの磨き込みから資金調達戦略まで幅広くサポートいたしますので、新しい挑戦に向けて、一緒に踏み出しましょう

詳しい活動は、以下のリンクからご覧いただけます:

あなたの「種火」を未来の「燈火」へ

無料で「Inflection Times / 起業の種火」をメールでお届けします。コンテンツを見逃さず、読者限定記事も受け取れます。

すでに登録済みの方は こちら

誰でも
逆境からの再出発:京都発 ”Notionの創業物語”
誰でも
ソフトウェアが、コンテンツ化する未来
誰でも
“日本の常識”で、世界を熱狂させる起業家達
誰でも
海外スタートアップ 最高のPitchdeck10選
誰でも
約600億円調達&全米犯罪の5%を解決したFlock Safetyの創...
誰でも
「Narrative Violation」Google / Airbn...
誰でも
2025年 注目の起業テーマ  ~社会/規制/技術の変曲点から生ま...
誰でも
2億円で売上350億円を作った「Zapier」創業の軌跡