未上場10兆円スタートアップ Databricks 創業物語

驚愕のシリーズJ 1.5兆円調達を実現したビッグデータ分析ソリューションを提供するDatabricksは、大学の研究者たちの研究成果で創業した、いわばDeepTech企業でした。現代の未上場企業でもトップクラスの業績と時価総額を誇るスタートアップの創業期に迫ります。

田中　洸輝 (IncubateFund VC) 2025.03.27

忙しくて全部は読めない or 要点だけ知りたい方のために、

主なポイントを以下に記載します

Netflixが公開したビッグデータ分析の懸賞金プログラムが起業の原点に
データ量の急速な増加とクラウド移行という大きな2つの波が来た市場での起業
既存解決策Hadoopと付随サービスでも解決しきれていない多くの問題点を解決した
プロダクトの原型を大学内で開発し、先に需要を確認してから創業した
VCと友人関係にあったことが初期から多額の資金調達を可能にした
CEO含めて経営陣を技術サイドからビジネスサイドに刷新し、本格的なPMFへ
PMF達成後、データ保管領域、AI領域と事業領域を拡大し10兆円企業へ

Pitchbookより抜粋

***

第1章｜創業のきっかけ：Netflixの懸賞金プログラム

第2章｜Databricksの創業とPMFまでの成長戦略

第3章｜競争戦略の真髄：後追い企業が常識を覆す

2000年代後半、「ビッグデータ」や「非構造化データ」という言葉が IT 業界を席巻し始めました。インターネットの勃興に伴うWebサービスやモバイル端末の普及により、企業や研究者はこれまで扱ったことのない規模のデータに直面し、これらのデータを最適に活用する方法を模索していました。ユーザーが残すクリックログやテキストメッセージ、画像・音声などが指数関数的に増え、それらのデータを保存し、データごとにアルゴリズムを作成し実行する、その結果、膨大な量のコンピューティングパワーを必要とし、従来のリレーショナルデータベースでは処理が追いつかなくなるケースが増加していました。このタイミングでこれらの課題を解決するべく、Hadoopというソリューションが誕生します。

HadoopはGoogle の論文をもとに実装され、データを複数のサーバーに分散して保存し、並列処理する仕組みを提供しました。これにより、1台の高性能マシンを使い続けるよりもはるかに大きなデータを扱えるようになり、多くの先進企業（Yahoo!、Facebook、LinkedInなど）がこぞって採用します。Hadoop は「大規模データを安価に扱う」ための画期的なソリューションとして、“ビッグデータ革命” の先頭に立ったのです。

しかし、Hadoop にはいくつかの制約があり、特に機械学習や反復型の分析では処理効率が低いという大きな課題が露呈していきます。ここにDatabricksの存在意義が浮かび上がってくるわけですが、その始まりをもう少し深く見ていくために、Netflixが果たした役割を振り返ります。

2006年、DVDレンタルサービスとして名を馳せていたNetflix は、映画のレコメンドアルゴリズムを 10%以上向上させたチームに1.5億円（100万ドル）の賞金を与えるコンテスト「Netflix Prize」を発表しました。しかも公開されたデータセットは45万人以上のユーザーと1.8万件を超える映画タイトル、1億件を上回る評価データを含む膨大なもので、当時の常識を超える“ビッグデータ”の好例でした。（Netflixの意思決定が凄いですが、それくらい困っていたということですかね）

DatabricksのシリーズA（創業初期）の投資家向け資料には、ビッグデータ分析がいかに非効率で困難なものであるかという内容が記載されています。

Databricks Series A Pitch Deck

このNetflixのコンテストには世界中から研究者やエンジニアが集まり、 2009年までになんと5万人がコンテストに参加しましたが、10％の改善要件を満たした人はいませんでした。

“機械学習を使ったレコメンドの高度化”はビジネスになると大きな可能性を示した一方、当時主流のHadoopの課題を明確化しています。先ほど触れた通り、Hadoop は大容量データを安価に分散処理できる基盤としては革命を起こしましたが、技術が広がるにつれ、多くの問題点が注目されるようになります。

遅い
・Hadoopは繰り返し計算やストリーミング処理を想定しておらず、単純なクエリ（簡単な検索・処理）でも数分かかってしまうため、機械学習で使うには遅すぎる。
活用が限定的
・Java ベースでのプログラミングのため、Pythonなどは使えず、膨大な量のコードを書く必要がある。また、ImpalaやRedshift といった高速な分析ツールはあるものの、SQLの範囲を超えた複雑な処理（例えば非構造化データの処理、ストリーミング分析など）には対応しておらず、使える場面が限られる。
使用が困難
・オンプレミスの自社で物理サーバーを保有している前提の設計であり、ノード数を増やすとストレージと計算を同時に拡張せねばならず、クラウド上でのスケールアップ／スケールダウンが柔軟ではない。導入や運用に専門的なスキルや手間がかかる。

こうした制約を乗り越えようと、多くの企業がHadoopの周辺ツールを開発しました。ClouderaやHortonworks、MapRはオンプレでの導入支援やサポートを手厚く行うアプローチでVCから大きな資金調達を受けて成長を遂げた時期もありました。しかし、本質的な解決策であるクラウドネイティブに最適化されたデータ分析ソリューションを待ち望む声が多かったのです。

カリフォルニア大学バークレー校（UC Berkeley）でPh.D（博士号）のレスター・マッキーという人物もNetflixのコンテストに参加を決めた一人で、まさにこの課題に直面していました。その課題を解決するべく、クラスメートの一人であったマテイ・ザハリア（DatabricksのCTOを務め、データ分析業界の伝説と呼ばれるようになる人物）を頼ります。ザハリアは2007年からFacebookやYahooなどHadoopの初期ユーザーと働いていた経験があったため、この課題を深く理解していました。

マッキーを助けるべく、ザハリアはより効率的にアルゴリズムを処理する「Spark」というツールを開発します。Sparkには以下のような特徴を設計に盛り込みました。

メモリに保持したまま繰り返し演算できるように設計➨計算速度の向上
Scala、Python、R、Javaも含めた複数言語に対応する➨活用範囲の拡張
コンピューティングとストレージの分離➨拡張性向上とコストの低減

Databricks Series A Pitch Deck

Sparkを利用した彼らはなんとNetflixのアルゴリズムを10％改善することに成功します。しかし、幸か不幸かNetflix Prize の提出期限を20分すぎてしまっていたため、残念ながらAT＆Tのチームが賞金を獲得することになりました。（もし彼らが賞金を獲得していたら、賞金に満足して起業しなかったかもしれないですね）

Sparkの出現は、学術的な観点でも実務的な観点でもインパクトが大きく、GitHub やカンファレンスで急速にコミュニティを広げました。Hadoopの「反復計算の遅さ」を大幅に改善できる一方、クラウド上での動作も視野に入れた設計が多くの企業の興味を引いたのです。その結果、Sparkは Hadoopの次なるステップと期待されるようになり、Databricks 創業へと繋がっていきます。

Netflixの懸賞金コンテストを経て、SparkはGitHubやカンファレンスで急速にコミュニティを広げました。Sparkがオープンソースとして広まり始めた2010年前半、多くの企業やエンジニアが「Hadoop + Spark」を実験的に導入しはじめていました。しかし、Sparkはいくら性能が高いとはいえ、企業が本番運用で使いこなすには「運用・保守」「チューニング」「可視化・管理ツール」「セキュリティ」といった要素が不可欠であり、大学の研究チームでしかなかったSparkの主要開発者たちは、この需要に応えるソリューションを商業的に提供する意味があると確信します。

Databricks Series A Pitch Deck

こうして 2013 年頃、UC Berkeleyの研究室AMPLabメンバーを中心にDatabricksが設立されました。

2013年、DatabricksはAndreessen Horowitz（a16z）のベン・ホロウィッツから約1,400万ドル（約20億円）の投資を得ます。その際に用いられたピッチデッキは、彼ら自身も後に「ものすごくひどい」と自嘲するほど簡素で粗末なものでした。

First Pitch deck of Databricks

しかし、投資家にとっては以下の点が極めて魅力的でした。

Sparkの成長：
学術界・オープンソースコミュニティで支持を獲得しつつあり、Hadoopに代わる次世代フレームワークとして期待を集めていた。
最高峰の頭脳とチーム：
UC BerkeleyのAMPLabは世界有数の分散コンピューティング研究の拠点です。そこから直接スピンアウトしたチームには技術優位性を感じさせます。
ビッグデータと機械学習への需要：
Netflix Prizeをきっかけに “大規模データを高度に活用する企業ほど競争優位を築ける” という世間の認識は広まっており、Sparkはその欠かせない手段になりうる候補でした。
クラウド上で動く新しいデータプラットフォーム：
将来的にオンプレミスからクラウドへの移行が加速するという予測も広まり始めていたタイミングであり、先駆者となる可能性を感じさせた。

データ分析という巨大な成長と、クラウド化という市場が大きく変革する千載一遇のタイミングに、「Spark」というプロダクトと高い技術力を持った大学発の学術的権威のあるチームがそろっていた点が投資の決定打となりました。さらに幸いだったのは、チームメンバーの一人でUC Berkeleyの教授であるスコット・シェンカーがa16zのベンホロウィッツと友人だったことでした。

Sparkは無償公開されているため、誰でもダウンロードして使うことができます。この事実は Databricks創業後に収益化しようとするにあたり、大きな障壁となりました。

なぜなら、無料で純分便利なツールを利用できるのにもかかわらず、なぜお金を払ってDatabricks を使う必要があるのか？」という当然の疑問が生まれるからです。これに対し、Databricksは以下の方針を取りました。

Sparkコアはオープンソースのまま：
多くのユーザーが Spark自体を自由に活用でき、コミュニティが発展するようにする。
クラウド上の運用を圧倒的に簡単にする付加価値：
自動スケールやノートブック UI、ジョブ管理、セキュリティ認証などの独自技術・UIを組み込んでいき、有償サブスクリプションで提供する。
企業向けサポート、SLA 保証：
大規模導入の際のトラブルシューティングや性能チューニングなどを担い、本番運用での安心感を提供する。

これにより、Sparkコミュニティの発展を妨げることなく、企業顧客から継続的な収益を得る仕組みを構築することに成功しました。一部のオープンソース支持者からは「コア機能がどんどん有料化している」という批判もありましたが、Databricks はビジネスとの両立を目指します。

また、2016年になると、本格的にPMFを目指すべく、MBA保有者のアリ・ゴードシがCEOに就任し、エンタープライズソフトウェアの販売経験があるメンバーを中心とした経営陣に再構築します。これによりセールスだけでなく、事業連携などが加速していくことになります。

ただし、創業メンバーのほとんどは会社に留まり（そして多くが今でも関与）、テクノロジー部門を主導し続けました。

Databricks Series B Deck

経営陣をビジネスや事業開発経験豊富な人材に再構築したことでDatabricksは大きな成長を遂げることになります。その大きな成長を支えた要因の一つが、Microsoft Azure との協業で誕生したAzure Databricksです。2017年にリリースされ、Azure ポータル上からワンクリックでSparkを利用でき、各種Azureサービス（Data Lake Storage, Power BI, Azure ML など）と連携できるメリットを打ち出しました。

Microsoftが保有する強力な顧客基盤へ短期間でアクセスできるようになったことで、Databricks は大企業への導入事例を一気に拡大させました。また、Azureの成功体験から、彼らはAzure以外のクラウドとも連携していきます。 USの多くの企業は特定のベンダーにロックインされることを嫌う傾向があるため、AWSやGoogle Cloudでも似たような機能を提供していくことで成長をさらに加速させていきます。

当時の検索ワード推移

クラウドでの機能を拡張していく点について、2016年当時はオンプレミスのHadoopが一般的で、クラウドにデータを預けることへ懐疑的な企業も少なくありませんでした。

しかしDatabricksはAzureでの成功でクラウド移行の波を肌で感じ取っていました。クラウド移行が爆発的に進むにつれて、Databricksは結果的に大きな先行者メリットを得ることになります。

このクラウドファーストの方針と大手パートナーとの連携が相まって、Databricksは競合の Cloudera や Hortonworks が苦戦する一方で、急速に評価額を高め、巨大デカコーン企業へと変貌を遂げていきます。

Databricks Series B Deck　PMFを証明

PMFを証明した2017年以降の5年間で、Databricksは5回の資金調達ラウンドを経て、750億円の評価額から5兆円の時価総額に到達していきます。

2018年のシリーズDで1億4000万ドル調達
2019年のシリーズEで2億5000万ドル調達
2019年のシリーズFで4億ドル調達
2021年のシリーズGで10億ドル調達
2021年のシリーズHで16億ドル調達、企業価値は約5兆円に

データ分析ソリューションでPMFし、大きな成長を遂げたDatabricksは次なる成長戦略の一手として、企業のデータ保管の仕組みの課題に着目します。

データ保管は大まかに言えば、データウェアハウス（DW）とデータレイクという2大アーキテクチャが長らく存在してきました。前者は構造化データに対して高速な SQL分析を行うのに適し、後者は半構造や非構造データを含む膨大な情報を丸ごと保管する点に利点があります。しかし多くの企業が両方を併用するため、データが分散し二重管理の手間がかかるという問題が顕在化していました。

ここに着目したDatabricks は “Lakehouse” という概念を打ち出します。要点は「データレイクの柔軟性とDWの信頼性・高速性を一つのプラットフォームで安価に実現する」というものです。

Tidal Waveブログより抜粋

Lakehouseを強力に推進するDatabricks に対し、データ保管領域は既にSnowflakeという先行する強力なプレイヤーが存在しており、クラウド型のデータウェアハウスとして既に大きなシェアを持っていました。Databricksは顧客のユースケースに着目し、Snowflakeがニーズが先行するビジネス分析で強みを保有していた一方で、機械学習需要はまだ開発中だったことから、機械学習とビジネス分析双方で利用しやすい管理の仕組みを構築していきます。

Snowflake側：SQLなどのビジネス分析を高速かつ簡単に扱える点が強み。Python/Java の UDF や外部機械学習ツールとの連携も強化中。

Databricks側：データサイエンスとBIを一元的に管理できる。データをすぐに機械学習へ回せる利点がある。

Databricksは両社が実際の顧客ユースケースで差別化を図っており、この対立は「単準に既存の強者と正面からぶつかるのではなく、少し異なる参入角度で市場に切り込んでいく」後追い企業の参入戦略の好例と言えます。

結果、DatabricksはSnowflakeをと同等 or 超えるスピードで成長していきます。

Tidal Waveブログより抜粋

ご存じの通り、2022年末にChatGPTが登場して以来、大規模言語モデル（LLM）が業界を席巻しています。企業が自社データを活用して独自LLM を作りたいという需要が高まる中、「どうやって膨大なテキストを安全かつ効率的に学習させるか」という課題がクローズアップされました。

Databricksは既にSparkベースの機械学習基盤やクラウドマネージドサービスで大規模データを扱うノウハウを持っているため、この大きな波が来る中で再度注目を浴びているわけです。さらに独自 LLM「Dolly」をオープンソース化し、“自社クラウド上で機密データを使ってモデルをトレーニングしたい” というエンタープライズの要求に応えようとしています。

自然言語生成や文章分析への応用を拡大させており、テキストや画像など非構造データを円滑に取り込み、モデル学習に活かすAIプロダクトポートフォリオを充足させています。