Cloud DWH в 2026: пять игроков
Современный enterprise DWH — это cloud-native managed сервис. Эра on-premise (Teradata, Oracle DWH, Vertica) ушла, остались legacy installations. Новые проекты строятся в облаке.
Главные игроки 2026 года:
- Snowflake — market leader, multi-cloud (AWS/GCP/Azure).
- Google BigQuery — serverless DWH в GCP.
- Amazon Redshift — AWS-native, evolved from ParAccel.
- Databricks SQL — lakehouse engine, поверх Spark/Delta.
- Firebolt — high-performance cloud DWH, ниша real-time.
Плюс есть второй tier: ClickHouse Cloud, Greenplum, Vertica (cloud-native переезды). И open-source альтернативы (StarRocks, Doris). Но 5 выше — те, с кем сталкиваешься в большинстве enterprise.
Этот урок — обзор: что отличает каждого, когда какой выбирать. Глубокое погружение — модуль 15 (cloud data platforms).
Snowflake: индустриальный default
Год основания: 2012 (Bay Area). IPO 2020 — крупнейший IPO software-компании в истории.
Технология: разделение storage (S3/GCS/Azure Blob) и compute (virtual warehouses). Тот же data, разные warehouses (different sizes, different teams). Эластичное масштабирование.
Ключевые фичи:
- Multi-cluster warehouses — auto-scaling под нагрузку.
- Time Travel — запросы к данным “как было N часов назад” (до 90 дней).
- Zero-copy cloning — мгновенное клонирование таблиц без copy data.
- Data Sharing — sharing данных между accounts без копии.
- Snowpark — Python/Scala/Java in-database.
- Cortex — AI/ML встроенный.
- Streams + Tasks — встроенный CDC + scheduling.
- Unistore (preview) — hybrid OLTP+OLAP таблицы.
Цена: платишь за хранение (S3 уровень, ~500-5K/мес. Enterprise — $100K-10M/год.
Когда Snowflake — правильный выбор:
- Multi-cloud стратегия (не привязка к AWS).
- Множество команд (разные warehouses, изоляция).
- Серьёзный governance (RBAC, masking, lineage).
- Data sharing с партнёрами/клиентами.
Где Snowflake проигрывает:
- Дорого на больших объёмах постоянной compute.
- Real-time analytics (sub-second) — не его профиль.
- ML training (не его профиль, хотя есть Cortex).
Google BigQuery: serverless
Год основания: 2010 (Google). Эволюция Dremel (внутренний tool с 2006).
Технология: fully serverless. Storage в Google Cloud, compute распределён между тысячами slots. Ты не управляешь warehouse, движок сам параллелит.
Ключевые фичи:
- Fully serverless — нет capacity planning, slots выделяются автоматически.
- Streaming inserts — миллионы строк/сек в real-time.
- BigQuery ML — train models через SQL прямо в БД.
- Geospatial functions — built-in GIS.
- Open table formats — поддержка Iceberg, Hudi.
- Continuous queries (beta) — streaming поверх BQ.
- Federated queries — query S3, Cloud Storage, Bigtable без import.
- Native integration с GCP — Vertex AI, Dataflow, Pub/Sub.
Цена: storage 5/TB scanned (on-demand) или фиксированные slots ($2000/100 slots/мес). Для маленьких queries — почти бесплатно.
Когда BigQuery — правильный выбор:
- Уже в GCP экосистеме.
- Streaming workloads (real-time ingest).
- ML/Geospatial use cases.
- Лень capacity planning.
Где BigQuery проигрывает:
- Multi-cloud (хотя 2024-2026 расширяется).
- Cost predictability на больших scan-volumes (on-demand можно случайно прожечь).
- Иногда complex SQL queries — другой optimizer.
Amazon Redshift: AWS-native
Год основания: 2012 (AWS, на базе ParAccel).
Технология: distributed columnar база. Cluster из nodes с локальным NVMe (на classic Redshift) или с разделением storage/compute (Redshift Serverless с 2022).
Ключевые фичи:
- Redshift Spectrum — query S3 Parquet напрямую без import.
- Materialized views — auto-refresh, smart query rewriting.
- Redshift ML — train models через SageMaker integration.
- Federated Query — query Postgres/MySQL/Aurora без копии.
- Concurrency Scaling — auto-scale на пиковую нагрузку.
- Data Sharing — между clusters.
- AQUA — accelerated query layer.
Цена: более complex pricing — node-hours для classic, RPU-hours для serverless. Для типичной enterprise — $50K-1M/год.
Когда Redshift — правильный выбор:
- Вся инфраструктура в AWS (data lake S3 + Athena + Redshift).
- Tight integration с AWS services (SageMaker, Kinesis).
- Cost-conscious team — Redshift часто дешевле Snowflake на pure compute.
Где Redshift проигрывает:
- Multi-cloud невозможен.
- Историческое легаси (resize кластера болезненный).
- Поведение query optimizer-а иногда unpredictable.
Databricks SQL: lakehouse подход
Год основания: 2013 (создатели Apache Spark из Berkeley).
Технология: Lakehouse-парадигма. Storage в S3/ADLS как Delta Lake (Parquet + transaction log). Compute через Photon engine (C++ переписанный Spark, оптимизированный под SQL).
Ключевые фичи:
- Delta Lake — ACID транзакции, schema evolution, time travel поверх Parquet.
- Photon engine — vectorized SQL execution в C++.
- Unity Catalog — единый metadata layer, governance.
- Databricks SQL Warehouses — serverless compute для SQL.
- MLflow integration — ML workflow first-class.
- Genie / DBSQL AI — natural language to SQL.
- Delta Live Tables — streaming ETL.
- Open formats — Iceberg support, не lock-in в Delta.
Цена: DBU (Databricks Units) per hour. Сложнее Snowflake, но гибче. Storage отдельно в S3 (cheap).
Когда Databricks — правильный выбор:
- Mixed workloads — DWH + ML training + streaming.
- Уже используется Apache Spark.
- Lakehouse-стратегия (open format, не lock-in).
- Big data scale (петабайты).
Где Databricks проигрывает:
- Steeper learning curve (notebook+SQL+ML).
- Pure SQL workloads — Snowflake часто проще.
- Cost optimization сложнее.
Firebolt: high-performance ниша
Год основания: 2019.
Технология: распределённый OLAP, оптимизирован под low-latency interactive queries. Использует Parquet + custom indexing.
Ключевые фичи:
- Sub-second queries на TB-объёмах.
- Aggregating indexes — pre-computed aggregates auto-managed.
- Cost-effective — заявляют 10-20x cheaper Snowflake для interactive workloads.
- Tight integration with S3 / Parquet.
Когда Firebolt — правильный выбор:
- User-facing analytics в продукте (latency critical).
- Cost ceiling на Snowflake/BigQuery.
- Predictable workload patterns.
Где Firebolt проигрывает:
- Меньше ecosystem (BI tools support, dbt support).
- Меньше maturity governance.
- Узкое community.
Сравнительная таблица
Snowflake, BigQuery, Redshift, Databricks, Firebolt
Как выбирать
Правило 1. Если вы уже в одном cloud — выбирайте native DWH (BigQuery для GCP, Redshift для AWS). Tighter integration, меньше overhead, дешевле.
Правило 2. Multi-cloud или strict no-lock-in — Snowflake.
Правило 3. Mixed workloads (DWH + ML + streaming) — Databricks SQL.
Правило 4. Sub-second user-facing — Firebolt или ClickHouse (не пятёрка выше, но релевантно).
Правило 5. Стартап с маленькой командой — Snowflake (проще learning curve, всё managed).
Правило 6. Cost-conscious enterprise с большим volume — Redshift или Databricks (часто дешевле Snowflake на серьёзном масштабе).
Открытые/lakehouse альтернативы
В 2024-2026 параллельно растёт open lakehouse парадигма: storage в open format (Iceberg/Delta на S3), compute через open engines (Trino, DuckDB, Athena). Это не отдельный продукт, а архитектура.
- Iceberg — open table format от Netflix/Apple (Apache).
- Trino (PrestoDB fork) — distributed SQL engine.
- Apache Athena — AWS Trino-as-a-service.
- DuckDB — single-node для analytics.
Эта архитектура — альтернатива Snowflake-like managed DWH. Преимущество: cost-effective, open, гибкость. Недостаток: больше operating overhead. Развивается быстро, конкурирует с проприетарными DWH.
Apache Iceberg: open table format для lakehouse архитектурыРеальное распределение 2026 (приближённо)
В крупных компаниях:
- Snowflake — 30-35% mindshare (растёт).
- BigQuery — 20-25%.
- Redshift — 15-20% (теряет на новых проектах).
- Databricks SQL — 15-20% (быстро растёт).
- Firebolt и прочее — 5%.
- On-prem Teradata/Vertica/Oracle — 10% (legacy, теряет).
Картина меняется год от года. В 2020 Snowflake был ~10%, сейчас 30%+. Databricks с 2022 года агрессивно растёт за счёт lakehouse positioning.
Для junior data engineer: учить Snowflake — это самая универсальная инвестиция. SQL диалект близкий к стандарту, скиллы переносимы. Если в твоей компании другой DWH — учи рабочий, но первичный mindshare — Snowflake.
Попробуй сам
- Зарегистрируй Snowflake trial (30 дней, $400 credits). Загрузи TPC-H 1 GB. Выполни TPC-H queries на warehouse XS vs M vs L. Замерь время и cost.
- То же для BigQuery (есть free tier — 1 TB free queries в месяц). Сравни experience.
- Изучи pricing calculator для Snowflake/BigQuery/Redshift. Для гипотетической нагрузки (5 TB data, 10K queries/day) — сколько стоит каждый?
- Попробуй Databricks Community Edition (бесплатно). Загрузи данные в Delta Lake. Запусти SQL queries через Photon. Сравни с DuckDB.