Learning Platform
Глоссарий Troubleshooting
Урок 08.04 · 22 мин
Начальный
snowflakebigqueryredshiftdatabricksfireboltcloud-dwh

Cloud DWH в 2026: пять игроков

Современный enterprise DWH — это cloud-native managed сервис. Эра on-premise (Teradata, Oracle DWH, Vertica) ушла, остались legacy installations. Новые проекты строятся в облаке.

Главные игроки 2026 года:

  1. Snowflake — market leader, multi-cloud (AWS/GCP/Azure).
  2. Google BigQuery — serverless DWH в GCP.
  3. Amazon Redshift — AWS-native, evolved from ParAccel.
  4. Databricks SQL — lakehouse engine, поверх Spark/Delta.
  5. Firebolt — high-performance cloud DWH, ниша real-time.

Плюс есть второй tier: ClickHouse Cloud, Greenplum, Vertica (cloud-native переезды). И open-source альтернативы (StarRocks, Doris). Но 5 выше — те, с кем сталкиваешься в большинстве enterprise.

Этот урок — обзор: что отличает каждого, когда какой выбирать. Глубокое погружение — модуль 15 (cloud data platforms).

Snowflake: индустриальный default

Год основания: 2012 (Bay Area). IPO 2020 — крупнейший IPO software-компании в истории.

Технология: разделение storage (S3/GCS/Azure Blob) и compute (virtual warehouses). Тот же data, разные warehouses (different sizes, different teams). Эластичное масштабирование.

Ключевые фичи:

  • Multi-cluster warehouses — auto-scaling под нагрузку.
  • Time Travel — запросы к данным “как было N часов назад” (до 90 дней).
  • Zero-copy cloning — мгновенное клонирование таблиц без copy data.
  • Data Sharing — sharing данных между accounts без копии.
  • Snowpark — Python/Scala/Java in-database.
  • Cortex — AI/ML встроенный.
  • Streams + Tasks — встроенный CDC + scheduling.
  • Unistore (preview) — hybrid OLTP+OLAP таблицы.

Цена: платишь за хранение (S3 уровень, ~23/TB/мес)+computecredits(persecondwhenrunning).Маленькаякомпания—23/TB/мес) + compute credits (per second when running). Маленькая компания — 500-5K/мес. Enterprise — $100K-10M/год.

Когда Snowflake — правильный выбор:

  • Multi-cloud стратегия (не привязка к AWS).
  • Множество команд (разные warehouses, изоляция).
  • Серьёзный governance (RBAC, masking, lineage).
  • Data sharing с партнёрами/клиентами.

Где Snowflake проигрывает:

  • Дорого на больших объёмах постоянной compute.
  • Real-time analytics (sub-second) — не его профиль.
  • ML training (не его профиль, хотя есть Cortex).

Google BigQuery: serverless

Год основания: 2010 (Google). Эволюция Dremel (внутренний tool с 2006).

Технология: fully serverless. Storage в Google Cloud, compute распределён между тысячами slots. Ты не управляешь warehouse, движок сам параллелит.

Ключевые фичи:

  • Fully serverless — нет capacity planning, slots выделяются автоматически.
  • Streaming inserts — миллионы строк/сек в real-time.
  • BigQuery ML — train models через SQL прямо в БД.
  • Geospatial functions — built-in GIS.
  • Open table formats — поддержка Iceberg, Hudi.
  • Continuous queries (beta) — streaming поверх BQ.
  • Federated queries — query S3, Cloud Storage, Bigtable без import.
  • Native integration с GCP — Vertex AI, Dataflow, Pub/Sub.

Цена: storage 20/TB/мес.Compute:20/TB/мес. Compute: 5/TB scanned (on-demand) или фиксированные slots ($2000/100 slots/мес). Для маленьких queries — почти бесплатно.

Когда BigQuery — правильный выбор:

  • Уже в GCP экосистеме.
  • Streaming workloads (real-time ingest).
  • ML/Geospatial use cases.
  • Лень capacity planning.

Где BigQuery проигрывает:

  • Multi-cloud (хотя 2024-2026 расширяется).
  • Cost predictability на больших scan-volumes (on-demand можно случайно прожечь).
  • Иногда complex SQL queries — другой optimizer.

Amazon Redshift: AWS-native

Год основания: 2012 (AWS, на базе ParAccel).

Технология: distributed columnar база. Cluster из nodes с локальным NVMe (на classic Redshift) или с разделением storage/compute (Redshift Serverless с 2022).

Ключевые фичи:

  • Redshift Spectrum — query S3 Parquet напрямую без import.
  • Materialized views — auto-refresh, smart query rewriting.
  • Redshift ML — train models через SageMaker integration.
  • Federated Query — query Postgres/MySQL/Aurora без копии.
  • Concurrency Scaling — auto-scale на пиковую нагрузку.
  • Data Sharing — между clusters.
  • AQUA — accelerated query layer.

Цена: более complex pricing — node-hours для classic, RPU-hours для serverless. Для типичной enterprise — $50K-1M/год.

Когда Redshift — правильный выбор:

  • Вся инфраструктура в AWS (data lake S3 + Athena + Redshift).
  • Tight integration с AWS services (SageMaker, Kinesis).
  • Cost-conscious team — Redshift часто дешевле Snowflake на pure compute.

Где Redshift проигрывает:

  • Multi-cloud невозможен.
  • Историческое легаси (resize кластера болезненный).
  • Поведение query optimizer-а иногда unpredictable.

Databricks SQL: lakehouse подход

Год основания: 2013 (создатели Apache Spark из Berkeley).

Технология: Lakehouse-парадигма. Storage в S3/ADLS как Delta Lake (Parquet + transaction log). Compute через Photon engine (C++ переписанный Spark, оптимизированный под SQL).

Ключевые фичи:

  • Delta Lake — ACID транзакции, schema evolution, time travel поверх Parquet.
  • Photon engine — vectorized SQL execution в C++.
  • Unity Catalog — единый metadata layer, governance.
  • Databricks SQL Warehouses — serverless compute для SQL.
  • MLflow integration — ML workflow first-class.
  • Genie / DBSQL AI — natural language to SQL.
  • Delta Live Tables — streaming ETL.
  • Open formats — Iceberg support, не lock-in в Delta.

Цена: DBU (Databricks Units) per hour. Сложнее Snowflake, но гибче. Storage отдельно в S3 (cheap).

Когда Databricks — правильный выбор:

  • Mixed workloads — DWH + ML training + streaming.
  • Уже используется Apache Spark.
  • Lakehouse-стратегия (open format, не lock-in).
  • Big data scale (петабайты).

Где Databricks проигрывает:

  • Steeper learning curve (notebook+SQL+ML).
  • Pure SQL workloads — Snowflake часто проще.
  • Cost optimization сложнее.

Firebolt: high-performance ниша

Год основания: 2019.

Технология: распределённый OLAP, оптимизирован под low-latency interactive queries. Использует Parquet + custom indexing.

Ключевые фичи:

  • Sub-second queries на TB-объёмах.
  • Aggregating indexes — pre-computed aggregates auto-managed.
  • Cost-effective — заявляют 10-20x cheaper Snowflake для interactive workloads.
  • Tight integration with S3 / Parquet.

Когда Firebolt — правильный выбор:

  • User-facing analytics в продукте (latency critical).
  • Cost ceiling на Snowflake/BigQuery.
  • Predictable workload patterns.

Где Firebolt проигрывает:

  • Меньше ecosystem (BI tools support, dbt support).
  • Меньше maturity governance.
  • Узкое community.

Сравнительная таблица

Cloud DWH 2026: основные характеристики

Snowflake, BigQuery, Redshift, Databricks, Firebolt

Snowflake: multi-cloud, separated storage/compute, virtual warehouses, time travel. Market leader 2026. Дорого, но просто и гибко
BigQuery: fully serverless, GCP-native, streaming, BigQuery ML. Бесплатно для small queries. Сильная federation
Redshift: AWS-native, Spectrum для S3, evolution from ParAccel. Cost-effective в AWS экосистеме
Databricks SQL: lakehouse, Delta Lake, Photon engine, Unity Catalog. Mixed DWH+ML+streaming workloads
Firebolt: high-performance niche, sub-second interactive queries. Альтернатива для cost-conscious user-facing analytics

Как выбирать

Правило 1. Если вы уже в одном cloud — выбирайте native DWH (BigQuery для GCP, Redshift для AWS). Tighter integration, меньше overhead, дешевле.

Правило 2. Multi-cloud или strict no-lock-in — Snowflake.

Правило 3. Mixed workloads (DWH + ML + streaming) — Databricks SQL.

Правило 4. Sub-second user-facing — Firebolt или ClickHouse (не пятёрка выше, но релевантно).

Правило 5. Стартап с маленькой командой — Snowflake (проще learning curve, всё managed).

Правило 6. Cost-conscious enterprise с большим volume — Redshift или Databricks (часто дешевле Snowflake на серьёзном масштабе).

Открытые/lakehouse альтернативы

В 2024-2026 параллельно растёт open lakehouse парадигма: storage в open format (Iceberg/Delta на S3), compute через open engines (Trino, DuckDB, Athena). Это не отдельный продукт, а архитектура.

  • Iceberg — open table format от Netflix/Apple (Apache).
  • Trino (PrestoDB fork) — distributed SQL engine.
  • Apache Athena — AWS Trino-as-a-service.
  • DuckDB — single-node для analytics.

Эта архитектура — альтернатива Snowflake-like managed DWH. Преимущество: cost-effective, open, гибкость. Недостаток: больше operating overhead. Развивается быстро, конкурирует с проприетарными DWH.

Apache Iceberg: open table format для lakehouse архитектуры

Реальное распределение 2026 (приближённо)

В крупных компаниях:

  • Snowflake — 30-35% mindshare (растёт).
  • BigQuery — 20-25%.
  • Redshift — 15-20% (теряет на новых проектах).
  • Databricks SQL — 15-20% (быстро растёт).
  • Firebolt и прочее — 5%.
  • On-prem Teradata/Vertica/Oracle — 10% (legacy, теряет).

Картина меняется год от года. В 2020 Snowflake был ~10%, сейчас 30%+. Databricks с 2022 года агрессивно растёт за счёт lakehouse positioning.

NOTE

Для junior data engineer: учить Snowflake — это самая универсальная инвестиция. SQL диалект близкий к стандарту, скиллы переносимы. Если в твоей компании другой DWH — учи рабочий, но первичный mindshare — Snowflake.

Попробуй сам

  1. Зарегистрируй Snowflake trial (30 дней, $400 credits). Загрузи TPC-H 1 GB. Выполни TPC-H queries на warehouse XS vs M vs L. Замерь время и cost.
  2. То же для BigQuery (есть free tier — 1 TB free queries в месяц). Сравни experience.
  3. Изучи pricing calculator для Snowflake/BigQuery/Redshift. Для гипотетической нагрузки (5 TB data, 10K queries/day) — сколько стоит каждый?
  4. Попробуй Databricks Community Edition (бесплатно). Загрузи данные в Delta Lake. Запусти SQL queries через Photon. Сравни с DuckDB.
Проверка знанийKnowledge check
Архитектор enterprise (5 PB исторических данных, 50 аналитиков, 200 dashboard-ов, mixed workload analytics + ML, на AWS). Выбирает между Snowflake, Redshift, Databricks. Какие 4-5 факторов важны для решения?
ОтветAnswer
Факторы анализа: 1) Cloud lock-in — Redshift только AWS, Snowflake multi-cloud, Databricks тоже multi-cloud — если стратегия multi-cloud, выбор смещается. 2) Workload mix — Databricks выигрывает на mixed DWH+ML+streaming (Photon + Spark + MLflow в одном), Snowflake — pure analytics, Redshift — DWH с интеграцией AWS ML. 3) Team skills — Snowflake простейший learning curve, Databricks требует Spark/Python experience, Redshift похож на классический Postgres. 4) Cost — на 5 PB Snowflake может быть в 2-3x дороже Databricks lakehouse, Redshift где-то посередине. 5) Governance — Snowflake (RBAC, masking, lineage) и Databricks Unity Catalog зрелые, Redshift подтягивается. 6) Existing infrastructure — если уже Spark/Databricks pipelines — естественно расширить на SQL. Если стандартный AWS стек — Redshift с интеграцией дешевле. Realistic answer: для большинства таких enterprise — Databricks (mixed workload) или Snowflake (multi-cloud), Redshift проигрывает на крупных new builds.

Проверьте понимание

Результат: 0 из 0
Концептуальный
Вопрос 1 из 5. Какие ключевые technical отличия Snowflake от BigQuery, влияющие на выбор?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 5