Learning Platform
Troubleshooting
Глоссарий

Глоссарий — Data Modeling

Справочник ключевых терминов курса Data Modeling.

1 категорий · 117 терминов

Термины

Data Modeling

Термин

Моделирование данных — процесс проектирования структуры данных: какие сущности существуют, какими атрибутами обладают, как связаны между собой и как это лучше уложить в конкретное хранилище. Фундамент профессии data-инженера: качество модели определяет цену каждого последующего запроса и изменения.

Conceptual Model

Термин

Концептуальная модель — высокоуровневое описание бизнес-сущностей и связей между ними без атрибутов, типов и ключей. Технологически нейтральна. Её аудитория — бизнес: модель отвечает на вопрос «о чём данные», а не «как они хранятся».

Logical Model

Термин

Логическая модель — детализация концептуальной: все сущности, все атрибуты, ключи (PK/FK), результат нормализации. Ещё не привязана к конкретной СУБД — нет типов данных, индексов и физических настроек.

Physical Model

Термин

Физическая модель — реализация логической в конкретной СУБД: таблицы, столбцы с типами данных, индексы, партиционирование, constraints, tablespaces. То, что реально выполняется в виде DDL.

Entity

Термин

Сущность — объект реального или абстрактного мира, о котором система хранит данные: клиент, заказ, товар, договор. В реляционной реализации сущность обычно превращается в таблицу.

Attribute

Термин

Атрибут — свойство сущности или связи: имя клиента, дата заказа, цена товара. В реляционной модели атрибут становится столбцом таблицы.

Relationship

Термин

Связь — ассоциация между сущностями: клиент размещает заказ, заказ содержит товары. Характеризуется кардинальностью и опциональностью.

Composite Attribute

Термин

Составной атрибут — атрибут, разбиваемый на более мелкие осмысленные части: адрес = улица + город + индекс, ФИО = фамилия + имя + отчество. На физическом уровне обычно раскладывается на отдельные столбцы.

Multi-valued Attribute

Термин

Многозначный атрибут — атрибут, который для одной сущности может иметь несколько значений: несколько телефонов у клиента. В реляционной модели не хранится в одной ячейке (нарушение 1NF), а выносится в отдельную таблицу.

Derived Attribute

Термин

Производный атрибут — атрибут, вычисляемый из других данных: возраст из даты рождения, сумма заказа из строк заказа. Хранить его — осознанная денормализация ради скорости чтения.

Cardinality

Термин

Кардинальность — количественная характеристика связи: сколько строк одной сущности соответствует строке другой. Основные типы: 1:1, 1:N, M:N. В реляционной теории также число tuples в отношении.

Optionality

Термин

Опциональность (минимальная кардинальность) — обязательно ли участие сущности в связи: mandatory (хотя бы одна связь обязательна) или optional (связи может не быть вовсе). В Crow's Foot обозначается чёрточкой (один) и кружком (ноль).

ER Diagram

Термин

ER-диаграмма (Entity-Relationship) — графическое представление концептуальной/логической модели: сущности, их атрибуты и связи. Главный язык общения между аналитиком, бизнесом и инженером на этапе проектирования.

Crow's Foot Notation

Термин

Нотация «вороньей лапки» (Information Engineering) — индустриальный стандарт ER-диаграмм. Сущность — прямоугольник, связь — линия; символы на концах задают кардинальность: «лапка» = многие, кружок = ноль/optional, чёрточка = один/mandatory. Компактна.

Chen Notation

Термин

Нотация Чена — историческая нотация ER-моделирования: сущность — прямоугольник, атрибут — овал, связь — ромб, кардинальность подписывается цифрами 1/N/M. Многословна и занимает много места, чаще встречается в обучении и раннем дизайне.

Weak Entity

Термин

Слабая сущность — сущность, не имеющая собственного полного ключа; идентифицируется только через сущность-владельца плюс частичный ключ (discriminator). Пример: строка заказа существует лишь в контексте заказа.

Strong Entity

Термин

Сильная (регулярная) сущность — сущность с собственным первичным ключом, существующая независимо от других. Противоположность weak entity.

Generalization

Термин

Обобщение/специализация — отношение supertype/subtype: общая сущность (например, «Сотрудник») и её специализации («Штатный», «Контрактник»). Бывает disjoint/overlapping и total/partial по полноте участия.

Relation

Термин

Отношение — в реляционной модели Кодда множество (set) кортежей с общей схемой. На практике соответствует таблице. Поскольку это множество, дубликаты строк недопустимы.

Tuple

Термин

Кортеж — одна строка отношения: набор значений по всем атрибутам схемы. В реляционной теории кортежи неупорядочены и уникальны внутри отношения.

Domain

Термин

Домен — множество допустимых значений атрибута: тип плюс ограничения. Например, домен «возраст» — целые числа от 0 до 150. На физическом уровне приближается типом данных и CHECK-ограничениями.

Relational Algebra

Термин

Реляционная алгебра — формальный язык операций над отношениями, теоретическая основа SQL. Базовые операторы: σ (selection) фильтрует строки, π (projection) выбирает столбцы, ⋈ (join), ∪/∩/− (теоретико-множественные), × (декартово произведение), ρ (rename).

Selection (σ)

Термин

Селекция — операция реляционной алгебры, отбирающая кортежи, удовлетворяющие предикату. Прямой аналог WHERE в SQL.

Projection (π)

Термин

Проекция — операция реляционной алгебры, выбирающая подмножество атрибутов и удаляющая получившиеся дубликаты строк. Аналог SELECT-списка столбцов с DISTINCT.

NULL

Термин

NULL — маркер отсутствующего, неизвестного или неприменимого значения. Не равен нулю, пустой строке или другому NULL. Ломает интуицию: любое сравнение с NULL даёт UNKNOWN, а не TRUE/FALSE.

Three-valued Logic

Термин

Трёхзначная логика (3VL) — логика SQL с тремя значениями: TRUE, FALSE, UNKNOWN. Появляется из-за NULL: предикат с NULL возвращает UNKNOWN, и строка не попадает в результат WHERE (фильтр пропускает только TRUE).

Superkey

Термин

Суперключ — набор атрибутов, уникально идентифицирующий каждую строку отношения. Может содержать лишние атрибуты сверх минимально необходимых.

Candidate Key

Термин

Потенциальный ключ — минимальный суперключ: ни один атрибут нельзя убрать без потери уникальности. У отношения может быть несколько candidate keys.

Primary Key

Термин

Первичный ключ — выбранный из candidate keys основной идентификатор строки. Обязан быть NOT NULL, уникальным и стабильным во времени.

Foreign Key

Термин

Внешний ключ — атрибут (или набор), ссылающийся на первичный (или уникальный) ключ другой либо той же таблицы. Механизм обеспечения ссылочной целостности.

Natural Key

Термин

Естественный (бизнес-) ключ — ключ из реальных данных предметной области: email, ИНН, VIN, номер счёта. Понятен бизнесу, но может меняться и быть широким, что усложняет JOIN.

Surrogate Key

Термин

Суррогатный ключ — искусственный, лишённый бизнес-смысла идентификатор, генерируемый системой (integer, UUID, hash). Стабилен и узок, поэтому изолирует модель от изменений в источнике и ускоряет JOIN.

Composite Key

Термин

Составной ключ — ключ из двух и более атрибутов; уникальность обеспечивается их комбинацией. Типичен для junction-таблиц связи M:N.

Alternate Key

Термин

Альтернативный ключ — candidate key, не выбранный в качестве первичного. Обычно поддерживается UNIQUE-ограничением.

Durable Key

Термин

Устойчивый (supernatural) ключ — стабильный идентификатор сущности, переживающий SCD2-изменения. В SCD2 surrogate key меняется на каждую версию строки, а durable key остаётся одним на сущность.

Functional Dependency

Термин

Функциональная зависимость X -> Y — значение набора атрибутов X однозначно определяет значение Y. Основной инструмент анализа при нормализации; из FD выводятся ключи и нормальные формы.

Armstrong's Axioms

Термин

Аксиомы Армстронга — полная и корректная система правил вывода функциональных зависимостей: рефлексивность (Y⊆X => X->Y), пополнение (X->Y => XZ->YZ), транзитивность (X->Y, Y->Z => X->Z). На их основе вычисляется замыкание атрибутов.

Attribute Closure

Термин

Замыкание атрибутов X⁺ — множество всех атрибутов, функционально определяемых X по аксиомам Армстронга. Если X⁺ равно всем атрибутам отношения, то X — суперключ. Ключевой алгоритм поиска candidate keys.

Prime Attribute

Термин

Первичный (prime) атрибут — атрибут, входящий хотя бы в один candidate key. Атрибут, не входящий ни в один candidate key, называется non-prime. Различие критично для определения 2NF и 3NF.

1NF

Термин

Первая нормальная форма — все значения атомарны: нет повторяющихся групп, списков, массивов в одной ячейке; у отношения есть первичный ключ. Базовая предпосылка реляционной модели.

2NF

Термин

Вторая нормальная форма — отношение в 1NF и нет partial dependencies: каждый non-prime атрибут зависит от всего составного ключа, а не от его части. Имеет смысл проверять только при составном ключе.

3NF

Термин

Третья нормальная форма — отношение в 2NF и нет transitive dependencies: non-prime атрибуты не зависят от других non-prime. Эквивалент: для каждой нетривиальной FD X->A либо X — суперключ, либо A — prime атрибут.

BCNF

Термин

Нормальная форма Бойса-Кодда — для каждой нетривиальной FD X->Y левая часть X является суперключом. Строже 3NF (3NF допускает X->A при A prime, BCNF — нет). Декомпозиция в BCNF всегда lossless, но может не сохранять зависимости.

4NF

Термин

Четвёртая нормальная форма — отношение в BCNF и нет нетривиальных многозначных зависимостей (MVD). Устраняет проблему хранения двух независимых many-valued фактов в одной таблице.

5NF

Термин

Пятая нормальная форма (PJ/NF, project-join) — отношение в 4NF и каждая нетривиальная join dependency подразумевается candidate keys. Таблицу нельзя без потерь разбить на меньшие проекции иначе как по суперключу.

Multi-valued Dependency

Термин

Многозначная зависимость X ↠ Y — множество значений Y зависит только от X и не зависит от остальных атрибутов. Возникает, когда в одной таблице соседствуют два независимых многозначных факта; устраняется в 4NF.

Normalization

Термин

Нормализация — процесс разбиения отношений на меньшие так, чтобы устранить избыточность и аномалии вставки/обновления/удаления, последовательно достигая 1NF, 2NF, 3NF, BCNF и выше. Стандарт для OLTP-схем.

Denormalization

Термин

Денормализация — сознательное добавление избыточности (дублированные атрибуты, предвычисленные агрегаты) ради скорости чтения. Норма для аналитических (OLAP) моделей; цена — аномалии и стоимость поддержки согласованности.

Insert Anomaly

Термин

Аномалия вставки — невозможность добавить один факт без наличия другого, не связанного с ним. Пример: в плоской таблице нельзя завести новый курс, пока на него не записан хотя бы один студент.

Update Anomaly

Термин

Аномалия обновления — из-за дублирования одно значение хранится во многих строках, и при изменении нужно обновить все; пропуск части строк ведёт к рассинхрону данных. Прямой аргумент в пользу нормализации.

Delete Anomaly

Термин

Аномалия удаления — удаление строки непреднамеренно теряет другой, не связанный с ней факт. Пример: удалив последнего сотрудника отдела, теряем сам факт существования отдела.

Lossless-join Decomposition

Термин

Декомпозиция без потерь — разбиение отношения на проекции такое, что их естественное соединение (join) даёт ровно исходное отношение, без лишних строк. Обязательное свойство корректной нормализации.

Dependency Preservation

Термин

Сохранение зависимостей — свойство декомпозиции, при котором все исходные функциональные зависимости выводимы из FD получившихся проекций. 3NF всегда достижима с сохранением зависимостей, BCNF — не всегда.

Referential Integrity

Термин

Ссылочная целостность — гарантия, что значение внешнего ключа всегда ссылается на существующую строку родительской таблицы (либо равно NULL). Поддерживается FK-ограничениями и действиями ON DELETE/ON UPDATE.

CHECK Constraint

Термин

CHECK-ограничение — декларативное правило, требующее, чтобы значения строки удовлетворяли булеву предикату (например, price >= 0). Способ перенести часть бизнес-инвариантов в саму модель данных.

OLTP

Термин

Online Transaction Processing — класс систем с множеством коротких read/write-транзакций, высокой конкурентностью и write-heavy нагрузкой. Оптимизируется под целостность и низкую латентность; обычно нормализованная схема.

OLAP

Термин

Online Analytical Processing — класс систем для аналитики: меньше запросов, но тяжёлых (сканы, агрегации), read-heavy. Оптимизируется под пропускную способность чтения; обычно денормализованные/размерные схемы.

Row-store

Термин

Строковое хранение — данные строки лежат на диске подряд. Хорошо для OLTP: чтение или запись всей строки — один I/O. Плохо для аналитики: скан по двум столбцам всё равно тянет с диска всю строку.

Column-store

Термин

Колоночное хранение — значения одного столбца лежат подряд. Хорошо для OLAP: скан читает только нужные столбцы и отлично сжимает однотипные значения (RLE, dictionary, delta). Точечный апдейт строки — дорог.

ETL

Термин

Extract-Transform-Load — классический подход: данные извлекаются, трансформируются на отдельном compute-слое и только потом грузятся в хранилище. Уступил место ELT с удешевлением warehouse-вычислений.

ELT

Термин

Extract-Load-Transform — современный подход: сырые данные сначала грузятся в warehouse, трансформации выполняются уже внутри него средствами SQL. Дешёвое хранилище плюс мощный warehouse сделали возможным слоистое моделирование.

Data Warehouse

Термин

Хранилище данных (DWH) — централизованная аналитическая система, интегрирующая данные из многих источников для отчётности и анализа. Предметно-ориентированное, интегрированное, неизменяемое, хранящее историю.

Data Mart

Термин

Витрина данных (data mart) — подмножество хранилища, ориентированное на конкретную предметную область или отдел (продажи, маркетинг). Может строиться как часть DWH или как самостоятельная единица.

Data Lake

Термин

Озеро данных — хранилище сырых данных в исходном формате (файлы, JSON, Parquet) без предварительной схемы; схема применяется при чтении (schema-on-read). Дёшево и гибко, но без дисциплины превращается в «болото».

Lakehouse

Термин

Lakehouse — архитектура, объединяющая дешёвое объектное хранилище data lake с управляемостью и транзакционностью data warehouse (через табличные форматы Delta Lake, Iceberg, Hudi). Один слой и для сырья, и для аналитики.

Star Schema

Термин

Звёздная схема — каноничная размерная модель: центральная fact-таблица и окружающие денормализованные dimension-таблицы. Каждая dimension присоединяется к fact одним JOIN; форма графа напоминает звезду.

Snowflake Schema

Термин

Схема «снежинка» — вариант звёздной схемы, в которой dimension-таблицы нормализованы и разбиты на связанные подтаблицы. Экономит место, но добавляет JOIN; Kimball в общем случае не рекомендует.

Dimensional Modeling

Термин

Размерное моделирование — методология проектирования аналитических схем (Ralph Kimball): данные делятся на факты (измеримые события) и измерения (контекст). Цель — простота запросов и понятность для аналитика.

Fact Table

Термин

Таблица фактов — центральная таблица размерной модели; хранит внешние ключи к dimensions и числовые measures. Обычно длинная и узкая: миллиарды строк, мало столбцов.

Dimension Table

Термин

Таблица измерений — таблица с описательными атрибутами, дающими контекст фактам: кто, что, где, когда. Намеренно денормализована, обычно широкая и относительно небольшая по числу строк.

Grain

Термин

Зерно (grain) — что представляет собой одна строка fact-таблицы. Объявление grain — первое и важнейшее решение размерного дизайна; все строки таблицы обязаны быть одного зерна. Рекомендуется атомарный (самый низкий) grain.

Measure

Термин

Мера (measure) — числовой показатель в fact-таблице, который агрегируют: сумма продажи, количество, длительность. Классифицируется по аддитивности на additive, semi-additive и non-additive.

Additive Fact

Термин

Аддитивная мера — мера, которую можно суммировать по всем измерениям, включая время (например, сумма продаж). Самый удобный тип меры для агрегаций.

Semi-additive Fact

Термин

Полуаддитивная мера — мера, суммируемая по части измерений, но не по времени: остаток на счёте, уровень запасов. Складывать остатки за разные дни бессмысленно; по времени применяют среднее или последнее значение.

Non-additive Fact

Термин

Неаддитивная мера — мера, которую нельзя суммировать вообще: коэффициенты, проценты, цена за единицу. Агрегируют компоненты по отдельности, а отношение пересчитывают заново.

Transaction Fact Table

Термин

Транзакционная таблица фактов — строка на каждое событие-измерение в точке пространства и времени. Самый гибкий тип; таблица разрежена (строка появляется только когда событие произошло).

Periodic Snapshot Fact Table

Термин

Таблица фактов периодического снимка — строка на сущность за регулярный интервал (баланс счёта на конец каждого дня). Плотная и предсказуемая по размеру; зерно — период.

Accumulating Snapshot Fact Table

Термин

Таблица фактов накапливающего снимка — строка на экземпляр процесса с несколькими вехами (заказ -> отгрузка -> доставка); строка обновляется по мере прохождения вех. Содержит несколько date-ключей и меры длительности/лага.

Factless Fact Table

Термин

Безфактовая таблица фактов — fact-таблица без числовых мер; фиксирует сам факт события (студент посетил занятие) или покрытие (какие товары участвовали в промоакции). Запросы к ней — это подсчёт строк.

Degenerate Dimension

Термин

Вырожденное измерение — атрибут измеренческой природы (обычно номер заказа или транзакции), хранимый прямо в fact-таблице без отдельной dimension-таблицы, так как других атрибутов у него нет.

Conformed Dimension

Термин

Согласованное измерение — dimension с идентичным смыслом и содержимым, переиспользуемая несколькими fact-таблицами. Основа интеграции хранилища и операций drill-across между бизнес-процессами.

Role-playing Dimension

Термин

Измерение с ролями — одна физическая dimension, используемая в схеме многократно в разных ролях: date как order_date, ship_date, delivery_date. Реализуется через views или алиасы таблицы.

Junk Dimension

Термин

«Мусорное» измерение — одна dimension, схлопывающая несколько флагов и индикаторов низкой кардинальности, чтобы не плодить отдельные внешние ключи в fact-таблице.

Bridge Table

Термин

Мост (bridge table) — таблица, реализующая связь many-to-many между fact и dimension либо иерархию переменной глубины. Может содержать весовой коэффициент (allocation factor) для корректного распределения мер.

Bus Matrix

Термин

Шинная матрица (bus matrix) — таблица планирования enterprise DWH по Kimball: строки — бизнес-процессы (fact-таблицы), столбцы — conformed dimensions, на пересечении — отметка использования. Дорожная карта размерной модели.

Slowly Changing Dimension

Термин

Медленно меняющееся измерение (SCD) — dimension, описательные атрибуты которой изменяются во времени (клиент сменил город). SCD-типы (0-7) — это разные стратегии хранения или потери истории таких изменений.

SCD Type 1

Термин

SCD Type 1 (overwrite) — старое значение атрибута перезаписывается новым; история не сохраняется, одна строка на сущность. Просто, но исторические агрегаты задним числом меняются.

SCD Type 2

Термин

SCD Type 2 (add row) — на каждое изменение вставляется новая строка с новым surrogate key; добавляются effective/end date и current flag (либо номер версии). Полная история; fact-строки навсегда связаны с действовавшей версией.

SCD Type 3

Термин

SCD Type 3 (add column) — рядом с «текущим значением» хранится столбец «предыдущее/исходное значение». Хранит ровно одно прошлое значение; промежуточные изменения теряются. Для редких заранее известных изменений.

Data Vault

Термин

Data Vault — методология моделирования DWH (Dan Linstedt), располагающаяся между источниками и витринами. Раздельные hub/link/satellite ориентированы на аудируемость, гибкость и параллельную загрузку из многих источников.

Hub

Термин

Hub — таблица Data Vault, хранящая уникальные business keys одной сущности. Столбцы: hash key (PK), бизнес-ключ(и), load date, record source. Описательных атрибутов в hub нет.

Link

Термин

Link — таблица Data Vault, хранящая связь или транзакцию между бизнес-ключами (всегда трактуется как many-to-many). Столбцы: собственный hash key, hash keys связываемых hubs, load date, record source. Без описательных атрибутов.

Satellite

Термин

Satellite — таблица Data Vault, хранящая описательные атрибуты и их историю для hub или link. Столбцы: hash key родителя, load date (часть PK), record source, hashdiff, описательные атрибуты. История — новые строки.

Hashdiff

Термин

Hashdiff — хеш конкатенации всех описательных атрибутов satellite-строки. Используется для обнаружения изменений: если hashdiff входящей строки совпадает с последней в satellite, изменений нет и строка не вставляется.

PIT Table

Термин

PIT-таблица (point-in-time) — структура business vault, предвычисляющая темпоральный JOIN нескольких satellites одного hub: для каждой даты хранит, какая версия каждого satellite актуальна. Ускоряет исторические запросы.

Inmon

Термин

Подход Inmon (Corporate Information Factory) — top-down методология DWH: сначала строится единое нормализованное (3NF) enterprise-ядро как единый источник истины, затем из него — размерные витрины. Дольше до результата, выше консистентность.

Kimball

Термин

Подход Kimball — bottom-up методология DWH: сначала размерные data marts под конкретные бизнес-процессы, интегрируемые через conformed dimensions и шинную архитектуру в enterprise DWH. Быстрее до первого результата.

Medallion Architecture

Термин

Медальонная архитектура (Databricks) — организация lakehouse в три слоя зрелости: bronze (сырьё as-is), silver (очищенные, conformed, интегрированные данные), gold (бизнес-готовые денормализованные витрины). Внутри каждого слоя — своя модель.

One Big Table

Термин

One Big Table (OBT) — единая широкая денормализованная таблица: все факты и атрибуты измерений вместе, без JOIN на чтении. На колоночных warehouse даёт ускорение запросов; минусы — избыточность и сложности с историчностью атрибутов.

Semantic Layer

Термин

Семантический слой (metrics layer) — слой, где бизнес-метрики (выручка, отток) определяются один раз и переиспользуются всеми BI-инструментами и AI-агентами. Гарантирует, что одна метрика даёт одинаковое число везде.

Document Model

Термин

Документная модель (MongoDB) — данные хранятся как самодостаточные JSON/BSON-документы. Ключевое решение — embedding (вложить связанные данные) против referencing (ссылаться). Денормализация и дублирование здесь — норма.

Key-value Model

Термин

Модель «ключ-значение» (Redis, DynamoDB) — данные доступны только по ключу. Моделирование сводится к проектированию структуры ключа и значения под конкретные шаблоны доступа; произвольных запросов нет.

Wide-column Model

Термин

Широко-колоночная модель (Cassandra, ScyllaDB) — query-first моделирование: схема проектируется от запросов, а не от связей. JOIN нет; все данные запроса лежат в одной таблице, нередко с дублированием по нескольким таблицам.

Graph Model

Термин

Графовая модель — данные как узлы и рёбра. Property graph (Neo4j): у узлов и рёбер есть label и key-value свойства, запросы на Cypher. RDF triple store: данные как тройки subject-predicate-object, запросы на SPARQL.

Partition Key

Термин

Ключ партиционирования — в wide-column СУБД определяет, на каком узле физически лежат данные: значение хешируется в token и равномерно распределяет строки по кластеру. Все строки с одним partition key — на одном узле.

Clustering Key

Термин

Ключ кластеризации — в wide-column СУБД задаёт порядок сортировки строк внутри одной партиции. Позволяет эффективные range-запросы по отсортированному атрибуту без сканирования всей партиции.

CAP Theorem

Термин

Теорема CAP — при сетевом разделении (Partition) распределённая система вынуждена выбирать между согласованностью (Consistency) и доступностью (Availability); все три свойства одновременно недостижимы. Влияет на выбор хранилища и модели.

Identifying Relationship

Термин

Идентифицирующая связь — связь, при которой внешний ключ родителя входит в состав первичного ключа ребёнка; ребёнок не может существовать без родителя. Типична для weak entity.

Non-identifying Relationship

Термин

Неидентифицирующая связь — связь, при которой внешний ключ не входит в первичный ключ ребёнка; ребёнок существует независимо. Самый распространённый тип связи 1:N.

Junction Table

Термин

Связующая таблица (junction / associative / link) — таблица с двумя внешними ключами, реализующая связь M:N, которую реляционная модель не поддерживает напрямую. Может нести и собственные атрибуты связи.

Self-referencing Relationship

Термин

Рекурсивная (само-ссылающаяся) связь — связь сущности с самой собой: сотрудник ссылается на сотрудника-руководителя. Реализуется внешним ключом на первичный ключ той же таблицы; моделирует иерархии.

Date Dimension

Термин

Измерение дат — отдельная денормализованная dimension со строкой на каждый день и атрибутами: день недели, месяц, квартал, год, флаги выходного и праздника, фискальные периоды. Заполняется заранее; ключ часто «умный» integer YYYYMMDD.

Mini-dimension

Термин

Мини-измерение — группа быстро меняющихся атрибутов, вынесенная из большой dimension в отдельную маленькую dimension с собственным surrogate key. Применяется в SCD Type 4 и Type 5, чтобы не раздувать SCD2-историю.

Outrigger Dimension

Термин

Аутригер (outrigger dimension) — dimension, на которую ссылается другая dimension (например, date-dimension внутри dimension сотрудника). Допустимая, но ограниченно применяемая нормализация измерения.

Snowflake ID

Термин

Snowflake ID — 64-битный составной суррогатный ключ (timestamp + идентификатор машины/шарда + последовательность). Монотонно растёт, генерируется распределённо без центрального координатора; дружелюбен к B-tree индексам.

Raw Vault

Термин

Raw vault — слой Data Vault, хранящий данные источников с минимальными трансформациями и полной аудируемой историей; бизнес-правила здесь не применяются. Source-driven часть модели.

Business Vault

Термин

Business vault — слой Data Vault поверх raw vault, где применяются бизнес-правила и располагаются вспомогательные структуры (PIT- и bridge-таблицы). Подготавливает данные к построению витрин.