Бизнес-глоссарий
Введение
Когда аналитик говорит “активный клиент”, маркетолог подразумевает “совершил покупку за последние 30 дней”, а финансист — “имеет положительный баланс на счёте”. Один термин, два разных определения, противоречивые отчёты. Business Glossary (бизнес-глоссарий) решает эту проблему, создавая единый согласованный словарь терминов организации.
Что такое бизнес-глоссарий
Business Glossary (бизнес-глоссарий) — это структурированный каталог бизнес-терминов организации с согласованными определениями, владельцами и связями. Он является ключевым артефактом Data Governance, обеспечивающим единое понимание терминологии между бизнесом и IT.
Бизнес-глоссарий отвечает на вопросы:
- Что означает этот термин? (определение)
- Кто утвердил определение? (владелец)
- Где используется термин? (связи с данными)
- Чем отличается от похожих терминов? (разграничения)
Структура записи глоссария
Каждый термин в глоссарии — это управляемый артефакт с обязательными атрибутами:
Процесс создания глоссария
Шаг 1: Инвентаризация терминов
Начните со сбора терминов из трёх источников:
- Бизнес-документы — отчёты, презентации, KPI-дашборды
- Технические артефакты — SQL-запросы, dbt-модели, Airflow DAGs
- Интервью — Data Stewards, аналитики, бизнес-пользователи
Шаг 2: Выявление конфликтов
Типичные конфликты определений:
# Пример: три определения "активного клиента"
definitions = {
"marketing": "Совершил покупку за последние 30 дней",
"finance": "Имеет положительный баланс на счёте",
"support": "Обратился в поддержку за последние 90 дней"
}
# Какое определение правильное? Все три -- в своём контексте.
# Задача глоссария: создать ОДНО согласованное определение
# или явно документировать контекстные варианты.
Шаг 3: Согласование и утверждение
Data Council утверждает определения, которые не удаётся согласовать на уровне доменов. Правило: одно определение на термин. Если контексты различаются, создайте разные термины:
Активный клиент (маркетинг)— покупка за 30 днейАктивный клиент (финансы)— положительный баланс
Шаг 4: Интеграция с каталогом данных
Глоссарий становится ценным, когда связан с реальными данными. Каждый термин привязывается к таблицам и колонкам:
term: "Активный клиент (маркетинг)"
definition: "Клиент, совершивший хотя бы одну покупку за последние 30 дней"
related_tables:
- table: "mart_active_customers"
column: "is_active"
logic: "last_purchase_date >= CURRENT_DATE - INTERVAL '30 days'"
- table: "report_monthly_active"
column: "active_count"
logic: "COUNT(*) WHERE is_active = true"
Проверка знанийПочему важно связать терминологию глоссария с конкретными таблицами и колонками, а не просто описать определения?
Governance бизнес-глоссария
Глоссарий — живой артефакт. Без governance он деградирует за месяцы:
| Процесс | Периодичность | Ответственный |
|---|---|---|
| Добавление нового термина | По запросу | Data Steward домена |
| Пересмотр определений | Ежеквартально | Data Owner + Steward |
| Разрешение конфликтов | По возникновении | Data Council |
| Аудит связей с данными | Ежемесячно | Data Steward |
| Архивирование устаревших | Ежеквартально | Data Steward |
Правило: каждый термин имеет статус (draft -> review -> approved -> deprecated) и review date. Термин без пересмотра дольше 6 месяцев помечается needs_review.
Сценарий: DataTech Solutions
Сценарий: DataTech Solutions (ДатаТех Солюшенз)
В DataTech обнаружили, что термин “выручка” (revenue) используется в 5 разных Metabase-дашбордах с 3 разными формулами:
- Дашборд “CEO Report”: сумма
total_amountиз таблицыorders(включая отменённые)- Дашборд “Finance”: сумма
total_amountWHEREstatus != 'cancelled'- Дашборд “Marketing”: сумма
total_amountWHEREstatus = 'completed'ANDrefund_amount = 0CEO видит 12M RUB, CFO — 10.5M RUB, CMO — 9.2M RUB. Все уверены, что их число правильное.
Решение: Data Steward создаёт в глоссарии два термина:
- Gross Revenue (валовая выручка): сумма всех заказов включая отменённые = 12M
- Net Revenue (чистая выручка): сумма завершённых заказов за вычетом возвратов = 9.2M
CEO Report переименовывается в “Gross Revenue”, Finance корректирует формулу, Marketing подтверждается как “Net Revenue”.
Проверка знанийПочему DataTech не может просто выбрать одну из трёх формул выручки и объявить её 'правильной'?
Итоги
- Business Glossary — структурированный каталог бизнес-терминов с согласованными определениями и владельцами
- Каждый термин имеет определение, владельца, связи с данными и статус
- Процесс создания: инвентаризация -> выявление конфликтов -> согласование -> интеграция с каталогом
- Глоссарий требует governance: регулярный пересмотр, статусы, Data Council для разрешения конфликтов
- Без глоссария организация получает противоречивые отчёты (как DataTech с тремя формулами выручки)
В следующем уроке мы перейдём к каталогу данных (Data Catalog) — системе, которая объединяет метаданные, глоссарий и lineage в единый инструмент для Data Discovery.
Проверьте понимание
Закончили урок?
Отметьте его как пройденный, чтобы отслеживать свой прогресс
Войдите чтобы оценить урок