Learning Platform
Глоссарий Troubleshooting
Урок 04.02 · 20 мин
Средний
Business GlossaryTermsDefinitions

Бизнес-глоссарий

Введение

Когда аналитик говорит “активный клиент”, маркетолог подразумевает “совершил покупку за последние 30 дней”, а финансист — “имеет положительный баланс на счёте”. Один термин, два разных определения, противоречивые отчёты. Business Glossary (бизнес-глоссарий) решает эту проблему, создавая единый согласованный словарь терминов организации.

Что такое бизнес-глоссарий

Business Glossary (бизнес-глоссарий) — это структурированный каталог бизнес-терминов организации с согласованными определениями, владельцами и связями. Он является ключевым артефактом Data Governance, обеспечивающим единое понимание терминологии между бизнесом и IT.

Бизнес-глоссарий отвечает на вопросы:

  • Что означает этот термин? (определение)
  • Кто утвердил определение? (владелец)
  • Где используется термин? (связи с данными)
  • Чем отличается от похожих терминов? (разграничения)

Структура записи глоссария

Каждый термин в глоссарии — это управляемый артефакт с обязательными атрибутами:

Шаблон записи бизнес-глоссария
term_id: уникальный идентификатор term: название термина (русский + английский) category: домен (клиенты, финансы, продукты) status: draft | review | approved | deprecated
definition: согласованное определение (1-3 предложения) examples: конкретные примеры использования non_examples: что НЕ является данным термином synonyms: допустимые синонимы antonyms: явно отличающиеся термины
owner: Data Owner домена (утверждает определение) steward: Data Steward (поддерживает актуальность) approved_date: дата утверждения review_date: дата следующего пересмотра
related_tables: таблицы, где термин реализован related_columns: конкретные колонки related_reports: отчёты, использующие термин related_terms: связанные термины глоссария

Процесс создания глоссария

Шаг 1: Инвентаризация терминов

Начните со сбора терминов из трёх источников:

  1. Бизнес-документы — отчёты, презентации, KPI-дашборды
  2. Технические артефакты — SQL-запросы, dbt-модели, Airflow DAGs
  3. Интервью — Data Stewards, аналитики, бизнес-пользователи

Шаг 2: Выявление конфликтов

Типичные конфликты определений:

# Пример: три определения "активного клиента"
definitions = {
    "marketing": "Совершил покупку за последние 30 дней",
    "finance":   "Имеет положительный баланс на счёте",
    "support":   "Обратился в поддержку за последние 90 дней"
}
# Какое определение правильное? Все три -- в своём контексте.
# Задача глоссария: создать ОДНО согласованное определение
# или явно документировать контекстные варианты.

Шаг 3: Согласование и утверждение

Data Council утверждает определения, которые не удаётся согласовать на уровне доменов. Правило: одно определение на термин. Если контексты различаются, создайте разные термины:

  • Активный клиент (маркетинг) — покупка за 30 дней
  • Активный клиент (финансы) — положительный баланс

Шаг 4: Интеграция с каталогом данных

Глоссарий становится ценным, когда связан с реальными данными. Каждый термин привязывается к таблицам и колонкам:

term: "Активный клиент (маркетинг)"
definition: "Клиент, совершивший хотя бы одну покупку за последние 30 дней"
related_tables:
  - table: "mart_active_customers"
    column: "is_active"
    logic: "last_purchase_date >= CURRENT_DATE - INTERVAL '30 days'"
  - table: "report_monthly_active"
    column: "active_count"
    logic: "COUNT(*) WHERE is_active = true"
Проверка знанийKnowledge check
Почему важно связать терминологию глоссария с конкретными таблицами и колонками, а не просто описать определения?
ОтветAnswer
Без связи с данными глоссарий -- это просто документ, который быстро устареет. Связь с таблицами и колонками обеспечивает: (1) верифицируемость -- можно проверить, реализовано ли определение в SQL, (2) трассируемость -- при изменении dbt-модели видно, какие термины затронуты, (3) обнаруживаемость -- Data Engineer ищет таблицу в каталоге и видит бизнес-контекст.

Governance бизнес-глоссария

Глоссарий — живой артефакт. Без governance он деградирует за месяцы:

ПроцессПериодичностьОтветственный
Добавление нового терминаПо запросуData Steward домена
Пересмотр определенийЕжеквартальноData Owner + Steward
Разрешение конфликтовПо возникновенииData Council
Аудит связей с даннымиЕжемесячноData Steward
Архивирование устаревшихЕжеквартальноData Steward

Правило: каждый термин имеет статус (draft -> review -> approved -> deprecated) и review date. Термин без пересмотра дольше 6 месяцев помечается needs_review.

Сценарий: DataTech Solutions

Сценарий: DataTech Solutions (ДатаТех Солюшенз)

В DataTech обнаружили, что термин “выручка” (revenue) используется в 5 разных Metabase-дашбордах с 3 разными формулами:

  • Дашборд “CEO Report”: сумма total_amount из таблицы orders (включая отменённые)
  • Дашборд “Finance”: сумма total_amount WHERE status != 'cancelled'
  • Дашборд “Marketing”: сумма total_amount WHERE status = 'completed' AND refund_amount = 0

CEO видит 12M RUB, CFO — 10.5M RUB, CMO — 9.2M RUB. Все уверены, что их число правильное.

Решение: Data Steward создаёт в глоссарии два термина:

  • Gross Revenue (валовая выручка): сумма всех заказов включая отменённые = 12M
  • Net Revenue (чистая выручка): сумма завершённых заказов за вычетом возвратов = 9.2M

CEO Report переименовывается в “Gross Revenue”, Finance корректирует формулу, Marketing подтверждается как “Net Revenue”.

Проверка знанийKnowledge check
Почему DataTech не может просто выбрать одну из трёх формул выручки и объявить её 'правильной'?
ОтветAnswer
Потому что каждая формула отвечает на разный бизнес-вопрос. CEO смотрит на общий объём бизнеса (gross), Finance -- на признанную выручку (net без отмен), Marketing -- на чистую конверсию. Все три метрики валидны, но это РАЗНЫЕ термины. Задача глоссария -- не выбрать 'одно правильное число', а чётко определить каждый термин, чтобы все понимали, о чём идёт речь.

Итоги

  • Business Glossary — структурированный каталог бизнес-терминов с согласованными определениями и владельцами
  • Каждый термин имеет определение, владельца, связи с данными и статус
  • Процесс создания: инвентаризация -> выявление конфликтов -> согласование -> интеграция с каталогом
  • Глоссарий требует governance: регулярный пересмотр, статусы, Data Council для разрешения конфликтов
  • Без глоссария организация получает противоречивые отчёты (как DataTech с тремя формулами выручки)

В следующем уроке мы перейдём к каталогу данных (Data Catalog) — системе, которая объединяет метаданные, глоссарий и lineage в единый инструмент для Data Discovery.

Проверьте понимание

Результат: 0 из 0
Прикладной
Вопрос 1 из 4. В DataTech термин 'выручка' определяется по-разному в трёх дашбордах: CEO видит 12M, CFO -- 10.5M, CMO -- 9.2M. Data Steward решает проблему через бизнес-глоссарий. Какой подход правильный?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 7