Версия 1.3

Платформа данных без вендор-лока

Практическое руководство по созданию хранилища данных и аналитической системы на базе dbt Core, PostgreSQL, Airflow и Lightdash.

Обложка книги Платформа данных на open-source

О чем и для кого эта книга?

Данная книга адресована, в первую очередь, таким же BI-консультантам и разработчиками хранилищ данных, как и я, которые на протяжении большей части своего профессионального пути взаимодействовали с решением одного вендора. Лично я более 15 лет проработал в основном с продуктами семейства SAP.

Процесс импортозамещения, подстегнутый уходом зарубежных вендоров из России, их отказом поддерживать текущие решения и продлевать лицензии, заставил отечественные компании активно искать альтернативное программное обеспечение.

Однако сложившиеся обстоятельства затрагивают не только бизнес, сталкивающийся с финансовыми потерями и репутационными рисками. Текущая ситуация вынудила многих экспертов, в том числе в области данных, встать перед серьезным выбором относительно своего дальнейшего профессионального развития.

Безусловно, можно спокойно продолжать работать с теми же самыми продуктами. Да, лицензии не продлеваются. Но само по себе программное обеспечение и построенные на нем информационные и аналитические системы никуда не делись. У российских специалистов накоплен огромный опыт для успешного сопровождения этих систем в течение длительного времени. Однако важно объективно оценивать ситуацию: ни о каком дальнейшем технологическом развитии речи уже не идет.

Для BI-разработчиков и других специалистов, занимающихся созданием аналитических решений, которые стремятся к дальнейшему технологическому росту, я выделяю следующие пути развития:

1. Изучение коммерческих отечественных и альтернативных зарубежных продуктов.

2. Изучение open-source технологий и инструментов.

Не хочу никого обидеть, но я принимал участие в тестировании отечественных решений по созданию хранилищ данных и отчетности в рамках импортозамещения. Тестирование показало, что данные продукты далеки от идеала и не покрывают всей функциональности той же линейки продуктов SAP. Понятно, что через какой-то период времени отечественные разработчики программного обеспечения доведут свои детища до текущего состояния лидеров рынка. Но велика вероятность, что за это время технологии зарубежных вендоров уйдут дальше. И придется снова догонять.

Рассматривая варианты стороннего зарубежного ПО, мы неизбежно сталкиваемся с китайскими разработками, которые сейчас доминируют во многих секторах экономики. Однако ключевым фактором здесь остается риск введения ограничений со стороны китайских партнеров в отношении пользователей из России – хотя эта вероятность оценивается как невысокая, полностью исключать ее нельзя. В условиях завтрашней неопределенности этот риск, к сожалению, нужно учитывать.

Поэтому, на мой взгляд, логичнее ориентироваться на open-source продукты и строить аналитические системы на базе них.

В процессе ознакомления с данной книгой вы разработаете прототип платформы данных для выдуманной каршеринговой компании – выполните шаги по созданию, развертыванию, запуску, тестированию и документированию проекта с помощью нескольких востребованных в настоящее время в индустрии open-source инструментов. Но все-таки основной фокус учебного проекта направлен на изучение одного из них.

Книга задумана как теоретическое и практическое пособие по работе с dbt™ (data build tool). В его основу легли мои личные конспекты первоисточников и разнообразные материалы, собранные во время освоения этого программного обеспечения. Не следует рассматривать данное руководство как полноценный эквивалент курсам обучения или официальной документации; скорее, оно призвано стать отправной точкой для дальнейшего знакомства с функциональностью и архитектурой dbt™.

Вы можете бесплатно ознакомиться с полной текстовой версией книги на сайте проекта (dwh-book.ru), чтобы оценить структуру и подачу материала перед покупкой. Покупая книгу здесь, вы получаете готовый репозиторий с исходным кодом проекта и скрипт автоматического развертывания, а также поддержку в реализации проекта.

Основные логические разделы книги:

01

Архитектура хранилищ данных

Отказ от проприетарных систем. Проектирование слоев (Staging, Intermediate, Marts). Паттерны Кимбалла.

02

dbt Core: От SQL к инженерии

Настройка окружения, написание первых моделей, работа с материализациями (view, table, incremental) и макросами Jinja.

03

Оркестрация с помощью Airflow

Настройка последовательности выполнения задач dbt Core. Валидация данных, деплой изменений и работа с состоянием графа зависимостей.

04

Lightdash: BI-as-Code

Подключение self-hosted BI к PostgreSQL и dbt Core, создание семантического слоя и настройка дашбордов через код.

Автор книги Владимир Юсупов

Владимир Юсупов

Эксперт с более чем 15-летним опытом внедрения корпоративных решений для бизнес-аналитики (BI).

Специализируется на проектировании, построении и масштабировании хранилищ данных (DWH) и аналитических систем. На протяжении карьеры успешно совмещал работу над крупными архитектурными проектами в штате компаний с ведением независимой консалтинговой практики.

Доступ к материалам

Электронная книга

1500 ₽

Базовая цифровая версия для комфортного обучения.

  • Формат: PDF
  • Исходный код всех объектов
  • Скрипт для развертывания проекта
  • Поддержка и сопровождение
  • Бесплатные обновления
Оплатить

Способ получения: ссылка на скачивание цифровых материалов автоматически отправляется на ваш email сразу после оплаты.

Частые вопросы

Нет, достаточно базовых знаний SQL и Python. Весь код подробно разбирается и поясняется в книге (в том числе, Jinja-макросы и команды терминала).

Вы получите сверстанный PDF-файл высокого разрешения, удобный для чтения с экрана, а также ссылку на GitHub-репозиторий с исходным кодом и скриптом развертывания проекта.

Вам будет предостален доступ к сообществу книги и учебного проекта в GitHub Discussions. Там можно задать вопрос, обсудить архитектурные подходы, предложить улучшение технологических решений или же просто найти единомышленников.

Это "живой" продукт. При выходе "мажорных" версий основного программного обеспечения проекта (dbt Core), в книгу будут вноситься правки. Далее вы получите обновленную версию книги на вашу электронную почту.

Да, вы можете читать книгу и выполнять учебный проект совершенно бесплатно на сайте (dwh-book.ru). В платной версии вы получаете доступ к исходному репозиторию проекта и удобный скрипт развертывания, а также поддержку автора при работе с проектом.