Откажитесь от предубеждений, которые установила традиционная архитектура платформы данных.
Стать организацией, управляемой данными, остается одной из главных стратегических целей многих компаний. Клиенты хорошо осведомлены о преимуществах современной аналитики:
— обеспечение наилучшего клиентского опыта на основе данных и гиперперсонализации;
— сокращение операционных затрат и времени за счет оптимизации на основе данных;
— наделение сотрудников сверхспособностями с помощью анализа тенденций и бизнес-аналитики.
Они вкладывают значительные средства в создание таких инструментов, как платформы данных, озера и хранилища.
Несмотря на увеличение усилий и инвестиций в создание таких поддерживающих платформ, организации находят результаты средними. Действительно, организации сталкиваются с многочисленными сложностями на пути к дата-центричности — необходимость работы с десятками унаследованных систем, сопротивление устаревшей культуры и постоянно конкурирующие бизнес-приоритеты.
Однако есть интересная парадигма, лежащая в основе современной распределенной архитектуры данных. И, прежде чем продолжить чтение, временно откажитесь от предположений и предубеждений, которые установила традиционная архитектура платформы данных. Будьте открыты для возможности перехода от монолитных и централизованных озер данных к преднамеренно распределенной архитектуре. Примите реальность вездесущего, повсеместного и распределенного характера данных.
Архитектура Data Mesh
Организации постоянно стремятся использовать возможности своих ресурсов данных для принятия обоснованных решений и получения конкурентного преимущества. Вот почему архитектура Data Mesh, предложенная Zhamak Dehghani в 2019 году, стала революционным поворотом в подходе к управлению и масштабированию инфраструктуры данных.
Data Mesh представляет собой смену парадигмы, поскольку она делает акцент на децентрализации, владении данными, ориентированном на предметную область, и совместном подходе к управлению данными.
Она следует четырем основным принципам:
— Доменно-ориентированное, децентрализованное владение данными: каждый домен отвечает за управление и предоставление организации своих собственных данных.
— Данные как продукт. Продукт данных — это набор данных из определенного домена. Продукты для работы с данными должны быть легко обнаруживаемыми, понятными и доступными для остальной части организации.
— Самостоятельная инфраструктура данных как платформа, позволяющая избежать сложностей и дублирования усилий между доменами. Это также позволяет доменам создавать, развертывать, публиковать и управлять продуктами данных в режиме самообслуживания.
— Федеративное управление вычислительными данными обеспечивает взаимодействие между доменами с помощью общей семантики и соглашений для общих сущностей. При необходимости глобальные политики безопасности и управления могут быть применены ко всем доменам.
Реализация Data Mesh может быть сложной, но с помощью правильных инструментов этот процесс можно значительно упростить.
Проблемы Data Mesh
Внедрение децентрализованной архитектуры может привести к трансформационным изменениям в том, как организация управляет своими данными и использует их. Однако, как и любой серьезный сдвиг в стратегии, он может представлять собой ряд проблем, которые необходимо преодолеть, чтобы обеспечить успешную реализацию.
Сдвиг в мышлении. Переход от традиционного централизованного подхода к работе с данными к децентрализованной Data Mesh требует фундаментального изменения мышления. Он включает в себя переосмысление владения данными, совместного использования и совместной работы.
Владение доменом. Назначение прав собственности на данные отдельным командам доменов звучит просто в теории, но на практике это может быть сложно. Четкое определение владельцев, обязанностей и подотчетности для доменов данных требует тщательного планирования и коммуникации.
Управление данными: децентрализованный подход может привести к проблемам в поддержании стабильного качества данных, безопасности и соответствия требованиям. Создание структур управления, обеспечивающих автономию и целостность данных в разных доменах, представляет собой хрупкий баланс.
Обнаружение данных. Если несколько наборов данных распределены по разным доменам, может быть сложно найти соответствующие наборы данных и понять их качество, контекст и доступность. Поэтому крайне важно внедрить эффективные механизмы каталогизации и обнаружения данных.
Совместное использование данных и совместная работа. Для успешного внедрения Data Mesh важно поощрять сотрудничество между командами предметной области, чтобы они были открыты для совместного использования и использования продуктов данных. Преодоление разрозненных практик работы с данными и развитие культуры обмена данными требует четких стимулов и коммуникации.
Техническая инфраструктура. Базовая техническая инфраструктура для поддержки децентрализованной архитектуры, такой как Data Mesh, должна обеспечивать масштабируемость и хорошую производительность.
Требования к набору навыков. Для успешной реализации Data Mesh необходимо сочетание навыков из разных областей, включая инженерию данных, науку о данных и знания в конкретной предметной области. Убедиться в том, что члены команды обладают необходимыми навыками, и способствовать развитию навыков может быть непросто.
Безопасность и конфиденциальность данных. Поскольку данные распределены по доменам, обеспечение безопасности и конфиденциальности данных становится все более сложным. Внедрение надежных средств управления доступом к данным, политик и мер по обеспечению соответствия требованиям, а также обеспечение совместного использования данных требует тщательного планирования.
Вот почему необходима платформа управления данными, которая устраняет разрыв между сложными техническими процессами и практическими потребностями бизнес-пользователей.
Демократизация данных
Data Mesh построена на принципе демократизации доступа к данным и владения ими. Экспертам в предметной области, которым не хватает технических навыков (например, программирования или SQL), будет трудно взаимодействовать с экосистемой данных и вносить свой вклад в нее. Это может ограничить доступность и возможность для доменных команд создавать собственные продукты данных и управлять ими.
Таким образом, успешная реализация должна предоставить командам предметной области простые в использовании инструменты и интерфейсы, которые позволят им взаимодействовать с данными без необходимости писать сложные запросы. Решения с поддержкой виртуализации данных, такие как Denodo Platform, абстрагируют технические сложности SQL, позволяя пользователям сосредоточиться на понимании, преобразовании, проверке и использовании данных, а не на изучении нового языка. Таким образом, пользователи предметной области могут легко создавать виртуальные наборы данных, комбинируя и преобразуя данные из различных источников, не увязнув в тонкостях кодирования.
Сотрудничество между техническими и нетехническими командами имеет важное значение, поэтому необходимы возможности для совместной работы и удобный интерфейс, чтобы способствовать сотрудничеству и общему пониманию данных.
Расширение возможностей экспертов в предметной области
Демократизируя доступ к данным и манипулирование ими, организации могут развивать культуру принятия решений на основе данных, позволяя бизнес-пользователям самостоятельно изучать аналитические данные и делать осознанный выбор.
По сравнению с другими инструментами, требующими понимания SQL или сложных скриптовых языков, обучение экспертов в предметной области тому, как использовать платформу Denodo, является гораздо более гладким процессом. Учебные занятия могут быть сосредоточены на практических сценариях и манипулировании данными в режиме реального времени, а не на погружении в синтаксис и нюансы кодирования. Такой оптимизированный процесс обучения не только повышает доверие пользователей, но и ускоряет внедрение Data Mesh в организации.
Каталог Данных
Каталог данных является критически важным компонентом при реализации Data Mesh. Он служит центральным репозиторием метаданных, информации и документации о наборах данных и продуктах данных, распределенных по различным доменам в организации.
В отличие от традиционных платформ данных, которые часто требуют написания сложного кода SQL, платформа Denodo позволяет пользователям разрабатывать свои собственные продукты данных, не обладая предварительными знаниями о базовых источниках данных и языках, специфичных для исходного кода. Кроме того, пользователи смогут перемещаться и запрашивать данные с помощью визуального подхода с помощью каталога данных Denodo, который помогает техническим и нетехническим пользователям находить соответствующие наборы данных и понимать их качество.
Расширение междоменного сотрудничества
Согласование технических команд с бизнес-целями может стать еще одной проблемой при децентрализованном внедрении.
Платформа Denodo соединяет оба мира, предоставляя общую платформу, которую каждый может понять и внести свой вклад. Бизнес-пользователи могут определить свои потребности в данных, используя знакомую терминологию, в то время как технические команды могут спроектировать базовую инфраструктуру данных в соответствии с этими требованиями и применить необходимые оптимизации. Такое слаженное сотрудничество гарантирует, что продукты данных соответствуют бизнес-целям, что приводит к более эффективным аналитическим сведениям и результатам.
Меняя правила игры
В эпоху Data Mesh внедрение масштабируемой и эффективной инфраструктуры данных имеет решающее значение для успеха организации. Платформа Denodo меняет правила игры, упрощая внедрение Data Mesh благодаря удобному интерфейсу и устраняя разрыв между бизнес-пользователями и техническими командами.
Предоставляя бизнес-пользователям возможность манипулировать данными без обширных знаний в области кодирования, платформа Denodo ускоряет внедрение Data Mesh и способствует созданию среды для совместной работы, в которой аналитика легко доступна, а решения принимаются на основе данных.
По мере того, как организации начинают свой путь к Data Mesh, платформа Denodo предоставит надежный способ раскрыть истинный потенциал своих активов данных.