Содержимое для авторизованных пользователей

Хранить дешевле, анализировать быстрее: как Data Lakehouse дает оставаться в игре

Аналитика данных позволяет компаниям принимать аргументированные решения, оптимизировать бизнес-процессы, находить точки роста и даже обоснованно планировать следующие шаги. Нюанс в том, что точность аналитики и прогнозов часто связана с объемом доступных для изучения данных. Но не все компании знают, как правильно хранить и обрабатывать большие объемы данных, чтобы такая работа оставалась рентабельной. О том, с какими вызовами сталкиваются компании при обработке больших объемов данных, какие стратегии применяют для минимизации затрат, и что можно использовать для эффективной работы с данными, рассказала руководитель направления сервисов по работе с данными в компании VK Tech Екатерина Канунникова.

— Расскажите, с какими вызовами сталкивается бизнес при обработке больших объемов данных?

— Как ни странно, один из главных вызовов для современных компаний — само по себе увеличение объема данных. Так, сейчас каждый день генерируется более 328 миллионов терабайт данных. Экстраполируя эту цифру, в 2025 году будет создано более 181 зеттабайт данных в год. При этом бизнес-аналитика часто подразумевает необходимость сохранять всю информацию о клиентах (из разных источников) для рекомендаций, персонализации, бизнес-планирования и других задач. В первую очередь, сложность кроется в том, что для хранения больших массивов информации нужна соответствующая инфраструктура. Причем построить хранилище недостаточно, ведь объем данных непрерывно увеличивается. Соответственно, нужно предусматривать такую архитектуру, при которой хранилище можно будет регулярно расширять.

Также бизнес сталкивается с необходимостью адаптироваться под растущие объемы данных на уровне процессов и технологий. Так, кроме объема данных, растет и их разнообразие. Поэтому бизнесу нужно уметь разбираться в тысячах датасетов и постоянно добавлять новые, то есть структуры данных должны быстро и гибко реагировать на новые вызовы и процессы.

Более того, компаниям приходится учитывать, что данные могут быть разного типа: структурированные, полуструктурированные, неструктурированные. Для каждого из типов нужен свой подход и соответствующий набор инструментов для хранения и обработки.

Труднопреодолимым барьером для компаний нередко становится и необходимость интеграции данных из разных источников. Особенно это актуально для крупных компаний с большим количеством бизнес-юнитов и сложной ИТ-архитектурой — в таких сценариях нужно строить сквозную аналитику, а это также не всегда просто и быстро.

К распространенным вызовам также относится вопрос обеспечения безопасности данных. С увеличением объема данных усложняется контроль над ними: возрастают риски утечки или потери, появляются отдельные требования к хранению, получению доступа, обработке.

— Можно ли выделить одну или несколько реализаций, которые способны помочь компаниям более эффективно справляться с вызовами в части хранения и обработки данных?

— Одно из решений, которое позволяет бизнесу справляться с текущими вызовами — построение Data Lakehouse.

Data Lakehouse — это подход к хранению и обработке данных, который сочетает достоинства Data Lakes (озер данных) и Data Warehouses.

Data Lakehouse дает возможность:

  • хранить большие объемы структурированных и неструктурированных данных в одном месте (в качестве хранилища обычно используют дешевое объектное хранилище S3);
  • получать быстрый доступ к данным для последующего анализа;
  • иметь поддержку транзакционности и согласованности.

Для понимания, наряду с консолидацией данных в одном месте и простым масштабированием, Data Lakehouse обеспечивает ощутимую экономию. Это особенно наглядно в случае работы в облаке, где сервисы доступны по модели pay-as-you-go, то есть с оплатой только за фактически использованные ресурсы.

Так, для хранения 1 ГБ данных в облачной СУБД с учетом репликации требуется более 2 ГБ пространства на SSD-диске. По актуальным ценам это составляет около 20 рублей в месяц.

Для хранения аналогичного объема понадобится около 1,5 ГБ в объектном хранилище S3. При использовании Data Lakehouse, построенного на базе стека от VK Cloud, это будет стоить около 3 рублей в месяц. То есть экономия значительная.

— Компаниям нужно строить такую архитектуру с нуля или есть готовые решения для построения Data Lakehouse?

— Компании могут строить собственные Data Lakehouse с нуля. Но этот путь подходит не всем — реализация платформы собственными силами требует глубокой, многоуровневой экспертизы в разных аспектах и довольно много времени для настройки и интеграции всех компонентов. Более того, не все компоненты можно реализовать силами одной компании — иногда без поддержки вендора невозможно получить, в том числе, критически важные бизнес-сервисы. Аналогичная ситуация и с технологиями — строить всю экосистему инструментов для Data Lakehouse и сопутствующих задач просто нерационально. Поэтому так или иначе, даже реализованные силами inhouse-команд разработки Data Lakehouse часто превращаются в гибрид, который сочетает самописные решения с сервисами вендора.

Но есть и готовые решения, которые, как правило, строятся на основе дата-платформ, где уже доступны все нужные компоненты для всех слоев работы с данными: хранения, управления, аналитики, построения отчетов. Выбор в пользу таких «all-in-one коробок» позволяет существенно снизить порог входа в работу с Data Lakehouse с точки зрения экспертизы, инвестиций, сроков подготовки хранилища и не только. Например, Data Lakehouse можно выстроить на основе VK Data Platform — универсальной платформы для end‑to‑end работы с большими объемами данных и машинным обучением.

— Можно ли предположить, в каком направлении будут развиваться технологии с учетом растущих потребностей бизнеса?

— Здесь можно выделить сразу несколько общих трендов.

  • Сейчас сохраняется устойчивый тренд на увеличение объемов данных, с которыми приходится работать компаниям. Одновременно с этим повышаются и требования к скорости обработки, безопасности и управляемости данными. С развитием ИИ, машинного обучения, больших языковых моделей возрастает транзакционная нагрузка. В результате в будущем преимущество будет у тех компаний, которые смогут максимально эластично масштабировать мощности — здесь будут полезны облака.
  • Также на российском рынке сохраняется тренд на делегирование задач внешним командам, например, вендорам. Отчасти это обусловлено тем, что на рынке наблюдается дефицит кадров и экспертизы, отчасти — возможностью фокусироваться на решении бизнес-задач, в то время как внешние специалисты занимаются всеми техническими аспектами. Соответственно, можно ожидать, что все больше компаний будет мигрировать в облака, где все сервисы и ресурсы можно просто использовать, не задумываясь о настройке, поддержке и обновлении.
  • Растет важность получения инсайтов и бизнес-пользы от аналитики. Заказчики хотят не просто строить отчетность, а зарабатывать ее с помощью. Например, многие клиенты VK Cloud строят на базе облачных решений свои Data Office, которые направлены именно на то, чтобы получать больше ценности для бизнес-команды.
  • Продолжает развиваться и тренд на гибридность. То есть многие компании хотят строить инфраструктуру на разных платформах — как в публичных облаках, так и on-prem, — и при этом иметь возможность гибкой интеграции между своими распределенными системами. Гибридность важна и потому, что она позволяет одновременно использовать преимущества облака (например, по клику получать нужные ресурсы и инструменты) и выполнять жесткие требования со стороны ИБ в части хранения определенных данных.

Важно отметить, что мы, как крупный облачный вендор, понимаем запросы реальных пользователей, поэтому и платформа VK Cloud в целом и VK Data Platform в частности развиваются с учетом общих трендов.

Прокрутка наверх