Cloudera Data Platform
Рынок распределенных вычислений и больших данных, если верить статистике, растет на 18-19% в год. Значит, вопрос выбора программного обеспечения для этих целей остается актуальным.
Зачем нужны распределенные вычисления в обычном бизнесе? Тут все просто и сложно одновременно. Просто — потому что в большинстве случаев мы выполняем относительно несложные расчеты на единицу информации. Сложно — потому что такой информации много. Очень много. Как следствие, приходится обрабатывать терабайты данных в 1000 потоков. Таким образом сценарии использования довольно универсальны: расчеты могут применяться везде, где требуется учесть большое количество метрик на еще большем массиве данных.
Одним из самых известных и обсуждаемых проектов в области распределенных вычислений является Hadoop — разрабатываемый фондом Apache Software Foundation свободно распространяемый набор из утилит, библиотек и программных платформ для разработки и выполнения программ распределенных вычислений.
Структура Hadoop
- Common — набор компонентов и интерфейсов для распределенных файловых систем
- Map Reduce — модель распределенных вычислений, предназначенная для работы с большим объемом данных
- HDFS — распределенная файловая система, работающая на больших кластерах типовых машин.
Сегодня Hadoop представляет собой сложную систему, состоящую из большого числа компонентов. Установить и настроить такую систему самостоятельно — весьма непростая задача. Поэтому многие компании сегодня предлагают готовый набор компонентов (дистрибутив) Hadoop, включающие инструменты развертывания, администрирования и мониторинга.
Что такое Cloudera Hadoop?
Cloudera Data Platform (CDP) – гибридная облачная платформа корпоративных данных. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных — от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложную обработку данных и упорядочить активы данных. Cloudera управляет и защищает жизненный цикл данных во всех основных общедоступных облаках и частном облаке, беспрепятственно соединяя локальные среды с общедоступными облаками для создания гибридного облака. Удовлетворяет все существующие и будущие потребности в аналитике.
Благодаря возможностям Cloudera Data Platform (CDP) ИТ-службы компаний могут обеспечить скорость и гибкость, необходимые бизнесу:
- Контролировать расходы на облако с помощью автоматического масштабирования, приостановки и возобновления
- Оптимизировать рабочие нагрузки на основе аналитики и машинного обучения
- Просматривать происхождение данных в любых облачных и временных кластерах
- Использовать единую панель для гибридных и множественных облаков
- Масштабирование до больших массивов данных и тысяч различных пользователей
Частью архитектуры Cloudera Data Platform (CDP) является SDX Shared Data Experience — Общий Опыт Работы с Данными. Независимо от уровней вычислений и хранения, SDX предоставляет интегрированный набор технологий безопасности и управления, основанных на метаданных, и обеспечивает связь для всей аналитики. SDX снижает риски и операционные расходы за счет предоставления согласованного контекста данных для всех развертываний.
БУДЕМ РАДЫ СОТРУДНИЧЕСТВУ
Мы являемся официальным партнером Cloudera. Если Вас заинтересовали возможности Cloudera – предлагаем провести онлайн-встречу, на которой мы детально расскажем о системе и продемонстрируем ее функциональность, а также ответим на интересующие Вас вопросы.
Оставьте заявку в форме ниже, чтобы мы оперативно связались с вами.