Download - Nutanix Acropolis - облако на базе KVM под ключ, Максим Шапошников (Nutanix)

Nutanix Acropolis - облако на базе KVM “под ключ”, или WebScale в коробке.Максим Шапошников

199

020

05

Буд

ущее

Эффективность

Гипервизор - ширпотреб

1. Сложность (множество вендоров, различных коммуникаций)2. Неэффективность (место и энергопотребление)

3. Непредсказуемое расширение (нелинейность)

Проблемы традиционных ДЦ

Цели WebScale дизайна ДЦ• Массивное снижение энергопотребления и

прогнозируемое масштабирование• Нет единой точки отказа• Распределять все• Всегда работает• Полная автоматизация и мощная аналитика

Фундаментальные аксиомы• Стандартные однотипные x86 сервера:

«отказало -> заменил»• Нет специализированных аппаратных средств• Весь интеллект и сервис в ПО• Линейный, предсказуемый рост

Web-Scale IT

Openstack? Ха-ха три раза.• Не решает проблем низкого уровня (ввод-вывод данных)• Рабочие коммерческие варианты по факту очень дороги и

несовместимы• Масса (зачастую) лишнего функционала, вносящего

нестабильность. • Очень высокий порог вхождения - требуются специалисты

экстра-класса для запуска и поддержки.• Чаще всего реально требуется не создание IaaS или PaaS, но

внутренняя облачная инфраструктура. • Есть существенные проблемы масштабируемости.

Пилите Шура, они золотые!• OpenStack remains an emerging technology• It is not mature yet• Error handling not robust• Understanding the flow of calls and messages is needed• Large volume of message based rpc calls• Logging is not optimal (either too much or too little)• You must be willing to look at code• Networking (nova-network) is complicated• Multiple bridges• IPTables configuration not straight forward© IBM Corporation

Не путать проект и продуктCeph, GlusterFS – отличные проекты

• Крайне сложный запуск• Ограниченный или отсутствующий UI• Практически любое «железо»• Уникальные протоколы (эмуляция стандартных при

необходимости)• Только ФС, не решает вопросов управления виртуализацией• Фактически, только KVM (ESXi / HyperV – говорить несерьезно)• Не создавались и не затачивались под виртуализацию.• Отсутствует взаимная интеграция гипервизора и СХД

(локализация ввода-вывода)

Не путать проект и продуктNutanix Acropolis – законченное решение

• «Под ключ» с запуском за 15-30 минут• HTML5 UI• Ограниченный, но 100% протестированный набор оборудования

(Supermicro, Dell) – полная интеграция IPMI / аппаратного мониторинга

• Использование стандартных протоколов (iSCSI, NFS, SMB3)• BigData технологии (Cassandra, Zookeeper, etc), все

распределенное• Комплексное решение• Не завязан на KVM

Proxmox?• Все проблемы стандартных решений• Копии конфигураций всех VM на каждом ноде• 16 нодов в кластере (2014 год!)• Попытка скопировать Look’n’Feel VMware vCenter (который уже

устарел сам по себе)• Только KVM• Серьезнейшие проблемы производительности при большом

количестве VM

Традиционные СХД• Архаичные RAID системы, не рассчитанные на

масштабируемость и отказоустойчивость• Время “ребилда” современной СХД при отказе одного диска

может быть часами или сутками.• RAID6 - потеря данных в течении года (при достаточно больших

датасторах) - практически гарантирована• На рынок выходят диски 10TB, что несет в себе множество

дополнительных проблем (Теперь мы идем к вам (с)! Сутки ребилда? Легко!)

• Упор в количество интерфейсов ввода-вывода и производительность контроллеров.

Nutanix – все в одном• Отсутствуют все вышеназванные узкие места.• Безлимитное масштабирование (как по производительности, так

и размеру кластера). Миллионы IOPS, тысячи VM на стойку• Использование по максимуму open-source компонент с

существенной доработкой (Cassandra NoSQL, Apache ZooKeeper, Linux Kernel, EXT4, KVM).

• Полностью программная реализация.• Распределенная файловая система NDFS и система управления

облаком Acropolis.• Поддержка стандартной версии KVM (Centos 6.5+) через libvirt,

но полностью своя реализация управления кластером - aCLI, HTML5 UI, RESTful API.

Nutanix – все в одном• Нет RAID или JBOD (на всех уровнях)• 2-я или 3-я защита данных• Disaster Recovery (репликация датацентров)• Метаданные файловой системы и кластера хранятся в NoSQL DB

Cassandra. • Конфигурация кластера - Apache Zookeeper. • Активное применение SSD как полноценного уровня хранения

(не кэширования).

Традиционные vs Nutanix

Сеть СХД

Сервера

SAN

NutanixGoogle

FacebookMicrosoft

Другие решения VSAN Старые

Гипер-конвергентные решения на x86 – интеграция компьютинга и СХД

Все в программном обеспечении – 100% «только ПО»

Распределение всего – кластеризация данных и сервисов

Самоизлечение – изоляция сбоев и распределенное восстановление

API автоматизация и мощная аналитика

Множство различных приложений одновременно

Архитектуры

NUTANIX INC. – CONFIDENTIAL AND PROPRIETARY

Nutanix Distributed File System

Компоненты кластера

Компоненты кластераArithmos: Публикация и получение статистики гипервизора

Cassandra: Конфигурация VM, файловая система NDFS. 3 или 5 копий.

Stargate: подготовка и работа с виртуальными дисками, отдача по протоколам iSCSI / NFS / SMB3

Zookeeper: конфигурация кластера (одна из наиболее устойчивых к partitioning систем хранения кластерных конфигураций)

Prism: UI / CLI / API

CAP Теорема – «умный в гору»В любой реализации распределённых вычислений возможно обеспечить не более двух из трёх следующих свойств (WikiPedia):

• Согласованность данных (англ. Consistency) — во всех вычислительных узлах в один момент времени данные не противоречат друг другу;

• Доступность (англ. Availability) — любой запрос к распределённой системе завершается корректным откликом;

• Устойчивость к разделению (англ. Partition tolerance) — расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций.”

…обойдетЗначительная доработка Кассандры, многократное дублирование (3 – 5 копий метаданных) с реализацией Paxos алгоритма.

• CAP -> CAP

• Практически мгновенная сходимость файловой системы – суровая необходимость

• Доступность – без вариантов

• Устойчивость к партиционированию – делаем множество копий

Резервирование данных

100% программно RF-3 защищает от одновременного

выхода из строя двух дисков, нодов и сетевых карт

Переключайтесь между RF-2 и RF-3 Уровень репликации (защиты)

выставляется на уровне контейнера

Динамическая настройка различных уровней защиты для разных приложений в одном кластере

RF-2 контейнер (2 копии данных)

RF-3 контейнер (3 копии данных)

V1: Защищает от потери блока целиком (4 нода / контроллера одновременно)

Доступно начиная с трех блоков

Распределение данных между аппаратными блоками

Блок Блок Блок

Умное распределение

CLI / API : Управление VM• CPU and memory.

• Disk and NIC (hot-plug).

• Boot order configuration.

• Power operations.

• Live migration.

• Crash-consistent snapshot, restore, clone.

CLI / API: управление сетью

• OpenvSwitch (для KVM)

• VLAN

• IPAM (перехват DHCP / ARP на уровне хоста)

Prism Central

Агрегация статусов кластеров Единая точка входа Накапливание исторических

данных для глубокого анализа Упрощение рабочих процессов

Управление множеством кластеров по всему миру из единой точки

Интегрированная защита

Безлимитные локальные снапшоты на основном кластере с Time Stream

Восстановление данных «одним кликом»

WAN-оптимизированная репликация для DR

Локальные и «на расстоянии» снапшоты для целей резервного копирования и восстановления из аварий через Prism

vdisk Локальные снапшоты

Снапшоты в другом ДЦ

DR Кластер

Основной кластер

Локальные бэкапы (вне кластера)

Он-сайт вторичные

High End нагрузки и задачи

• High End решение

• Практически любые применения

• Государство, Военные, Медицина, Корпорации, Сервис провайдеры

p.s. не грузится VM?

Спасибо!

[email protected]

@Nutanix_Russia