High performance computing - принципы проектирования сети

Post on 24-May-2015

116 views 1 download

Transcript of High performance computing - принципы проектирования сети

High Performance ComputingПринципы проектирования сетиextreme@muk.ua

Вертикали ЦОД

2

High Performance Computing (HPC)

3

High Performance Computing кластер состоит из набора соединенных между собой компьютерных систем, которые работают сообща, таким образом можно считать, что это

единая система.

Требования к НРС

4

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Вызов 1. Что такое задержка?

5

• Задержка = P + N + S + I + AP- P = Время передачи – отправка битов по проводу- N = Обработка пакета сетевым железом – коммутация, маршрутизация- S = Время сериализации – отправка битов «в провод»- I = Время обработки прерывания – прием пакета на сервере- AP = Время обработки сообщения приложением

• Обмен данными между двумя системами:- ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2

• Категоризация задержки:- Расстояние: Р- Инфраструктура: I, N, S- Приложение: АР

Вызов 1. Как победить задержку?Анализ

6

User space

Kernel Context switch Socketbuffer TCP/IP stack

NIC buffers

Программа Программа Программа Программа

Сервер 1 Сервер 2UDP пакеты отбрасываются здесь, когда память ограничена

Обмен данными между двумя системами:ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2

AP1

S2

N2PN1

S1

I1 I2

AP2

Вызов 1. Как победить задержку?Классификация

7

User space

Kernel Context switch Socketbuffer TCP/IP stack

NIC buffers

Программа Программа Программа Программа

Сервер 1 Сервер 2

AP1

S2

N2PN1

S1

I1 I2

AP2

РАССТОЯНИЕ

ИНФРАСТРУКТУРА

ПРИЛОЖЕНИЕ

Вызов 1. Как победить задержку?Методы

8

• 1000 байт на скорости 1Гб/с- 1000км = 10.1мс- 100км = 1.2мс- 10км = 303μс- 1км = 213μс- 0км = 203μс

• Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором.

- 10Мб/с = 566μс- 100Мб/с = 56μс- 1Гб/с = 5.7μс- 10Гб/с = 0.57μс• Общая лучшая практика- Правильный выбор провайдера оптической связи- Выбор более скоростного интерфейса для быстрой сериализации- Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3)- Оптимальный выбор сетевого оборудования (cut-through коммутаторы)- Создать план для обработки microbursts- Управлять DROP и DISCARD, чтобы уменьшить JITTER

Вызов 1. Как победить задержку?Выбор пути.

9

Путь Расстояние Задержка

Москва-Киев 850км 4,25мс

Москва-Киев 999км 4,99мс

Значительные различия в задержках у различных операторов

- Зависит от маршрута

- Кол-во сетевых НОР

- Наличие необходимой пропускной способности

Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика

- DWDM предпочтительней MPLS

- Рассмотреть использование высокоскоростной WAN технологии, например растянутые VLAN

Вызов 1. Как победить задержку?Топология

10

ЦОД 3

ЦОД 1

ЦОД 2

Топологические нюансыo Растянутый VLAN = WAN

коммутация на уровне 2o Создает единую сетьo Может использоваться для

геокластеризации и удобства получения multicast трафика

o Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree

o Использовать traffic shaping на управления microbursts

o Использовать одни и те же физические каналы для маршрутизируемых VLAN

Вызов 1. Как победить задержку?Железо

11

40G 40G

10G10G10G10G10G10G

Узел 1 Узел 1Узел 1

Узел 1

Чип 1 Чип 2

Шасси коммутатора

Store & forward

Cut-through

Вызов 1. Как победить задержку?Железо

12

Вызов 1. Как победить задержку?Железо

13

Общая практика Не использовать гипервизор. Никогда Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows Использовать самые быстрые процессоры

ОС заточены по умолчанию на пропускную. Перенастроить для минимализации задержки Перенастроить TCP/IP стек или обходить его – TCP offload / bypass Никогда не запускать Х сервер

Выключить iptables, ip6tables, yum-tables, sendmail, Bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs

Диск I/O Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметичное Можно смотреть в сторону OCFS32, HSF2, BTRFS LINUX runlevel По умолчанию установить RUN LEVEL 3 Тонировать QoS / Scheduling Тонировать сетевой стек Тонировать уровень приложений

Вызов 1. Как победить задержку?NIC

14

Kernel TCP/IP User space TCP/IP Bypass TCP/IP

1G Linux 48μS RTT10G Linux 16μS RTT

OpenOnLoad10μS RTT

OFED2μS RTT

Общие правила для тонировки NICo Будьте избирательны в выборе NIC. Есть большая разница в

характеристиках задержки и DROP, которые зависят от железа и драйвера.

o Проанализируйте сетевой стек

o Тонировать NIC драйвер

o Тонировать TCP/IP стек

o Обмен – уменьшая latency, Вы грузите CPU

Требования к НРС

15

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Вызов 2. Емкость.Устарелая архитектура

16

Вызов 2 – Емкость.Современная архитектура

17

Требования к НРС

18

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Вызов 3. Надежность.Аппаратная надежность.

19

Возможность горячей замены любого из компонентов

Питаниеo Отказоустойчивость по схеме N+1 или N+N

Охлаждениеo Отказоустойчивость по схеме N+1 или N+N

Коммутацияo Отказоустойчивость фабрик модулей по схеме N+1

Управление o Отказоустойчивость управляющих модулей по схеме N+1

Вызов 3. Надежность. Топология

20

ЦОД 2

SW #2SW #1

SW “D”SW “A” SW “B” SW “C”

MLAG

50% TCP50% TCP

EAPSG.8032

MLAG

MLAGSTACK

Dual-homing

Вызов 3. Надежность.Операционная система

21

Принципы на практике. Что есть на рынке

22

4x40G Ports48x10G Ports

32x40G Ports(104x10G Ports)

48x40G Ports216x10G Ports440x1G Ports fiber768x1G Ports copper

32x100G Ports192x40G Ports768x10G Ports384x1G Ports

Summit X670

Top-of-RackSummit X770

Top-of-Rack

BlackDiamond 8800

End-of-Row BlackDiamond X8

End-of-Row

Серия Summit X670

Summit® X670V-48x– 48 портов GbE/10 GbE

– Один модуль расширения для VIM4-40G-4X:

• 4 порта 40 GbE

• 16 портов 10 GbE с разветвителями

• 64 порта 10 GbE в коммутаторе

• SummitStack™-V320 используя 4 порта

40 GbE

– Стеккирование SummitStack-V используя

два порта 10 GbE

Summit X670-48x– 48 портов 1 GbE/10 GbE

– Стеккирование SummitStack-V используя

два порта 10 GbE ports

23

Двунаправленные блоки вентиляторовБлоки питания AC/DC с горячей заменой

Х670 Высокоскоростное стекирование – 320Гб/с

24

Summit X670V

Summit X650

Summit X460/480

Summit X460/480

Summit X670

Up

to 8 u

nits

Summit® X670V

Summit X650

Summit X650

Summit X480

Summit X670V

Up

to 8 u

nits

Серия Summit X770

25

32 Ports of QSFP+ 40GbE !!!Up to 104 ports 10GbE !!!

Summit X770-32q Switch Hardware

26

32-port QSFP+ Ports of 40GbE

Redundant AC/DC Power Supplies (always ships with 2 PSUs)

2 x mini BNC connectors (75Ω)1588 Output: 1PPS & 10MHz

OOB Management Ethernet

Console Port

Stack Member Number

4+1 FansFront-to-Back or Back-to-

Front (always ships with 5)

USB Port

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond 8800: Расширяемая архитектура

Page 27

Единственный производитель со всеми вариантами решений в одном шасси

Ниже TCO: 8500-модули можно использовать в системах 8800/8900

NEW

Коммутац. комната

Агрегация/Ядро

ЦОД

NEW

© 2013 Extreme Networks, Inc. All rights reserved.

8800 systemToday

MSM48c

DC: 10G8Xc

Core: 10G4Xc

Core: G48Xc

Core: G24Xc

Access: G48Tc (POE FRU)

SmallMedium Large

8500-series(for small deployments)

8800 c-series(for medium deployments)

8900-series(for large deployments)

8500-MSM24* MSM48c* 8900-MSM128*

DC: 10G8Xc DC: 8900-10G24X-c

Core: 10G4Xc DC: 8900-G96T-c

Core: G48Xc DC/Core: 8900-10G8X-xl

Access: 8500-G24X-e Core: G24Xc DC/Core: 8900-G48X-xl

Access: 8500-G48T-e (POE FRU) Access: G48Tc (POE FRU) DC/Core: 8900-G48T-xl

Все карты совместимы между собой

*Все управляющие модули поддерживают карты расширения GE or 10GE

Защита инвестиций:

1000 оптических портов на стойку? Да!

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond X8

29

Физические характеристики• 19-inch rack size, 14.5RU, 30” depth• 8 I/O slots – Horizontal• 2 MM slots - Horizontal• 4 Fabric slots – Rear Vertical• 5 Fan trays – Rear Vertical • 8 PSU slots

Производительность• Скорость коммутации 20+ Tbps • 1.28 Tbps на каждый слот• 192 x 40 GbE или 768 x 10 GbE

Надежность• 3+1 модулей коммутации, 960 Gbps на

слот в случае аварии одного fabric модуля (24 интерфейса 40 GbE неблокируемой коммутации)

• Два управляющий модуля• 4+1 блоков вентиляторов• Резервирование электропитания N+1

BlackDiamond® X8

14.5 RU

30”

17.25”

© 2013 Extreme Networks, Inc. All rights reserved.

12-Port 40GbE QSFP+ Module

48-Port 10GbE SFP+ Module

24-Port 40GbE QSFP+ Module

12-Port 40GbE-XL QSFP+ Module

48-Port 100/1000/10000MbE RJ45 Module

4-Port 100GbE-XL CFP2 Module

New

New

New

BlackDiamond X8

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond® X8 Шасси

31

8 I/O Module Slots(Horizontal)

8 PSU Slots

Dual Management Module Slots

5 Fan Tray Slots(Vertical)

8 AC Power Input Sockets

4 Fabric Module Slots

Front View

Rear ViewWith Fan Trays

Rear View4 Fan Trays Removed

Пример НРС для нефтяной компании

32

o HPC cluster is based on three main components:- Cluster servers with 10G NICs. Vendors – HP, IBM & DELL- High performance storage with 10G & 40G. Vendors DDN & Panasas- Networks switches with 10G & 40G. Vendors – Extreme Networkso Requirements for platforms- Storage must support both Infiniband for legacy connectivity and Ethernet- Server platform Intel/Linux & 7200TB storage- 10G/40G Etherneto Purpose of HPC- Must support a connectivity of large storage subsystems- To be used for seismic data processing

Пример. Топология

33

HP Cluster Servers

Extreme Networks

BLACK DIAMOND X8 DDN Storage Servers

LAN

3rd party network vendor

10G

228 ports

10G

16 ports

40G

128 ports

ПримерНРС для нефтяной компании

34

• Почему Ethernet

Компании запросили решение на Ethernet потому что: a. Ethernet может передавать 40G, но IB может 40G и 56G b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX c. Ethernet дешевле в поддержке. Низкий OPEX d. У Ethernet есть 100G e. За Ethernet стоят тяжеловесные производители сетевого

оборудования

Спасибо за внимание!

У Вас есть вопросы?

35

Паливода Александрopali@muk.ua