Post on 13-Jan-2017
Data Center Fabric Evolution
EVPN for Cloud Builders
The MARCH to IP Fabrics
Juniper Networks,K.K.
2015/12
仮想化とクラウドDCの流れ
Data Center 仮想化された Data Center Private Cloud(より高度な仮想化とオートメーション化)
OrchestrationAutomationSelf-Service Portal
収容顧客毎のグルーピングとサービス・チェイニング
VM VM VM VMグループ(テナント)VMs or Servers• Applications, Tenants, ...
PolicyConditions + Actions
仮想化されたネットワーク
グループベースのポリシー
仮想化されたData Center を司るDCI(Data Center Interconnect)
Virtual Private CloudIaaS Provider 1
Private CloudData Center 1
Private CloudData Center 2
WAN
Gateway RedVPN
GreenVPN
VLANによるネットワークの仮想化“Traditionalな” アプローチ
VM VM
VM VM
VMVM
Bare Metal Server
Tenant / Application毎にVLANを割り当てる
Virtualized Server
VLANによるネットワークの仮想化
仮想化されたトポロジーが物理的な制約やVLAN IDの制限に縛られてしまう
Layer 3 POD Inter-connect
App 1
App 2
App 3
App 4
App 5
Deployment Silo Deployment Silo Deployment Silo
Layer 2 POD with VLANs Layer 2 POD with VLANs Layer 2 POD with VLANs
Overlayアーキテクチャ”新しいDCアーキテクチャ”による解決方法;L3VPN or EVPN over VXLAN over IP Fabric (or LSP over MPLS Fabric)
VM VM
VM VM
VMVM
VXLAN
BGP
IP Fabric
EVPN or L3VPNBGP Route-Reflector
App 1
App 2
App 3
App 4
App 5
Overlayアーキテクチャ
仮想化されたトポロジーと物理・論理的な制約を自由に切り離す事が可能に
Layer 3 IP Fabric + EVPN-VXLAN overlay
POD PODPOD
Software-Defined Networking (SDN)
SDN ControllerVMVMVM VM
VM VM
Cloud Management System
SDNやSDDCを実現するためには、この物理・論理的な制約からネットワークを解き放つ事がまず必要に!
L3L2
L3L2
L3L2
L3L2
L3L2
L3 L3
L3 L3 L3
L3L2
L3L2
L2 L2 L2
Data Center Fabric EvolutionMarch Towards IP Fabrics
• ネットワーク管理負荷の軽減• ストレージ・コンバージェンス• Active-Active Forwarding
(L2/L3マルチパス)
• アプリケーションの制御• Overlayアーキテクチャ• ホスティング環境へのより柔
軟な適応
Traditional Ethernet Fabric IP Fabric
Ubiquitous L2/L3 Ubiquitous L2/L3 L3 Only
Mid
MarketF500 T2 SP T1 SP MSDC
Mid
MarketF500 T2 SP T1 SP MSDC
Mid
MarketF500 T2 SP T1 SP MSDC
IP Fabric
Edge / Transit Network
Physical Server
AppApp App
Physical Server
AppApp App
Physical Server
AppApp App
Peers Internet
なぜ IP Fabric か?3つの主なユースケース
• Software-Defined Data Center• Self-Service
• Over-the-Top Web Services• ハイパースケール
• マルチテナンシー• ハイパー論理スケール
IT-as-a-Service Software-as-a-Service Hosting / IX
UnderlayIP Fabric
Overlay
Server
Hypervisor
VMVM VM
Server
Hypervisor
VMVM VM
Server
Hypervisor
VMVM VM
OverlayController
VLAN Fabric – IP Fabric + VXLAN + EVPN
Edge / Transit Network
Physical Server – T2
AppApp App
Physical Server – T1
AppApp App
Physical Server – T3
AppApp App
Peers Internet
Data Center アーキテクチャの傾向イーサネット・ファブリックとIPファブリックのトレンド
0%
25%
50%
75%
100%
MidMarket
F500 T2 SP T1 SP MSDC
Traditional Ethernet Fabric IP Fabric
0%
25%
50%
75%
100%
MidMarket
F500 T2 SP T1 SP MSDC
Traditional Ethernet Fabric IP Fabric
Today Next Generation
Data Center TimelineJuniper はすべての選択肢を柔軟にサポート
L2 + STP + L3 + RVI
MC-LAG
JUNOS Fusion
QFabric
3-Stage
5-Stage Performance
5-Stage Real Estate
VXLAN + EPVN Fabric
Traditional Ethernet Fabric IP Fabric
Virtual Chassis Fabric
Virtual Chassis
QFX10002-36QFixed
QFX10002-72QFixed
QFX100088-slot modular
QFX1001616-slot modular
QFX5000
Multi-TierL2/L3
Ethernet FabricL2/L3
IP FabricAll L3
QFX10000EVPN VxLAN ISSUEVPN MPLS Segment Routing
AutomationAnalyticsIntegrated CloudManagement
あらゆるDCアーキテクチャに柔軟に対応することが可能な新世代のSpineスイッチ:
QFX10000-Series
3:1O/S
S S S S
L L L L L L L L L L L LL L L L
IP Fabric トポロジー必要なサイズはビジネスの傾向により変化
3-Stage IP Fabric 5-Stage IP FabricPerformance
5-Stage IP FabricReal Estate / POD
Spine Leaf AccessS L A
3:1O/S
A A A A A AA A
S S S S S SS S
L L L L L L L L L L L LL L L L
24:1O/S
3:1O/S
3:1O/S
3:1O/S
3:1O/S
A A A A A A A A A A A AA A A A
S S S S
L L L L L L L L
VXLAN Fabric アーキテクチャVXLAN Tunnelのフル・メッシュ構成
S S S S
BMS BMS BMS
L L L L L L L L L L L LL L L L
BMS
VXLAN Routing in the Spine
VXLAN L2 GW in Leaf
L2 / L3 Everywhere
CLOS IP Fabric Requirements
Requirement OSPF IS-IS BGP
Advertise prefixes Yes Yes Yes
Scale Limited Limited Yes
Traffic Engineering Limited Limited Yes
Traffic Tagging Limited Limited Yes
Multi-Vendor Stability Yes Yes Even more so
VPNs No No Yes
S1AS1
S2AS2
L1AS3
L2AS4
L3AS5
S1 S2
L1 L2 L3
IBGP vs. EBGP
iBGP eBGP
• BGP Route Reflection
• BGP AddPath
• Loopback peering
• OSPF or IS-IS
• 16-bit vs. 32-bit ASNs
• Relaxed multi-path
ASN 64,512
Ethernet の進化
Ethernet Fast Ethernet Gigabit Ethernet 10GbE 40GbE 100GbE 400GbE
Faster
Link Aggregation IEEE 802.1ad IEEE 802.1AX
Link Aggregation
Ethernet Switching Provider Backbone Bridging TRILL and SPB
Ethernet Services
IEEE 802.1D IEEE 802.1w IEEE 802.1s IEEE 802.1aq
Loop Prevention
CCC L2VPN VPLS
Data Center Interconnect
VXLAN NVGRE MPLS-over-UDP
Data Center Overlays
業界的なチャレンジ(DCI)
DataCenterInterconect
VPLS
Data Center
1
Data Center
2
• No All-Active Forwarding
• No Control Plane Learning
• No Inter-Subnet Forwarding
• No MAC Mobility / トロンボーン・エフェクト
• No Advanced Ethernet Services
• VLAN-based
• VLAN Bundle
• VLAN Aware
業界的なチャレンジ(Overlay)
• 標準化されたコントロールプレーンがない
• 標準化されたデータプレーンもない
• ベンダーロックインによる独自技術は過去何度も失敗してきた…
IP Fabric
Overlay Networks
Controller
業界的なチャレンジ(Multi-Teanant)
Multi-Tenant Network
• 唯一解が存在せず
• 殆どの実装がproprietary
• 複雑なオペレーション
• 限定的なスケール
• 物理的な制約 – no L2 between PODs, etc.
Bare-Metal Servers
EVPN as a Solution
EVPN
DCI
Multi-
Tenancy
Overlay
Network
• All-Active フォワーディング
• 統合された L2・L3 サービス
• 馴染み深い L3VPN に類似したオペレーション
• Control plane learning
• Auto-Discovery
• 柔軟なデータプレーンの選択
EVPN(ETHERNET VPN)とは?
LAG
BGPをベースとしてStateを交換
EVPN router
EVPN router
LAN
WAN
複数のL2 domains (VLANs) を接続するための
新しい標準化ベースのプロトコル
Integrated Routing & Bridging (IRB) により
L2 & L3 コンバージェンスをネイティブにサポート
Juniper が業界のマルチベンダーイニシアチブを主導
-- JNPR, CSCO, ALU, ATT, Verizon, Bloomberg ….
次世代のデータセンターインターコネクトに最適
Use case #1: EVPN for Next Generation Ethernet Services
Benefits:• より効率的で機能豊かな E-LAN & E-LINE サービスを提供
• VPLSの欠点を補足; IP VPN likeな policy control を提供• 急激なトラフィックの伸び に対応可能
• Active/Active multi-homing with load balancing • ネットワークの 効率性 を改善
• BUM trafficのFloodingを最小化して/ MAC learningのスピードを改善
BGP signaling on WAN exchange MAC/IP routes
EVPNPE2
EVPNPE1
EVPN PE3
EVPNPE4
CE
CE
MPLS
MP-BGP
Use Case #2: EVPN For Data Center Interconnect
Benefits:• シームレスなデータセンター・インターコネクト – L3 を意識したDC間L2 ストレッチ
• シームレスなワークロードマイグレーション – DC間でのVM mobility を実現
• 広い流用性 – 旧来のL2 と MPLSやVxLANのようなOverlay DCテクノロジーとを接続
VLAN 1MAC1
VLAN 2MAC 2
VLAN 1MAC11
VLAN 2MAC22
Data Plane Learning BGP Control Plane based learning on WAN Data Plane Learning
MX Series MX Series
Data Center Site1 Data Center Site 2 Data Center Interconnect
MPLS/E-VPN Cloud
Legacy L2 VLAN
VXLAN Cloud
Use Case #3: EVPN-VXLAN for DC Overlay
• EVPN がコントロールプレーンとして動作
VNID がEthernet Tag IDの代わりとしてEVPNのシグナリングに利用される
• VxLAN はデータプレーンのEncapsulationとして利用される
Benefits of EVPN-VxLAN DC Overlay:• シンプルなAll IPファブリック のDC内利用を促進
• DC内における多段のL2セットアップ構成が不必要に
• VM/アプリケーションに対して L2 connectivity を提供
• ハイパーバイザーに対して直接L2VPNを提供
• すべてのIP DCにL2 マルチテナンシーを提供
• 各テナントが4094 VNIDを利用可能に
• VXLAN Tunnel Endpoints (VTEP) はネットワーク機器上にもハイパーバイザー上にも存在し、それらを結びつけることが可能
• EVPNにおけるあらゆるメリットをDCのLAN内でも利用可能に
Overlay environmentIP Fabric
TOR
VDS
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
Network Orchestrator
Management Plane API needed only
EVPN アーキテクチャ
AppOS
Customer Edge (CE)
(switch, router, host, etc)
Single-Active Mode
All-Active Mode
EVPN Instance
(EVI)
LAG
BGP-RR
Provider Edge (PE)
Agnostic Data Plane Encapsulation(EVPNの場合、ここの転送手段はMPLSでもVXLANでも対応が可能)
Ethernet Segment (ES)
EVPN NLRI Types
Route Type Description Usage Standard
1 Ethernet Auto-Discovery PE Discovery and Mass Withdraw draft-ietf-l2vpn-evpn
2 MAC Advertisement MAC Advertisement draft-ietf-l2vpn-evpn
3 Multicast Route BUM Flooding draft-ietf-l2vpn-evpn
4 Ethernet Segment Route ES Discovery and DF Election draft-ietf-l2vpn-evpn
5 IP Prefix Route IP Route Advertisementdraft-rabadan-l2vpn-evpn-
prefix-advertisement※
※Roadmap
EVPN ServicesVLAN Based Service
VLAN Bundle Service
VLAN Aware Service
• 1:1 VLAN ID to EVI
• RT per VLAN – Label per VLAN
• Supports VLAN normalization
• Efficient flooding
• Requires more labels
• N:1 VLAN ID to EVI
• RT per VRF – Label per VRF
• No support for VLAN normalization
• Inefficient flooding
• Uses less labels
• N:1 VLAN ID to EVI
• RT per VRF – Label per VLAN
• Supports VLAN normalization
• Efficient flooding
• Requires more labels
EVPN Instance 4
EVPN Instance 1
EVPN Instance 2
EVPN Instance 3
vlan-id 1
vlan-id 2
vlan-id 3
vlan-id 4
vlan-id 11
vlan-id 12
vlan-id 13
vlan-id 14
EVPN Instance 1
vlan-id 1
vlan-id 2
vlan-id 3
vlan-id 4
vlan-id 1
vlan-id 2
vlan-id 3
vlan-id 4
Broadcast Domain 1
Broadcast Domain 2
Broadcast Domain 3
Broadcast Domain 4
EVPN Instance 1
vlan-id 1
vlan-id 2
vlan-id 3
vlan-id 4
vlan-id 11
vlan-id 12
vlan-id 13
vlan-id 14
VLAN-based EVPN Summary
PE1 PE2
VRF2
VRF1
VRF2
VRF1
vlan-id 1
vlan-id 2
vlan-id 11
vlan-id 22
EVI 1
EVI 2
L11 L21
L22L12
ラベ
ルは
ユニ
ーク
であ
る必
要あ
り
ラベルは同一でも別でも構わない
VLAN Bundle EVPN Summary
PE1 PE2VRF1 VRF1
vlan-id 1
vlan-id 2
vlan-id 11
vlan-id 22
EVI 1
L11 L21
ラベルは同一でも別でも構わない
VLAN Aware EVPN Summary
PE1 PE2VRF1 VRF1
vlan-id 1
vlan-id 2
vlan-id 11
vlan-id 22
EVI 1
ラベルは同一でも別でも構わない
L11 L21
L22L12
ラベ
ルは
ユニ
ーク
であ
る必
要あ
り
VXLAN EVPN Service – Hybrid
PE1 PE2VRF1 VRF1
vlan-id 1
vlan-id 2
vlan-id 11
vlan-id 22
VNI はユニークなName Spaceとなり、マッチしていないといけない
VNI55 VNI55
VNI55VNI55
ラベ
ルは
ユニ
ーク
であ
る必
要あ
り
bd bd
bd bd
Auto RT
routing-instance foo
{
type evpn;
route-target AS:auto;
bridge-domains {
bd1 {
vlan-id 1;
}
bd 2 {
vlan-id 2;
}
}
1,0x1 VNIDnew
0x02 Sub-Type ASNold
RT Format
EVPN サービス・マトリックス
Attribute VLAN-Based Service VLAN Bundle ServiceVLAN Aware
Service
VLAN to EVPN Instance Ratio 1:1 N:1 N:1
Route Target VLAN VRF VRF
Service Label VLAN VRF VLAN
VLAN Normalization Yes No Yes
Overlapping MAC Addresses Yes No Yes
Juniper Support Yes No Yes※
※Roadmap
Data Plane Meta Data
Transport Label Service Label PayloadMPLS
Outer IP Header VXLAN VNID PayloadVXLAN
• Forwarding
• Service Separation
• Split Horizon
• Hashing
EVPN Split Horizon – MPLS
EVPN Instance
CE 1
• 片側の DF だけが BUM トラフィクを転送する
• ESI毎にSplit Horizonラベルが付与される
• Single-homedのCE1に対してはSplit Horizonラベルは付与されず、転送が行われる
DF
ESI 2
CE 2
Split Horizon Label 1
Split Horizon Label, ESI
EVPN Mass Withdraw
App
OS
Customer Edge (CE)
(switch, router, host, etc.)
Single-Active Mode
All-Active Mode
LAG
BGP-RR
Provider Edge (PE)
• 障害時にはPE がEthernet Segment (ES) に関係するすべてのMACアドレスに対するWithdrawの告知を送信する
No need for MC-LAG(story)
EVPN MAC Aliasing
MAC learned
MAC not learned
EVPN ES UpdateAliasing
• 対向のPEは、該当のMacアドレスへはエイリアスを組んだ双方のPE越しでアクセス可能なことを学習しているため、ロードバランスしながら転送することが可能
App
OS
All-Active Mode
BGP-RR
Provider Edge (PE)
MAC NLRI Gen-ID++
App
OS
MAC NLRI Gen-ID++
EVPN MAC Mobility
• PE は MACの移動を検知するごとに、Gen-ID を付与したcommunity 情報を伝播
• 最も高い Gen-ID を発行したPE配下に該当MACが存在すると判断される
DCI OVERVIEW
DC2 DC3
DC1
Data Center Interconnect 物理的に離れたデータセンター間でデータをやり取りする L2とL3のデータ転送 データの分離と統合 ノードとリンク、耐障害性の確保
D1-R1
D1-R2
DCI w/ EVPN の利点
DC Fabric DC Gateway DC FabricDC Gateway
Link Efficiency
L2ループを回避しながら、A/Aのフォワーディングを提供
Convergence
MPLSにより培われた高速なコンバージェンスとルート変更をそのまま提供
L3 and L2
L2 & L3 をNativeに統合したプロトコル管理を提供
DC Optimized
DC間でのVMのモビリティにも柔軟に対応
MPLS IP Fabric
Virtual Machine Mobility
Custom Services
IPVPN のようなポロシーコントロールを持ってサービスを提供することが可能
EVPN の構成要素
DC1 DC Gateway2 DC2 DC Gateway4
MPLS IP Fabric
Data PlaneMAC learning
BGP Control PlaneMAC learning
Data PlaneMAC learning
DC Gateway1 DC Gateway3
MACsDF
Non DF
ESI -100
• Aliasing – すべてのActiveリンクにおいてロードバランスを提供• Mac Mass withdrawal – 高速なコンバージェンス• Mac mobility – VMの可動性をほぼヒットレスにサポート• 統合された L3 – 設定の簡素化を提供• Finer policy Control with BGP – より柔軟なコントロール• Built in HA – 高速なコンバージェンスとネットワークの堅牢化
Traffic for MAC1
Active-Active Modes of deployment
Aliasing
• MACアドレスが片側のPEでのみ学習された環境であっても、すべてのActive Linkを使用してトラフィックのロードバランスを提供
• PE はMAC Routeをアドバタイズする際にESIも併せて告知し、ES内のすべてのActiveな接続性を対向に告知する
• 対向側のPEは受け取ったESIに向けてトラフィックをロードバランスしながら転送する
PE2
PE1
PE3
PE4
CE
CE
MPLS
3.PE3とPE4は、EVIごとに受け取るRoute告知によりMAC1へはPE1とPE2経由でリーチできることを認識する
2.CEからのトラフィックを受信してMACアドレス1を学習したPE2だけが該当のMac Routeを対向に告知
2.PE1 と PE2 がEVIごとに同一のESIを含んだAD Routeを告知している
4.PE3 はMAC1へのトラフィックをロードバランスしながら転送
1.CEからはLAGによりトラフィックをバランシングして転送
MAC Mass Withdrawal
• ESIに関係するリンク障害が発生した場合、高速なコンバージェンスを提供
• ESI (link) に障害が発生すると、PEは(個別のMACアドレス毎のではなく)該当するESIに関するRoute削除更新を対向に送信する
• 対抗のすべてのPEは該当のESI経由で学習しているすべてのIP/MACアドレスに対するネクストホップ経路から該当のPEを削除する
• これにより学習しているMACアドレスの数量にかかわらず高速なコンバージェンスを提供
PE2
PE1
PE3
PE4CE
CE
9
2.PE2 はダウンしたリンクに該当するESIに関するwithdraw を送信
3.すべてのPEはそのESI宛のネクストホップからPE2 を即座に除外する
1.リンク障害が発生
DCI OPTIONS
QFX10K
DC 1QFX10K
DC 2
MX1 MX2
L3VPN-MPLS
EVPN-VXLAN
Option 1
QFX10K
DC 1QFX10K
DC 2
MX1 MX2
EVPN-VXLAN
EVPN-VXLAN
Option 3
既存の WANを流用 ASBRとしてのMX
QFX10K
DC 1QFX10K
DC 2
MX1 MX2
EVPN-MPLS
EVPN-VXLAN
Option 2
EVPN stitching 多少のデザインと移行プラ
ンニングが必要
既存のMPLS技術を流用 容易な実装
QFX10K
DC 1QFX10K
DC 2
EVPN-VXLAN
Option 4
直接接続 容易な実装 No MPLS
VXLAN VNID 100
DCI OPTION 1QFX10K
1
QFX10K
2
MX1 MX2
EVPN-VXLAN
MX1 MX2QFX10K 1 QFX10K 2
L3VPNVXLAN VNID 100
family mplsfamily inet family inet
loopback loopback
BGP-INET-VPN
BGP-EVPN
loopback loopback
(OTT WAN)
VXLAN VNID 200
DCI OPTION 2
MX1 MX2QFX10K 1 QFX10K 2
EVPN-MPLS (MPLS option A)
family mplsfamily inet family inet
loopback loopback
BGP-EVPNBGP-EVPN
loopback loopback
BGP-EVPN
QFX10K
1
QFX10K
2
MX1 MX2
EVPN-VXLAN
EVPN stitching /possible VNID transition
point
VXLAN VNID 100
MX2
EVI EVI
Logical Tunnels
EV
PN
-MPLS
EV
PN
-VXLAN
EVPN stitching /possible VNID transition
point
VXLAN VNID 300
DCI OPTION 3
MX1 MX2QFX10K 1 QFX10K 2
VXLAN VNID 200
family inetfamily inet family inet
loopback loopback
BGP-EVPNBGP-EVPN
loopback loopback
BGP-EVPN
QFX10K
1
QFX10K
2
MX1 MX2
EVPN-VXLAN
Possible VNID translation
Possible VNID translation
VXLAN VNID 100
(OTT Internet)
DCI OPTION 4
QFX10K 1 QFX10K 2
VXLAN VNID 100
family inet
loopback loopback
BGP-EVPN
QFX10K
1
QFX10K
2
EVPN-VXLAN
(Dark Fiber)
MULTI-TENANT DC OVERVIEW
T1 T2 T3 T4
Data Center Network
Multi-Tenant Data Center
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
テナント毎の分離を提供 テナント毎に複数のサブネットを提供 L2とL3のトランジットを提供 物理・仮想的な負荷に応じて配置する必要がある
MULTI-TENANT DC OPTIONS
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
Option 1
3-stage Clos トポロジー 小〜中規模構成 一般的にはひとつの BGPで構成 (iBGP)
Spine
1
Spine
2
Leaf 2 Leaf 3 Leaf 4Leaf 1
Spine
1
Spine
2
Leaf 2 Leaf 3 Leaf 4Leaf 1
Fabric1
Fabric2
Option 2
5-stage Clos トポロジー 中〜大規模構成 様々な BGP デザインオプションが検討可能
MULTI-TENANT DC FUNDAMENTALS
VRF 1 VRF 2
default.vs
VN
ID 1
VN
ID 2
VN
ID 3
VN
ID 4
IRB IFD
BD3 BD4BD1 BD2
Spin
eLeaf
VRF_1_VS
BD1 BD2
VRF_2_VS
BD3 BD4
VTEP – bound to lo0.0
VTEP – bound to lo0.0
routing-instances {
VRF_1 {
instance-type vrf;
interface irb.1;
route-distinguisher 1:1;
vrf-target target:1:1;
}
VRF_1_VS {
instance-type virtual-switch;
vtep-source-interface lo0.0;
route-distinguisher 11:1;
vrf-import VRF_1_VS_IN;
vrf-target target:11:1;
protocols {
evpn {
encapsulation vxlan;
extended-vni-list [ 1 2 ];
multicast-mode ingress-replication;
}
bridge-domains {
bd1 {
vlan-id 1;
routing-interface irb.1;
vxlan {
vni 1;
ingress-node-replication;
}
}
}
}
}
accept esi commaccept self RT
irb.1 irb.2 irb.3 irb.4
MULTI-TENANT DC FUNDAMENTALS
default.vs
VN
ID 1
VN
ID 2
VN
ID 3
VN
ID 4
BD3 BD4BD1 BD2
VTEP – bound to lo0.0
switching-options {
vtep-source-interface lo0.0;
vrf-import LEAF-IN;
vrf-target target:9999:9999;
}
vlans {
bd1 {
vlan-id 1;
vxlan {
vni 1;
}
bd2 {
vlan-id 2;
vxlan {
vni 2;
}
bd3 {
vlan-id 3;
vxlan {
vni 3;
}
bd4 {
vlan-id 4;
vxlan {
vni 4;
}
Leaf
protocols {
evpn {
encapsulation vxlan;
extended-vni-list [ 1 2 3 4 ];
multicast-mode ingress-replication;
vni-routing-options {
vni 1 {
vrf-target export target 1:1;
}
}
}
}
BUM REPLICATION OPTIONS
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
Ingress Replication (IR)
Leaf がBUMパケットの複製を行う 関連するすべてのLeaf へコピーを転送 1000+ を超えるLeafが存在するような構成で
はスケールしない
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
Assisted Replication (AS)
Leaf がBUMトラフィックのコピーをSpineに送信 Spine が各Leaf向けのBUMトラフィックの複製を
行う より大規模な構成に対応 Spine にはより強力なCPUパワーが要求される
FLOOD LIST – IR AND AR (SPINE)
VLANn
IP Remote PE5, (VNID derived from VLANn)
IP Remote PE4, (VNID derived from VLANn)
IP Remote PE3, (VNID derived from VLANn)
IP Remote PE2, (VNID derived from VLANn)
IP Remote PE1, (VNID derived from VLANn)
1 2 3 4 5 Flood Next Hop / List
Composite Next Hop
**AR does split horizon
VXLAN FABRIC BGP OPTIONS
Spine
RR
Leaf
1 2
Leaf
1 3
iBGP + RR
iBGP Spine == RR Leaf == RR client 同一のASNを使用 別途IGPが必要
Spine
Leaf
1 2
Leaf
1 3
eBGP
eBGP Leaf毎に異なった
ASNを設定
EBGP OR IBGP ?話はそうシンプルではなく、
デザイン構成時には、UnderlayとOverlayを考慮する必要があり
VXLAN FABRIC BGP RECOMMENDATION
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
AS101 AS102
AS201 AS202 AS203 AS204
Underlayを構成するためのEBGP
シンプルなデザイン 物理インターフェイスでeBGPネイバを張る スイッチ毎にBGP ASN を設定 EVPN構成のために loopback の prefixeをExport IGP は必要なし
Spine 1
Spine 2
Leaf 2 Leaf 3 Leaf 4Leaf 1
AS64512 AS64512
AS64512 AS64512 AS64512 AS64512
EVPN Overlayを構成するためのIBGP
シンプルなデザイン LoopbackでiBGPネイバを張る ひとつの BGP ASN を設定 フルメッシュのPeeringを避けるためにSpineでRRを構成 EVPN コントロールプレーンでMAC と ESIを学習
RR RR
VXLAN FABRIC BGP RECOMMENDATION
group underlay {
type external;
family inet;
local-as 101;
multipath multiple-as;
neighbor 192.168.1.201 {
peer-as 201;
}
neighbor 192.168.1.202 {
peer-as 202;
}
}
group overlay {
type internal;
family evpn signaling;
local-as 64512;
multipath;
neighbor 172.16.1.201;
neighbor 172.16.1.202;
}
Spine
group underlay {
type external;
family inet;
local-as 201;
multipath multiple-as;
neighbor 192.168.1.101 {
peer-as 101;
}
neighbor 192.168.1.102 {
peer-as 102;
}
}
group overlay {
type internal;
family evpn signaling;
local-as 64512;
multipath;
neighbor 172.16.1.101;
neighbor 172.16.1.102;
}
Leaf
VXLAN FABRIC BGP SUMMARY
IBGP family evpn / bound to lo0
EBGP family inet / bound to ifd
両方の利点を最大限活用
100% BGP で構成することが可能で、IGPの管理は不必要に (NO OSPF, ISIS)
Underlayのトラブルシュート時 Full AS_PATHを確認
Overlayのトラブルシュート時 Global のFabric Viewを確認
iBGP overlay はトポロジーに依存させず、eBGP underlay にトポロジーを意識させる
5-stage CLOS になった場合にも同様のアーキテクチャを流用可能!
Spine
Leaf
EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”
L L L L L L L L
PO
D 1
L L L L L L L L
PO
D 2
S S S S S S S S
F F F F
P P
Namespace: A/24 and B/24 Namespace: X/24 and Y/24
inet-v
pn
EVPN Type-2 EVPN Type-2
EVPN Type-5
EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”
L L L L L L L L
PO
D 1
L L L L L L L L
PO
D 2
S S S S S S S S
F F F F
P P
Namespace: A/24 and B/24 Namespace: A/24 and B/24
inet-v
pn
EVPN Type-2
EVPN Type-5 Vs. L3VPN / INET-VPN“Same same, but different”
L L L L L L L L
PO
D 1
L L L L L L L L
PO
D 2
S S S S S S S S
F F F F
P P
Namespace: A/24, B/24 + X/24 Namespace: X/24, Y/24 + A/24
inet-v
pn
EVPN Type-2
EVPN Type-5
Leaf
Spine
Fabric
EBGP FOR SUBSTRATE / UNDERLAY
AS
2101
AS
2102
3102 3103 31043101
AS
2201
AS
2202
3202 3203 32043201
AS
1001
AS1002
VXLAN L3 DISTRIBUTED GW OPTIONS
Spine GW
今日サポート可能な構成 SpineでL3State情報を中央集中化 LeafはVXLAN L2 GW として動作 上位のFabricスイッチには VXLAN機
能は必要なし
Fabric GW
今日サポート可能な構成 上位のFabricスイッチでL3State情報
を集中管理 LeafはVXLAN L2 GW として動作 SpineスイッチにはVXLAN機能は必
要なし
Leaf GW
将来ロードマップで対応予定(Leafスイッチに BRCM T2+ 以降のPFEが必要)
L3State情報はLeafスイッチ上に分散管理される
LeafはVXLAN L3 GW として動作 SpineスイッチにはVXLAN機能は必
要なし
BGP FAMILY EVPN OPTIONS
EVPN Intra-POD T2
POD内ではEVPN Type-2 POD間ではEVPN Type-5 POD毎にiBGP + RR
Type-2 Type-2
Type-5
AS
64512
AS
64512
AS64500
as-override
Type-5
Type-2
AS64512
BGP
RR
BGP
RR
VNI Range1 – 4K
VNI Range4 – 8K
EVPN Inter-POD T2
外部の BGP route reflectors VNIDで管理ドメインを分離 より大規模なスケールを提供
RR RR RR RR
EVPN Inter-POD T2
POD間でEVPN Type-2 POD間でEVPN Type-5 Inline での階層型 iBGP と RR
Type-5
Type-2
Cluster 10
AS
64512
Clu
ste
r 11
Cluster 11
Cluster 1AS64512
RR RR RR RR
RR RR
VRF A VRF A
x.1 x.101
H11 VNID
101
H21
H22 z.2
x.2
y.2 VNID
201
VNID
202
y.1
z.1
y.201
z.202
VRF B VRF B
c.1 c.102
H12
VNID
102 H23
d.2
c.2
e.2 VNID
203
e.1
e.203
d.1 d.103 VNID
103
Switch Δ
Switch Γ
INTER-VNID ROUTING SUMMARY
Γ Next Hop Scale = VNIDs,Hosts
Asymmetric
VRF A VRF A
x.1 x.101
H11 VNID
101
H21
H22
VNID
201
VNID
202
y.1
z.1
y.201
z.202
VRF B VRF B
c.1 c.102
H12
VNID
102 H23
VNID
203
e.1
e.203
d.1 d.103 VNID
103
Switch Δ
Switch Γ
VNID
55
VNID
56
Γ Next Hop Scale = VRFs,PE
Symmetric
ASYMMETRIC ROUTING DETAIL
y.201 (201, H21)z.202 (202, H22)
VRF A
e.203 (203, H23)VRF B
x.101 (101, H11)VRF A
c.102 (102, H12)d.103 (103, H12)
VRF B
VRF A VRF A
x.1 x.101
H11 VNID
101
H21
H22 z.2
x.2
y.2 VNID
201
VNID
202
y.1
z.1
y.201
z.202
VRF B VRF B
c.1 c.102
H12
VNID
102 H23
d.2
c.2
e.2 VNID
203
e.1
e.203
d.1 d.103 VNID
103
Switch Δ
Switch Γ
Γ route next-hop table Δ route next-hop table
SYMMETRIC ROUTING DETAIL
y.201
z.202 VRF A (55, Δ)
e.203 VRF B (56, Δ)
x.101 VRF A (55, Γ)
c.102
d.103 VRF B (56, Γ)
VRF A VRF A
x.1 x.101
H11 VNID
101
H21
H22
VNID
201
VNID
202
y.1
z.1
y.201
z.202
VRF B VRF B
c.1 c.102
H12
VNID
102 H23
VNID
203
e.1
e.203
d.1 d.103 VNID
103
Switch Δ
Switch Γ
VNID
55
VNID
56
Γ route next-hop table Δ route next-hop table
LOAD BALANCING HIERARCHY
Spine1 Spine2
Leaf2 Leaf3 Leaf4Leaf1
Host2
ESI
Host1
ESI
m n o p
Host2 ⇛ (o, p) VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP
L3 LAGsL1, L2
VP-LAG L3 ECMP L2 ECMP
VIRTUAL PORT LAG (VP-LAG)
Spine1 Spine2
Leaf2 Leaf3 Leaf4Leaf1
Host2
ESI
Host1
ESI
m n o p
Host2 ⇛ (o, p) VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP
L3 LAGsL1, L2
Spine1 Spine2
Leaf2 Leaf3 Leaf4Leaf1
Host2
ESI
Host1
ESI
m n o p
Host2 ⇛ (o) No VP-LAG(Spine1, Spine2) L3 ECMP(L1, L2) L2 ECMP
L3 LAGsL1, L2
Today VP-LAG RLI
SUMMARY
次世代データセンターアーキテクチャにベストなEVPN実装 冗長化とECMPを実現するVP-LAG マルチホーミング構成におけるESI MPLS and VXLAN データプレーン
業界で最も最適なSpine switch: QFX10000 高い論理スケール値 豊富な機能 将来を保証する様々なアーキテクチャの選択肢を提供 DC-LANとしてもDCIとしてもGatewayの役割を担うことが可能
EVPNアーキテクチャを最適化するJunos Fusion 管理ポイントの低減 複数のコントロールプレーンによる高い冗長性 容易なOSアップグレードと管理を提供
BGP Whitepaper
• http://www.juniper.net/us/en/local/pdf/whitepapers/2000565-en.pdf
• Googleで “QFX5100 IP Fabrics” と検索すればTop Hitで出てきます。
ベストプラクティス + 構成例 + 設定例
Spine : QFX10000-SeriesJuniper Q5 based switches
QFX10002-36QFixed
QFX10002-72QFixed
QFX100088-slot modular
QFX1001616-slot modular
36 x 40GEor 12 x 100 GE or 144 x 10GE
72 x 40GEor 24 x 100 GE or 288 x 10GE
30 x 100GE per slot
36 x 40GE per slotor 12 x 100 GE or 144 x 10GE
60 x 10GE + 2 x 100 GE per slotor 60 x 10 GE + 4 x 40 GE or 68 x 10 GE
Industry’s highest density 100GE switchesFlexible architectural support
EVPN/VXLAN supportSDN support (VMware NSX, Juniper Contrail)
Leaf : QFX5100-SeriesBroadcom Trident 2 based leaf switches
QFX5100-48S
QFX5100-48T
QFX5100-96S
QFX5100-24Q
48x10GE/1GE + 6x40GE
48x10GE/1GE + 6x40GE
96x10GE/1GE + 8x40GE
24x40GE + 2 slots, each 4x40GE
In Service Software Upgrades (ISSU)Flexible architectural support
EVPN/VXLAN supportSDN support (VMware NSX, Juniper Contrail, Openflow)