Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects...
-
Upload
nickolas-emans -
Category
Documents
-
view
219 -
download
1
Transcript of Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects...
![Page 1: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/1.jpg)
Galaxy: High-Performance Energy-Efficient
Multi-Chip Architectures Using Photonic Interconnects
Nikos HardavellasPARAG@N – Parallel Architecture Group
Northwestern University
Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik
![Page 2: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/2.jpg)
© Hardavellas2
Chip Power Scaling
Chip power does not scale
[Azizi 2010]
![Page 3: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/3.jpg)
© Hardavellas3
Voltage Scaling Has Slowed
In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Year
Sca
lin
g F
acto
r
![Page 4: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/4.jpg)
© Hardavellas4
Pin Bandwidth Scaling
[TU Berlin]
Cannot feed cores with data fast enough to keep them busy
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Pin Bandwidth
Year
Sca
ling
Fac
tor
![Page 5: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/5.jpg)
© Hardavellas5
Data Scaling• SPEC, TPC datasets growth:
faster than Moore• Same trends in scientific,
personal computing• Large Hadron Collider
March’11: 1.6PB data (Tier-1)• Large Synoptic Survey Telescope
30 TB/night 2x Sloan Digital Sky Surveys/day
Sloan: more data than entire history of astronomy before it
2004 2007 2010 2013 2016 20190
5
10
15
20
OS Dataset Scaling (Muhrvold's Law) Transistor Scaling (Moore's Law) TPC Dataset (Historic)
Year
Sca
ling
Fac
tor
More data more computing power to process them
![Page 6: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/6.jpg)
© Hardavellas6
Galaxy: Optically-Connected Disintegrated Processors
• Physical constraints limit single-chip designs Area, Yield, Power, Bandwidth
• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration
[Pan, WINDS 2010]
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
![Page 7: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/7.jpg)
© Hardavellas7
Outline• Introduction
➔ Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 8: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/8.jpg)
© Hardavellas8
Nanophotonic Components
off-chiplaser
source
coupler
resonant modulators
resonant detectors
Ge-doped
waveguide
Selective: couple optical energy of a specific wavelength
![Page 9: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/9.jpg)
© Hardavellas9
Modulation and Detection
11010101
11010101
10001011
10001011
16 - 64 wavelengths DWDM5 - 20μm waveguide pitch
10Gbps per link
8 Tbps/mm bandwidth density or more !!!
![Page 10: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/10.jpg)
© Hardavellas10
Outline• Introduction• Background
➔ Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 11: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/11.jpg)
Galaxy Architecture
© Hardavellas11
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
![Page 12: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/12.jpg)
© Hardavellas12
Routing Example
![Page 13: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/13.jpg)
Galaxy Architecture
© Hardavellas13
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
![Page 14: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/14.jpg)
Galaxy MWSR Optical Crossbar
© Hardavellas14
More energy-efficient than SWMR at that scale MWSR avoids broadcast bus, but requires arbitration
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
![Page 15: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/15.jpg)
© Hardavellas15
Token-Based ArbitrationVC Token
back traversal
VC Token forward traversal
Data Channel
8 cycles on average for token arbitration (5 chiplets)
![Page 16: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/16.jpg)
© Hardavellas16
Dense Off-Chip Coupling
• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]
• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment <0.7μm, 0.4μm, 0.7μm> loss <1 dB
Loss comparable to optical proximity couplers
![Page 17: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/17.jpg)
© Hardavellas17
Nanophotonic Parameters
![Page 18: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/18.jpg)
© Hardavellas18
Outline• Introduction• Background• Galaxy Architecture
➔ Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 19: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/19.jpg)
© Hardavellas19
Architectural Parameters
![Page 20: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/20.jpg)
© Hardavellas20
Modeling Infrastructure
Flexus 4.0Booksim 2.0
Cycle Accurate Full System Simulation
Power Calculations with Runtime Statistics
McPat 0.8 DSENT
AnalyticalModel +
HotSpot5.0
FloTherm9.2
Single Chip Design
Multi-Chip Design
Cores,Cache,MCs
Interconnect
DRAMSim 2.0
Thermal Modeling
+
Operating Temperature
Accurate Lekageand Dynamic
Power
DVFS for Temperature
Limiting
3D-stack model
SimFlex sampling95% confidence
photonic-layerring heating
![Page 21: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/21.jpg)
© Hardavellas21
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 22: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/22.jpg)
© Hardavellas22
Load-Latency Curves
16 tokens provide optimal buffer depth
![Page 23: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/23.jpg)
© Hardavellas23
Laser Power Sensitivity to Optical Parameters
Coupler Loss
Off-Ring LossWaveguide & Filter Drop Loss
Modulator Insertion Loss
Highly sensitive to coupler loss, insensitive to other losses
![Page 24: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/24.jpg)
© Hardavellas24
Sensitivity to Fiber Density
• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch
128 fibers: within 3% of max performance
![Page 25: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/25.jpg)
© Hardavellas25
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration)
Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 26: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/26.jpg)
© Hardavellas26
Performance Against “Unlimited” Designs
• Unlimited power (max speed of design, irrespective of temp.)• Mesh_20MC & Corona_20MC
Also unlimited bandwidth (20 MCs per chip, 5x more pins)
Galaxy matches the performance of “unlimited” designs
![Page 27: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/27.jpg)
© Hardavellas27
Performance Against Realistic Designs
• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66.2oC chiplets run at max speed
Galaxy: 2.2x speedup on average (3.4 max)
![Page 28: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/28.jpg)
© Hardavellas28
Energy-Delay Product
• Cool chiplets minimize leakage
Galaxy: 2.4x-2.8x smaller EDP on average (6.8x max)
![Page 29: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/29.jpg)
© Hardavellas29
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration)
➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
![Page 30: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/30.jpg)
© Hardavellas30
Comparison Against Multi-Chip Alternatives
![Page 31: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/31.jpg)
© Hardavellas31
Comparison Against Multi-Chip Alternatives
Fiber
Galaxy: 2.5x over Oracle Macrochip (6.8x max)
![Page 32: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/32.jpg)
© Hardavellas32
Tapered vs. Optical Proximity Couplers
6x less laser power than Oracle Macrochip with demonstrated couplers
![Page 33: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/33.jpg)
© Hardavellas33
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration)
➔ Thermal Modeling• Conclude• Overview of Other Research
![Page 34: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/34.jpg)
© Hardavellas34
80-core 5-chiplet Galaxy Thermal CFD Modeling
8cm spacing allows cooling with cheap passive heatsinks
88.20C
![Page 35: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/35.jpg)
© Hardavellas35
9-chiplet Dense Array (Oracle Macrochip)
Tight arrangement points to liquid cooling requirement
2490C
![Page 36: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/36.jpg)
© Hardavellas36
9-chiplet Galaxy 2D
Cooling 9 chiplets with passive heatsinks
1100C
![Page 37: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/37.jpg)
© Hardavellas37
9-chiplet Galaxy 3D
Flexible fibers allow “virtual chip” to break free of 2D planar designs
83.60C
![Page 38: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/38.jpg)
© Hardavellas38
Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints
Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall
• Processor disintegration 2.2x avg. speedup (3.4 max) 2.4x-2.8x avg. smaller EDP (6.8x max)
• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links
![Page 39: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/39.jpg)
© Hardavellas39
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude ➔ Overview of Other Research
![Page 40: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/40.jpg)
© Hardavellas40
Energy is Shaping the IT Industry#1 of Grand Challenges for Humanity in the Next 50 Years
[Smalley Institute for Nanoscale Research and Technology, Rice U.]
• Computing worldwide: ~408 TWh in 2010 [Gartner]
• Datacenter energy consumption in US ~150 TWh in 2011 [EPA] 3.8% of domestic power generation, $15B CO2-equiv. emissions ≈ Airline Industry (2%)
• Carbon footprint of world’s data centers ≈ Czech Republic• Exascale @ 20MW: 200x lower energy/instr. (2nJ 10pJ)
3% of the output of an average nuclear plant!• 10% annual growth on installed computers worldwide [Gartner]
Exponential increase in energy consumption
![Page 41: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/41.jpg)
• Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go? Data movement: 1200pJ across 400mm2 chip, 16000pJ memory
Elastic caches: minimize data transfers through adapting caches to workload demands [ISCA’09, IEEEMicro’10, DATE’12]
Processing: ~1500pJ to schedule the operationSeaFire: specialized computing on dark silicon to eliminate general-purpose computing’s overheads [IEEEMicro’11, USENIX-Login’11]
Circuits: wide voltage guardbands Low voltages, process variation timing errors computing errors
Elastic fidelity: allow errors at select code/data segments to save energy while maintaining fidelity contract with user [CoRR abs/1111.4279]
• Chips fundamentally limited by physical constraints. Need to break free.Galaxy: processor disintegration/macrochip integration using photonic interconnects [WINDS’10]
Overall Focus: Energy-Efficient Computing
![Page 42: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/42.jpg)
© Hardavellas42
Thank You!
![Page 43: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/43.jpg)
Overcoming Data Movement and Processing Overheads• Elastic caches: adapt cache to workload’s demands
Significant energy on data movements and coherence requests Co-locate data, metadata, and computation Decouple address from placement location
Capitalize on existing OS events simplify hardware Cut on-chip interconnect traffic by half
• Seafire: specialized computing on dark silicon Repurpose dark silicon to implement specialized cores Application cherry-picks a few cores, rest of chip is powered off Vast unused area many specialized cores likely to find good matches
12x lower energy (conservative)
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
43 © Hardavellas
![Page 44: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group.](https://reader036.fdocuments.net/reader036/viewer/2022081518/5516341f55034694308b6169/html5/thumbnails/44.jpg)
• Elastic fidelity: selectively trade accuracy for energy We don’t always need 100% accuracy, but HW always provides it Language constructs specify required fidelity for code/data segments Steer computation to exec/storage units with appropriate fidelity and
lower voltage 35% lower energy
Overcoming Voltage Guardbands
44 © Hardavellas
No errors 10% errors