Itanium microarchitecturesei03042/aaco/download/core2duo.pdf · 2007. 11. 23. · Kentsfield =...

28
1

Transcript of Itanium microarchitecturesei03042/aaco/download/core2duo.pdf · 2007. 11. 23. · Kentsfield =...

  • 1

  • 2

  • Micro Arquitecturas INTEL:• x86 microarchitectures: i386, i486, P5, P6, NetBurst, Pentium M, Core, Nehalem(under development), Sandy Bridge (2010)• Itanium microarchitectures – Segmento de servidores

    Processadores pertencentes ao conjunto Core2:Conroe, Conroe XE, Conroe L, Allendale, Merom, Merom XE, Kentsfield, Kentsfield XE, Yorkfield XE, Penryn

    Notar que os processadores Core Solo e Core Duo (não os Core2) fazem parte da micro-arquitectura Pentium M (e não da Core), que não era mais que uma adaptação da velhinha P6 para o mercado dos portáteis.A micro-arquitectura netBurst não foi continuada para este segmento já que não era tão eficiente por Watt quanto a P6, dissipando mais calor.

    Plataforma Centrino:Plataforma de Marketing, que especifica o CPU, Chipset e Interface Wireless.

    3

  • 4

  • O princípio básico do transístor poder-se controlar, através de uma pequena potência, a (não) passagem de corrente num circuito.

    Ao diminuir demasiado a espessura do Gate Dialetric (assinalado a amarelo) começava a haver passagem de corrente do eléctrodo (a azul) para D (“drain”), que só deveria receber corrente de S (“source”) quando no estado ON.

    5

  • 6

  • Num sistema quad Core o limite máximo são 16 (4x4) instruções emitidas simultaneamente.

    Simple Decoder: Existem 3 descodificadores simples que transformam uma instrução em apenas uma micro-operação, apropriado para a maioria das instruções x86. Estes decoders podem descodificar uma instrução por ciclo.

    Complex Decoder: Estes descodificadores são responsáveis por tratar instruções que geram mais que uma, até 4 micro-operações. Como suporte a algumas instruções legacy pode gerar mais que 4 micro-operações enviando a instrução para um “microcode engine” para ser descodificada.

    7

  • Por exemplo uma instrução de Store é normalmente descodificada em duas micro-operações: calcular o endereço de destino e enviar os dados para um buffer de dados de saída. Como as duas partes da instrução são independentes e por isso paralelizáveis, fundem-se numa única instrução tratadas como tal excepto no momento de execução.

    8

  • As melhorias no suporte a primitivas de Sistema Operativo reflectem-se sobretudo em aplicações mulithread, nas quais é necessário constantemente efectuar operações de LOCK e cujas secções críticas exijam redefinir máscara de interrupções.Segundo a Intel, a leitura mais rápida do contador de time stamp irá beneficiar sistemas que utilizem transacções (como bases de dados).

    Technologia Virtualization: A intel não dá muitos detalhes sobre alterações na arquitectura, mas apresenta que, sem haver alteração de software, as transições de entrada e saída de uma máquina virtual estão entre 25% a 75% mais rápidas.

    9

  • A intel levou a cabo várias medidas de forma a diminuir o consumo de energia:• O processo em si (65nm) oferece maior proximidade dos elementos• Em alto nível, desliga componentes individuais quando não são necessários (Aggrressive Clock Gating) e controla dinamicamente voltagem e frequência do CPU (Enhanced Speed-Step)• Ao nível de detalhe, muitos canais e registos de dados internos são controlados independentemente, podendo passar a um estado de baixa energia mesmo processando alguns tipos de dados.• Ao nível do transístores, o processo possibilita também menor energia para alterar o estado e menores perdas (energia no estado “off”).

    10

  • O processador Intel core2 duo apresentado é um Conroe, usado como referência na maioria dos testes.O Pentium D é um Presler, que faz parte da micro-arquitectura netBurst, que funciona com dois cores em dois núcleos separados.

    O Pentium D bem como a micro-arquitectura netBurst serão descontinuados já durante 2008.

    11

  • Existem 2 tipos de estados de funcionamento:• P-states (performance states): Estado no qual o processador está totalmente activo.• C-states : Estados de poupança de energia nos quais não existe qualquer processamento.

    Penryn suporta heuristicas para verificar se a energia poupada compensa os custos de entrada no modo Deep Power Down e emite um pedido ao SO para transitar de C4 para esse modo.

    PLL - phase lock loop (base do sinal de relógio)

    12

  • Advance Smart Cache é uma optimização da cache multi-core que aumenta a performance e a eficiência, através do aumento de probabilidade que cada execução de um core aceder a informação.Ao ver as arquitecturas multi-core anteriores deparamo-nos que quando 2 cores em execução necessitavam dos mesmo dados tinham de cada um deles armazenar essa informação. Agora com a cache L2 partilhada da intel os dados apenas precisam de ser guardados uma vez. Pois ambos os cores conseguem aceder à mesma cache.Em situações que um core tenha acessos mínimos à cache, se o outro tiver uma grande necessidade de aceder à mesma a advance smart cache da intell permite ceder mais banda ao core com mais utilização

    13

  • Conroe: processador Core2 duo anterior. (65nm)

    14

  • A desambiguação da memória permite a execução de instruções fora de ordem. Exemplo efectuar um load antes de stores se se prever que o store não altera os dados a ler, escreve para uma posição de memória diferente.

    Se preveu bem permite avançar a execução de loads, e executar instruções que dependiam deste load

    Se preveu mal volta a fazer o load e a executar as instruções que se seguem (por ordem cronológica) ao load

    Prefetch – Fazer o prefetch de conteúdo de memóriaIsto, tal como o nome indica vai buscar a memória os dados que os cores irão

    necessitar no futuro e coloca-a na cache. Isto permite que os cores não façam acessos a memória que é mais lenta que a cache.

    2 prefetchers por cada cache L1 e 2 por cada cache L2. Estes prefetchersdetectam streams e acessos strided padrão. Permite que os dados estejam em cache L1 de forma a permitir o acesso “just in time”. Os prefetchers da cache L2 analisam os acessos dos cores para asegurar que a cace L2 tem os dados que serão precisos no futuro

    Stride: Said of a sequence of memory reads and writes to addresses, each of which is separated from the last by a constant interval called "the stride length", or just "the stride". These can be a worst-case access pattern for {cache} schemes when the stride length is a multiple of the {cache line} size. Strided references are often generated by loops through an {array}, and (if the data is large enough that access-time is significant) it can be worthwhile to tune for better locality by inverting double loops or by partially unrolling the outer loop of a loop nest.

    15

  • IP – Instruction Pointer -> Apontador de instruçãoContador que satura, é um contador com um limite

    16

  • A desambiguação pode ser suspensa para forçar a ordem de instruções (load store),por razões de implementação, ou para prevenir perdas de desempenho (Situações em que a previsão falhe várias vezes)

    17

  • Imaginar que a instrução que usa Data X está pronta a ser executada, apenas lhe falta os dados XSem desambiguação o load4 é o último a ser executada uma vez que nas arquitecturas anteriores não havia mecanismos que previssem a dependência entre load e store

    18

  • 19

  • 20

  • Store forwarding permite a leitura de uma posição de memória ocorra mesmo se uma escrita para a memória principal ainda não tenha ocorrido;Improved OS synchronization supportInterrupções podem ser activadas e desactivadas mais rapidamente e instruções bloqueadas podem executar mais rapidamente – isto deve melhorar as situações em que haja um grande uso de interrupções de I/O, exemplo servidores de base de dados.

    21

  • Gerações anteriores de processadores para executar instruções de 128-bit SSE, SSE2 e SSE3 necessitava de 2 ciclos de relógio.Actualmente instruções 128-bit são executadas num ciclo de relógio

    22

  • SSE4 especialmente desenvolvido para aplicações de processamento de Imagem e Video, sendo possível compressão com recurso a instruções em hardware. Intel avança que irá proximamente beneficiar os codecs H264, WM9 e MPEG-2.

    23

  • 24

  • Kentsfield = processador da intel quad core 2 65nmPenryn Family:

    Desktop -> Yorkfieldportatil -> Penryn

    Sandra XIIImportância e eficiência da micro arquitectura introduzida pelos

    processadores Penryn(maior ganho onde se usa instruções SSE4)

    SYSMark 2007Aplicações populares, cenários típicos de trabalhoMédia_-> 2%Não há melhorias muito impressionantes

    25

  • Pcmark:Testes para análise de performance genéricamédia -> 1.5%

    Games:Os jogos são das aplicações mais sensíveis a nível de cache, e os 12MB

    do processador Yorkfield contra os 8MB do kentsfield mostraram algumas vantagens.média +/- 4%

    26

  • Multimédia:A maioria das versões de codecs actuais ainda não suportam

    instruções SSE4O divX 6.7, já implementa uma pesquisa experimental de instruções

    SSE4 dai a melhoria de 28.7% (um video sugerido pela intel tem uma melhoria de 70%)

    Outros:Aparentemente o aumento da cache L2 e a divisão acelerada ao

    aceder à cache parece terem um bom desempenho para estas aplicações

    27

  • BIBLIOGRAFIA:

    Micro-Arquitectura Core & Core2

    [1] Inside Intel Core Microarchitecture (http://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdf)[2] Performance Analysis of Intel Core 2 Duo Processor (http://etd.lsu.edu/docs/available/etd-06122007-093459/)[3] Intel Core2Duo – Fusion mechanisms (http://www.behardware.com/articles/623-7/intel-core-2-duo-test.html)[4] Intel Core microarchitecture (Intel site) (http://www.intel.com/technology/architecture-silicon/core/description.htm?iid=technology_coreindex+tabs_description)[5] Intel_Core_2 (wikipedia) (http://en.wikipedia.org/wiki/Intel_Core_2)[6] Core microarchitecture (wikipedia) (http://en.wikipedia.org/wiki/Core_microarchitecture)[7] Core wide Dynamic Execution and Power Capability (http://www.digital-daily.com/cpu/new_core_conroe/index02.htm)[8] Core's instruction Decoding (http://arstechnica.com/articles/paedia/cpu/core.ars/5)[9] Power_and_Thermal_Management(http://www.intel.com/technology/itj/2006/volume10issue02/art03_Power_and_Thermal_Management/p02_intro.htm)[10] Core 2 duo analysis(http://www.hothardware.com/articles/Intel_Core_2_Duo__Core_2_Extreme_Processors_Chipsets_And_Performance_Analysis/?page=3)

    Penryn (enhanced Core microarchitecture):

    [11] Introducing the 45nm Next-Generation Intel Core Microarchitecture(http://www.intel.com/technology/architecture-silicon/intel64/45nm-core2_whitepaper.pdf)[12] Technical overview of the 45nm Intel next generation core microarchitecture(https://intel.wingateweb.com/published/BMAS004/BMAS004_100Eng.pdf)[13] Intel 45nm-core2 (Intel site) (http://www.intel.com/technology/architecture-silicon/45nm-core2/index.htm?iid=technology_core+rhc_45nm)[14] Intel Core 2 Extreme QX9650 CPU Review (http://www.xbitlabs.com/articles/cpu/display/core2extreme-qx9650.html)

    28

    http://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdfhttp://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdfhttp://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdfhttp://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdfhttp://www.hotchips.org/archives/hc18/3_Tues/HC18.S9/HC18.S9T4.pdfhttp://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://etd.lsu.edu/docs/available/etd-06122007-093459/http://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.behardware.com/articles/623-7/intel-core-2-duo-test.htmlhttp://www.intel.com/technology/architecture-silicon/core/description.htm?iid=technology_coreindex+tabs_descriptionhttp://www.intel.com/technology/architecture-silicon/core/description.htm?iid=technology_coreindex+tabs_descriptionhttp://www.intel.com/technology/architecture-silicon/core/description.htm?iid=technology_coreindex+tabs_descriptionhttp://www.intel.com/technology/architecture-silicon/core/description.htm?iid=technology_coreindex+tabs_descriptionhttp://en.wikipedia.org/wiki/Intel_Core_2http://en.wikipedia.org/wiki/Intel_Core_2http://en.wikipedia.org/wiki/Intel_Core_2http://en.wikipedia.org/wiki/Core_microarchitecturehttp://en.wikipedia.org/wiki/Core_microarchitecturehttp://en.wikipedia.org/wiki/Core_microarchitecturehttp://en.wikipedia.org/wiki/Core_microarchitecturehttp://en.wikipedia.org/wiki/Core_microarchitecturehttp://en.wikipedia.org/wiki/Core_microarchitecturehttp://www.digital-daily.com/cpu/new_core_conroe/index02.htmhttp://arstechnica.com/articles/paedia/cpu/core.ars/5http://arstechnica.com/articles/paedia/cpu/core.ars/5http://arstechnica.com/articles/paedia/cpu/core.ars/5http://arstechnica.com/articles/paedia/cpu/core.ars/5http://arstechnica.com/articles/paedia/cpu/core.ars/5http://www.intel.com/technology/itj/2006/volume10issue02/art03_Power_and_Thermal_Management/p02_intro.htmhttp://www.hothardware.com/articles/Intel_Core_2_Duo__Core_2_Extreme_Processors_Chipsets_And_Performance_Analysis/?page=3http://www.hothardware.com/articles/Intel_Core_2_Duo__Core_2_Extreme_Processors_Chipsets_And_Performance_Analysis/?page=3http://www.hothardware.com/articles/Intel_Core_2_Duo__Core_2_Extreme_Processors_Chipsets_And_Performance_Analysis/?page=3http://www.intel.com/technology/architecture-silicon/intel64/45nm-core2_whitepaper.pdfhttp://www.intel.com/technology/architecture-silicon/intel64/45nm-core2_whitepaper.pdfhttp://www.intel.com/technology/architecture-silicon/intel64/45nm-core2_whitepaper.pdfhttp://www.intel.com/technology/architecture-silicon/intel64/45nm-core2_whitepaper.pdfhttps://intel.wingateweb.com/published/BMAS004/BMAS004_100Eng.pdfhttps://intel.wingateweb.com/published/BMAS004/BMAS004_100Eng.pdfhttp://www.intel.com/technology/architecture-silicon/45nm-core2/index.htm?iid=technology_core+rhc_45nmhttp://www.intel.com/technology/architecture-silicon/45nm-core2/index.htm?iid=technology_core+rhc_45nmhttp://www.intel.com/technology/architecture-silicon/45nm-core2/index.htm?iid=technology_core+rhc_45nmhttp://www.xbitlabs.com/articles/cpu/display/core2extreme-qx9650.htmlhttp://www.xbitlabs.com/articles/cpu/display/core2extreme-qx9650.html