Arquitectura de Computadores
Tema 1
Introducción: Tendencias Tecnológicas
Coste / Rendimiento/ Consumo
Curso 2015-2016
Contenidos
o La asignatura. ¿Qué estudia?
o El entorno tecnológico
o Rendimiento
o Consumo
o Coste
o Bibliografía
Capítulo 1 de [HePa12]
Semiconductor Industry Association. http://public.itrs.net
Standard Performance Evaluation Corporation. http://www.spec.org
Transaction Processing Council. http://www.tpc.org
AC — Tema 1
Curso 2015-16
2
La asignatura
Niveles de descripción y diseño de un computador
Aplicación
Lenguaje de alto nivel
Sistema Operativo /
Compilador
Arquitectura del repertorio
de instrucciones
Organización
Hardware del sistema
Circuito Digital
Físico
Ofimática (MS-Office, Contaplus, D-Base)
Comunicaciones (Netscape, Explorer, Mail)
Diseño (AutoCAD, ...), Multimedia, Juegos, etc.
FOR, WHILE, REPEAT, PROCEDURE, ...
PASCAL, FORTRAN, C, COBOL, BASIC, ...
MODULA, C++, JAVA, ...
Gestión de memoria
Gestión de procesos
Gestión de ficheros
Compilación
Enlazado
Ubicación
Registros
Loop move #$10, R0
Registro Estado
Contador Programa
load R1(dir1), R2
add R2, R0
sub #1, R1
beq Loop
R0
•••
R7
CPU
Mem.
Bus
E/S
AC — Tema 1
Curso 2015-16
3
La asignatura
Niveles de descripción y diseño de un computador
Aplicación
Lenguaje de alto nivel
Sistema Operativo /
Compilador
Arquitectura del repertorio
de instrucciones
Organización
Hardware del sistema
Circuito Digital
Físico
¿Dónde se estudia?
Auto-aprendizaje, Laboratorios, ...
FP, EDA, TP, …
Sistemas Operativos / PL
FC, TOC, EC, (AE, SE, DAS)
ARQUITECTURA DE COMPUTADORES
FC, TOC, (DAS)
FEE
AC — Tema 1
Curso 2015-16
4
La asignatura
ISA: Interfase Critico
instruction set
software
hardware
Propiedades
o Permanencia con el tiempo / tecnología (portabilidad)
o Proporciona funcionalidad eficaz a los niveles superiores
o Permite implementación eficiente en los niveles inferiores
AC — Tema 1
Curso 2015-16
5
La asignatura
¿Qué estudia la asignatura?
Entrada/salida y almacenamiento
Discos, WORM, Cintas
RAID
DRAM- Memoria Central
Jerarquía
de Memoria
L2/L3 Cache
Coherencia,
Ancho de banda,
Latencia
VLSI
L1/L2 Cache
Arquitectura del Procesador
Segmentación , ILP, TLP
Segmentación, riesgos (hazards),
superescalar, ejecución fuera de orden,
predicción, especulación, multithreading
AC — Tema 1
Curso 2015-16
6
La asignatura
¿Qué estudia la asignatura?
MPMP
° ° °
PMP
M
S
Red de interconexión
Switch (S) Procesador (P) Memoria (M)
Multiprocesadores
Redes de Interconexión
Memoria compartida:
centralizada,
distribuida,
paralelismo de datos
Red
Topología,
Routing,
Ancho de banda,
Latencia,
AC — Tema 1
Curso 2015-16
7
Evolución y tendencias
El escalado de la tecnología continua.
AC — Tema 1
Curso 2015-16
8
Evolución y tendencias
1949 EDSAC 10² op/seg
1957 Transistor: de 10³ a 104 op/seg
o DEC PDP-1 (1957)
o IBM 7090 (1960)
1965 CI: de 105 a 106 op/seg
o IBM System 360 (1965)
o DEC PDP-8 (1965)
1971 Microprocesador
o Intel 4004
2003 más de 3x1013 op/seg
Transistor (47) PN 56
CI (58) PN2000
2010 > 1015 op/seg (1 Pflops)
Intel Xeon 7500, 8c, 16Th
Jun 2014 (top 500)
o 1º Tianhe-2 (MilkyWay-2) 3,120,000 cores, 33.9 Pflops
o 41º Mare Nostrum 48,896 cores, 925 Tflops
AC — Tema 1
Curso 2015-16
Oblea
(Wafer)
9
Evolución y tendencias
Top 500: junio 2011
Desde lista anterior: 7 meses
Capac. total agregada: pasa de 43.6 Pflops a 58.9 Pflops
Capac. último lista: pasa de 31.1 Tflops a 40.2 Tflops
AC — Tema 1
Curso 2015-16
10
Evolución y tendencias
Top 500: noviembre 2011
De lista anterior a esta: 5 meses
Capacidad Total: pasa de 58.9 Pflops a 74.2 Pflops
Capacidad último lista: pasa de 40.2 Tflops a 50.9 Tflops
AC — Tema 1
Curso 2015-16
11
Evolución y tendencias
Top 500: jun 2014
Capacidad Total: 274 Pflops
Último lista: 134 Tflops
AC — Tema 1
Curso 2015-16
12
La ley de Moore
La Ley de Moore
Predicted!
Electronics – Abril 1965
AC — Tema 1
Curso 2015-16
13
La ley de Moore
La Ley de Moore se ha cumplido
AC — Tema 1
Curso 2015-16
14
Fuente: Intel Corporation
La Ley de Moore
Microelectrónica y microarquitectura
AC — Tema 1
Curso 2015-16
15
La Ley de Moore
Microelectrónica + Microarquitectura
Una industria con un progreso que no tiene equivalente
Doblado cada 18 meses (1982-2000):
- Total de incremento 3,200X
- Los coches viajarían a 176,000 MPH; y recorrerían 64,000
millas/gal.
- El viaje: L.A. a N.Y. en 5.5 seg (MACH 3200)
Doblado cada 24 meses (1971-2001):
- total de incremento 36,000X
- Los coches viajarían a 2,400,000 MPH; y recorrerían 600,000
millas/gal.
- El viaje: L.A. a N.Y. en 0.5 seg (MACH 36,000)
AC — Tema 1
Curso 2015-16
16
La Ley de Moore
Microelectrónica y microarquitectura
Objeto de AC
AC — Tema 1
Curso 2015-16
17
La Ley de Moore
El escalado de la tecnología puede acabar hacia el final de la década
El grosor del aislante de la puerta esta limitado a 2nm
AC — Tema 1
Curso 2015-16
Fuente: Intel Corporation
18
La Ley de Moore
9
9
193nm
Manufacturing process details from 1997 to 2011
AC — Tema 1
Curso 2015-16
Fuente: Intel Corporation
19
La Ley de Moore: problemas
1er problema: consumo “Power Wall”
AC — Tema 1
Curso 2015-16
Fuente: Intel Corporation
20
La Ley de Moore: problemas
1er problema: consumo “Power Wall”
AC — Tema 1
Curso 2015-16
Fuente: Intel Corporation
21
La Ley de Moore: problemas
2º problema: retardo interconexiones
El rendimiento del transistor (retardo) escala linealmente con la tecnología
El retardo de la interconexión no escala con la tecnología
AC — Tema 1
Curso 2015-16
22
La Ley de Moore: problemas
2º problema: retardo interconexiones.
¿Qué % del área del chip se puede alcanzar en un ciclo de reloj?
Pero...¿cuánto
dura un ciclo?
Ciclo:
16 FO4: Clk = 16 veces el retardo
de un inversor con “fan-out” 4
AC — Tema 1
Curso 2015-16
23
Multi - Many cores
La Ley de Moore
El punto de inflexión
May 17, 2004 … Intel, the world's largest chip maker, publicly acknowledged
that it had hit a ''thermal wall'' on its microprocessor line. As a result,
the company is changing its product strategy and disbanding one of its most
advanced design groups. Intel also said that it would abandon two advanced
chip development projects … Now, Intel is embarked on a course already
adopted by some of its major rivals: obtaining more computing power by
stamping multiple processors on a single chip rather than straining to
increase the speed of a single processor … Intel's decision to change course
and embrace a “dual core” processor structure shows the challenge of
overcoming the effects of heat generated by the constant on-off movement
of tiny switches in modern computers … some analysts and former Intel
designers said that Intel was coming to terms with escalating heat
problems so severe they threatened to cause its chips to fracture at
extremetemperatures…
New York Times, May 17, 2004
AC — Tema 1
Curso 2015-16
24
El entorno: tendencias
Latencia y ancho de banda en los últimos 25 años: desequilibrios
CPU alta,
Memoria Baja
(“Memory Wall”)
Procesador: ‘286, ‘386,
‘486, Pentium, Pentium 4,
Core i7 (80x,25000x)
Ethernet: 10Mb, 100Mb,
1G/s, 10Gb/s, 100Gb/s
(30x,10000x)
Modulo de Memoria: DRAM,
Page Mode DRAM, SDRAM,
DDR2-3 SDRAM (6x,1200x)
Disco : 3600, 5400, 7200,
10000, 15000 RPM (14x, 350x)
AC — Tema 1
Curso 2015-16
25
El entorno: tendencias
Latencia y ancho de banda en los últimos 25 años: Procesador
*
(*) Tiempo de una op. sencilla, asumiendo que no hay contención
Fig 1.10 H&P 5th ed (detalle).
AC — Tema 1
Curso 2015-16
x 25K
x 80
26
Rendimiento
Evolución del rendimiento de los procesadores
Medida de rendimiento utilizada:
número de veces más rápido qué el VAX-11/780
Multicore
RISC
- Disipación calor
- Agotamiento ILP
- Latencia memoria
Perf.
x 11,7
AC — Tema 1
Curso 2015-16
27
30 años de evolución
AC — Tema 1
Curso 2015-16
28
30 años de evolución
La Regla de Pollack (Intel)
o Regla empírica: El rendimiento obtenido con un
conjunto de recursos, R, crece de forma
proporcional a al raíz cuadrada de R.
Rend (R) ~ √ R
Transistores/Consumo 2x → Rendimiento 1.4x
Transistores/Consumo 4x → Rendimiento 2x
AC — Tema 1
Curso 2015-16
29
Rendimiento
Medidas del rendimiento
Respuestas por mes, hora, segundo
Operaciones por segundo TPC
Aplicación
Lenguajes de
Programación
Compilador
ARI (ISA)
(millones) de Instrucciones por segundo: MIPS
(millones) de (FP) operaciones por segundo: MFLOP/s
Datapath
Control
Unidades Funcionales
Transistores
cables
Megabytes por segundo
Ciclos por segundo (frecuencia de reloj)
La única medida fiable es el tiempo de ejecución programas reales
Dos aspectos: Rendimiento del procesador, Rendimiento del computador
AC — Tema 1
Curso 2015-16
30
Rendimiento
Rendimiento del procesador
TCPU= N * CPI * t
N: nº de instrucciones (Compiladores y LM)
CPI: (LM, implementación, paralelismo)
t: período de reloj (implementación, tecnología)
Ciclos medios por instrucción (CPI)
CPI = (TCPU * Frecuencia de reloj) / Numero de Instrucciones
= Ciclos / Numero de Instrucciones
Si asumimos que existen n tipos de instrucciones:
n
TCPU = t * (CPI j
j = 1
* I j ) (Ij = nº instrucciones tipo j ejecutadas)
Dividiendo por (t.N)
n
CPI = CPI j
j = 1
* F j (donde Fj es la frecuencia de aparición de la instrucción tipo j)
Ejemplo : ALU 1 ciclo( 50%), Ld 2 ciclos(20%), St 2 ciclos(10%), saltos 2 ciclos(20%)
CPI = 1*0,5 + 2*0,2 + 2*0,1 + 2*0,2 = 1.5
Invertir recursos donde se gasta el tiempo
AC — Tema 1
Curso 2015-16
31
31
Rendimiento
Rendimiento global del computador : Benchmarks
La única forma fiable es ejecutando distintos programas reales.
Programas “de juguete”: 10~100 líneas
Comentarios de: Tema 1 - Introducción: Tendencias Tecnológicas Coste/Rendimiento/Consumo (0)
No hay comentarios