Seleziona pagina

Abbiamo testato il Bulldozer: FX-8150 e tre schede madri 990FX sul banco di prova

Abbiamo testato il Bulldozer: FX-8150 e tre schede madri 990FX sul banco di prova

tecnologia

I chip sono realizzati sul nodo SHP a 32 nm di GlobalFoundries. Per i Bulldozer, il SOI precedentemente introdotto è stato combinato con l'HKMG (High-K Metal Gate) di Intel, che può aiutare a combattere la corrente di dispersione. L'architettura è ben progettata per raggiungere velocità di clock elevate ("Speed ​​racer"), rendendo la gamma di modelli probabilmente completamente priva di prodotti al di sotto dei 3 GHz. Tutte le unità centrali nella vecchia lingua sono Black Edition, quindi ora non è specificamente contrassegnato.

A questo punto facciamo una piccola deviazione e guardiamo anche l'altra faccia della medaglia. Il processore quad-core Phenom II più veloce sta ticchettando a 3,7 GHz e il 1100T basato sul chip Thuban a sei core sta ticchettando a 3,3 GHz. In confronto, lo scatto base dell'AMD FX-32 a 8150 nm è quasi deludentemente basso e solo i livelli 4,2 di Turbo Core 10 GHz sono accettabili, il che promette immediatamente un surplus di potenza del 15-3,5% (no). XbitLabs ha ventilato un anno fa che il Bulldozer stava attraversando il clock da XNUMX GHz, che si è unito, ma nonostante una serie di scivolate. Sembra corretto presumere che ci siano ancora seri problemi con la produzione e l'uscita del nuovo cannone, che ha un impatto significativo sulle prestazioni.

amd_bulldozer_sei velocità
Il secondo numero intero aumenta la dimensione del modulo solo del 12%. [+]

Sulla base di molti anni di esperienza, è nato anche un concetto di base, che si basava su quanto segue: le unità centrali eseguono operazioni a punto fisso con una cadenza media superiore all'80%. Da ciò, si può vedere che i calcoli in virgola mobile sono molto meno presenti nella vita dei "millepiedi". Nella progettazione, di conseguenza, sono collegati due core interi, che hanno la propria cache di primo livello, ma devono già condividere la cache di secondo livello e l'unità a virgola mobile. AMD ha chiamato l'unità come modulo.

amd_bulldozer_one_module
Un modulo [+]

Secondo le misurazioni interne, il secondo intero aumenta sostanzialmente le dimensioni del modulo in misura trascurabile, al contrario, può idealmente causare un aumento delle prestazioni fino all'80%. La parte della cache primaria responsabile dei dati è direttamente connessa ai processori (dimensione 16 Kbyte, ritardo 4 clock), ma la cache da 64 Kbyte destinata alla memorizzazione delle istruzioni è già condivisa tra gli integrali.

1_modulo_cosa_quale
Scavando più a fondo [+]

Sulla base dei risultati del test, la cache di dati L1 non è solo troppo piccola, ma anche lenta e questo insieme non è una combinazione molto buona. La dimensione della memoria di secondo livello condivisa all'interno del modulo è soddisfacente, ma la sua latenza è elevata, 25-27 cicli. È facile immaginare che una cache L1 più grande e una L2 più veloce (12-15 cicli) migliorerebbero le prestazioni del processore del 10-20%.

Non sorprende che raggiungere gli 8 MB L3 non sia veloce nemmeno alla velocità della luce (65 cicli). In sintesi, il sistema di cache Bulldozer non sarà l'ottava meraviglia del mondo.

Istruzioni
Nel labirinto del set di istruzioni [+]

Bulldozer ha attualmente il più ampio set di supporto per set di istruzioni: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ e, naturalmente, l'estensione a 64 bit. Delle due innovazioni (FMA4, XOP), FMA4 è di grande importanza nel mercato HPC e XOP offre un leggero vantaggio rispetto alle applicazioni multimediali. Per quanto ne sappiamo, l'ultima versione di x264 supporta già i nuovi set di istruzioni. 3D ora obsoleto! il supporto è stato interrotto, penso che non causi notti insonni a molti lettori.

È noto che utilizza Intel VT per accedere alla memoria virtuale x86. IOMMU aumenta significativamente le prestazioni di virtualizzazione del sistema, tuttavia, sorprendentemente, le soluzioni di fascia alta di Intel (Core i5-2600K, i7-2600K) non supportano questa tecnologia e questo "cerchio nero" include le attuali soluzioni Sandy Bridge E. Anche in questo caso, un servizio in più rispetto alla concorrenza diretta, anche se la sua utilità per l'utente medio è discutibile.

40
Turbo Core in teoria [+]

Anche il Turbo Core è stato ulteriormente sviluppato, funziona con più porte di clock e si adatta ancora meglio a vari gradi di utilizzo. Se tutti i core sono attivi ma le unità in virgola mobile non sono attualmente in uso, il clock Turbo Core 2.0 avrà effetto. La procedura modifica dinamicamente i segnali di clock dei core in funzione del carico, risorse inattive, moduli e componenti all'interno del modulo possono essere disconnessi, quindi non ci sarebbero reclami in quest'area verso la parte anteriore dell'alloggiamento. Sfortunatamente, il lato software della cosa ti getta completamente nella zuppa.

in pratica
Implementazione pratica [+]

Windows 7 Scheduler è, per usare un eufemismo, non il modo più efficiente per allocare le attività perché alterna frequentemente l'allocazione delle attività tra i core. La prossima versione del sistema operativo risolverà il problema e presto verrà apportata una correzione per questo sistema, quindi - in casi estremi può essere del 15-25 percento - presto otterremo il 2-10% in più di prestazioni. Un altro vantaggio molto interessante sarà che il consumo energetico inattivo può essere ridotto di 4-5 watt perché i moduli possono rimanere "risparmiati" più a lungo.

bulldozerwin8_e_bf3
"Non trattare i tuoi denti come un dono" [+]

bulldozerbf3betafx

La "trasformazione" durante Battlefield 3 [+]

Battlefield 3 mostra anche bene quanto alcune ottimizzazioni aiutino un processore. In questo gioco, il processore della serie FX attualmente più potente può raggiungere le prestazioni del Core i7-2600k.

I processori della serie FX sono dotati di un involucro Socket AM3 + e sono alloggiati nelle schede madri del chipset della serie 9 di AMD. L'orientamento è facilitato anche dal colore della presa, che è prevalentemente nera. Per implementare la piattaforma Scorpius infinitamente sonora, abbiamo bisogno di un processore della serie FX, una scheda madre con un chipset della serie 9 e una scheda video della serie Radeon HD 6000. Il Bulldozer ha un controller di memoria DDR1866 a doppio canale che supporta moduli a 3 MHz.

phenomu_folulk

AMD FX-8150 con un Phenom II X4 970 BE - dall'alto [+]

In conclusione, vorremmo aggiungere un'altra interessante aggiunta. Una seria controversia ha sollevato il fatto che il lavoro svolto all'ora (istruzioni per ciclo) dai processori basati su Bulldozer è, in media, leggermente diminuito rispetto al suo predecessore. Alcuni immaginano immediatamente la caduta dell'architettura, altri elencano esempi simili del passato. A questo proposito, come sempre, limitiamoci ai fatti. I programmatori di oggi si rendono sempre più conto dei vantaggi dell'ottimizzazione multi-core. Con un motore a 8 cilindri che offre sostanzialmente buone prestazioni, raramente pensiamo a cosa può fare con 1 cilindro.

fenomelulk

AMD FX-8150 con un Phenom II X4 970 BE - in basso [+]

L'esempio non è dei migliori, ma può far luce sul punto. Non pretendiamo che faremo un uso ottimale di otto core interi densamente, ma Turbo Core 2.0 punta al segnale di clock più alto possibile (4,2 GHz). Ciò che è disponibile solo nel caso di K10.5 al costo di "sudore sanguinante" è considerato un "orologio di base" qui. Inoltre, non c'è dubbio che l'implementazione di AVX, FMA e XOP sia costata una serie significativa di transistor. Le basi dell'architettura sono utilizzate in diversi segmenti (server, PC desktop), quindi questo sembrava un passaggio obbligatorio, ma oggi vediamo ancora meno dei suoi vantaggi (soprattutto in un ambiente desktop).

socket_2k

A letto [+]

Idealmente (FMA4 + AVX), il Bulldozer sembra davvero molto elementare, offre prestazioni sorprendenti e mette subito le cose sotto una luce diversa. Secondo le misurazioni dell'HT4U tedesco, durante l'applicazione di rendering C-Ray 1.1, l'AMD FX-8150 si comporta negli stessi 15 secondi dell'Intel Core i7 990X. È esattamente la metà del tempo impiegato da un processore AMD Phenom II X6 1100T per svolgere il lavoro. Tra parentesi notiamo che abbiamo valutato anche l'altro estremo, Super PI.