Seleziona pagina

Provato: AMD GCN - Presentazione della Radeon HD 7970 e HD 7950

È giunto il momento per noi di introdurre finalmente l'architettura AMD GCN (Graphics Core Next) e i suoi due rappresentanti più potenti, la Radeon HD 7970 e la Radeon HD 7950.

Loghi degli articoli della Rete Display di Google

Delle HD 7950, abbiamo subito reso omaggio a due di esse, quindi abbiamo avuto anche l'opportunità di testare CrossFireX, e abbiamo anche effettuato misurazioni sintonizzate con entrambe le schede. Naturalmente, abbiamo anche inviato un certo numero di piloti contro i due nuovi cannoni per vedere quanto le carte avessero accelerato rispetto alla precedente generazione di GeForce e Radeon. 


Prima di entrare nei partecipanti e nei test, daremo un'occhiata più da vicino all'architettura GCN e prenderemo in considerazione le funzionalità dell'HD 7970 e dell'HD 7950.

 allcardsbox 2k

 Core grafico Avanti Graphic

Nel maggio 2007, AMD ha introdotto la scheda grafica Radeon HD 2900 XT, che era già costruita su un'architettura shader unificata. Come si è scoperto, il design aveva una serie di difetti, ma i problemi sono stati quasi completamente eliminati al momento della serie Radeon HD 4000, dando all'azienda un punto d'appoggio nel mercato delle schede grafiche desktop. A questo punto, si poteva vedere che ora erano necessari cambiamenti radicali. La serie HD 6900 “Cayman” è considerata il primo passo. Qui, i precedenti processori superscalari a 5 vie (VLIW5) sono stati sostituiti da processori a 4 vie (VLIW4) e Cayman è stato il primo chip a gestire più flussi di istruzioni indipendenti. L'altra grande novità è stata l'introduzione dei due “motori grafici”, che hanno raddoppiato la capacità di setup del triangolo - aumentando la potenza di tassellatura - e il numero di alcuni elementi (Rasterizer, Hierarchical Z, Tessellator). Oggi è diventato il soggetto del nostro test di livello successivo. Grazie a un'architettura chiamata Graphics Core Next (GCN), gli array di shader che funzionano con le istruzioni VLIW utilizzate finora sono diventati obsoleti, sostituiti dalle cosiddette Compute Units (CU). GCN ha fatto il suo debutto nella famiglia Radeon HD 7900 “Tahiti”.

19 m

È interessante, ma non sorprendentemente, che le GPU Tahiti abbiano raggiunto densità di transistor eccezionali grazie alla tecnologia di produzione della larghezza di banda a 28 nm di TSMC: contengono 365 miliardi di transistor per 4,3 millimetri quadrati. Un'unità di calcolo contiene quattro SIMD e un'unità scalare. L'ammiraglia AMD Radeon HD 7970 "Tahiti XT" funziona con 32 CU attive, assumendo un totale di 2048 processori shader (quattro SIMD a 16 vie, 64 ALU). Dato il progresso delle generazioni finora, questo non sembra essere un valore eccezionale a prima vista, ma per una migliore efficienza e utilizzo, vorremmo affermare che non vale la pena trarre casualmente conclusioni di vasta portata da questo indicatore tecnico. In teoria, una CU può eseguire quanto una singola unità Cayman SIMD. Un problema importante con le generazioni precedenti è la dipendenza dai dati (le istruzioni successive dipendono l'una dall'altra dai dati), che ha causato forti fluttuazioni nell'utilizzo. L'architettura GCN è anche un passo avanti in quest'area perché elimina le dipendenze sperimentate in precedenza attraverso l'elaborazione del flusso. I vantaggi sono solo nelle parole chiave: anche la pianificazione, il debug, la stima delle prestazioni previste e lo sviluppo dei driver sono diventati radicalmente più semplici e trasparenti. 

24

36 mUna CU non solo contiene quattro unità SIMD, ma ha anche il proprio scheduler, 340 KB di memoria temporanea e un cluster di texturizzazione. Ciò risulta dalla somma del registro vettoriale 4 × 64 KB, della condivisione dati locale, anch'essa di 64 KB, del registro scalare da 4 KB e della cache di primo livello con una capacità di 16 KB. Nell'immagine sopra potete vedere un altro componente che merita sicuramente una menzione, e si tratta della cosiddetta "Branch & Message Unit", che gioca un ruolo nel controllo più efficiente dei programmi.
Avendo le informazioni finora, esaminiamo nuovamente i parametri chiave del processore grafico "Tahiti XT": 32 CU (2048 processori shader, 128 SIMD), 128 unità di texturing, 512 Load-Store Unit e un totale di 8,2 MB di cache. Quindi la posizione della ragazza è stata subito diversa, anche se stavamo appena iniziando a "spogliarci".

35 mFront-end

In termini di frontend, possiamo notare differenze significative rispetto all'architettura di NVIDIA GF110. La gestione non è fondamentalmente fatta a livello di CU. Questa attività viene eseguita dal processore dei comandi e dall'Asynchronous Compute Engine (ACE). Il chip è stato dotato di due motori geometrici che, oltre al Geometry-Assembler, il Vertex-Assembler, ospitano anche unità di tassellatura di nona generazione. La comunicazione con le CU è facilitata dal Global Data Share (GDS), attraverso il quale queste unità possono anche condividere i dati tra loro. La sezione frontend contiene due rasterizzatori: puoi vedere il layout di seguito.

37

ROP e interfaccia di memoria
AMD Tahiti contiene 8 cluster ROP - a questo punto abbiamo trovato una corrispondenza con il chip Cayman. Ciascuno di questi "array" contiene quattro unità ROP e 16 campionatori Z. È importante ricordare che a ciascun cluster è stata assegnata la propria cache. Si è verificato un altro cambiamento importante: non c'è più una connessione diretta al controller di memoria. La mossa ha lo scopo di migliorare la flessibilità e l'usabilità, che possiamo vedere nel contesto di Pitcairn... I ROP possono scrivere nella cache L768 da 2 KB, che a sua volta può essere letta da più unità. L'interfaccia di memoria riceve un'immagine gioiosa. I sei controller di memoria a 64 bit hanno una capacità totale di 384 bit. Vorremmo solo aggiungere una parola a questo. Finalmente! La dimensione predefinita della memoria video è 3072 MB, ma in teoria sono possibili anche 1536 MB e 6 GB.

Speriamo che i nostri lettori non la prendano in cattiva luce, ma a questo punto vorremmo esprimere la nostra personale opinione sull'area backend. La relazione tra Barts, che ha funzionato davvero bene, e il chip Cayman, che mostra risultati relativamente modesti, suggerisce che il "problema generale" con i chip AMD è la ridotta capacità del ROP. Anche qui non sono stati fatti progressi su Tahiti, mentre si potrebbero ancora scrivere pagine su altre novità del chip con qualche esagerazione. Il ruolo dei ROP è particolarmente importante durante i giochi, durante i compiti e le applicazioni GPGPU diventano secondi violinisti. È anche certo che questa sezione consuma un gran numero di transistor, il che ovviamente si riflette anche nelle dimensioni del chip.

 

I miglioramenti di AMD finora hanno ampiamente soddisfatto le esigenze dei giocatori. Ora c'è stata una svolta di almeno 90 gradi ed è diventato un forte crocevia per soddisfare le esigenze professionali, per utilizzare la GPU in modo più ampio. Ovviamente questo non è un problema, visto che si tratta sostanzialmente di un livello di prestazioni molto approssimativo, che resisterà sicuramente alle prove dei giochi moderni per qualche anno. Secondo le indiscrezioni, non solo AMD, ma anche NVIDIA sta trattando i ROP in modo restrittivo con Kepler.

L'espansione del bus di memoria è stato un passo encomiabile. In effetti, i designer avevano poca scelta. I clock non possono più essere aumentati in modo significativo, ma il chip è affamato di dati. A nostro avviso, questa mossa da sola avrebbe potuto aumentare le prestazioni durante i giochi fino al 15%.

44DirectX 11.1 e PCI Express 3.0
Lo standard PCI-Express 3.0 aumenta la velocità da 16 GB/secondo a 32 GB/secondo, raddoppiando la velocità di trasferimento dati di PCIe 2.0. I produttori di schede madri hanno immediatamente "morso l'argomento", ma non importa quanto lo vogliano, lo switch non offre un vantaggio significativo al momento. PCIe 3.0 è un'arma importante dal punto di vista del marketing, uno standard obbligatorio per AMD e NVIDIA e un'altra "trappola del denaro" per gli utenti.
DirectX 11.1 può iniziare la sua conquista con il seguente sistema operativo Windows, che contiene correzioni e ottimizzazioni minori. Secondo il materiale ufficiale, possiamo aspettarci un supporto 3D stereo nativo e una rasterizzazione più efficiente dalla nuova API. Sfortunatamente, il punto forse più interessante, che discute di come sia possibile migliorare la flessibilità e l'usabilità diffusa dell'hardware grafico, non è stato dettagliato.

31 m

L'architettura Graphics-Core-Next ha questo aspetto. Naturalmente, il chip non serve solo alle esigenze dei giocatori, ma ha anche spazio per compiti professionali. Le prestazioni di picco di calcolo teorico di Tahiti (per calcoli a precisione doppia) sono 947 GFLOP, quattro volte superiori per operazioni a virgola mobile a precisione singola. Inoltre, le memorie hanno il supporto ECC e la GPU conosce bene le API DirectCompute 11.1, OpenCL 1.2 C++ AMP.27 Nuove funzionalità: Zero-Core
In generale, i migliori predatori di livello Radeon HD 7900 sono abituati a consumare un argomento tabù, ma gli ingegneri AMD mancano dell'ingegnosità. L'idea è semplice ma grande, ma non nuova. Se si lascia il computer per lungo tempo, ma per qualche motivo non si desidera spegnerlo, è possibile lasciare il monitor solo in modalità standby. Grazie alla tecnologia ZeroCore Power, con il display spento, l'intero controller grafico può essere diseccitato e non è richiesto alcun raffreddamento attivo in questa forma. I vantaggi sono convincenti: zero rumore, 3 watt di consumo energetico. Sarà un fattore insignificante per molti, ma la procedura per i sistemi Crossfire a quattro vie spegne le schede video non primarie, riducendo significativamente la bolletta dell'elettricità, sebbene chiunque pensi a un tale assemblaggio faccia poco per affrontare l'efficienza energetica.

21a

20

Eyefinity 2.0
Una delle caratteristiche interessanti della nuova versione è che consente di condurre conversazioni in conferenza multi-monitor con audio multi-banda. Il nome ufficiale della procedura è Discrete Digital Multi-Point (DDM) Audio. La Radeon HD 7970 può essere collegata a tre display contemporaneamente, che possono ricevere un flusso audio a otto canali. Questo potrebbe non interessare specificamente agli utenti domestici, ma è un buon esempio di quante aree può essere utilizzato il nuovo cannone. Anche l'unità Catalyst si sta evolvendo, semplificando il posizionamento del vassoio, ad esempio, e consentendo di compilare risoluzioni personalizzate. Vale la pena ricordare che i contenuti 3D stereo Full HD possono essere visualizzati anche in modalità Eyefinity. 

29 m

UVD e VCE
UVD 3.0 offre già accelerazione hardware per DivX / Xvid, contenuto MPEG-4 Part 2 MVC e Video Code Engine (VCE) è praticamente l'equivalente AMD di Intel Quick Sync Video. VCE è un hardware autonomo ed è progettato solo per accelerare la transcodifica dei video H.264. Il motore è più lento dei processori shader nel processore grafico, ma molto più efficiente dal punto di vista energetico. Ci sono due modalità disponibili per gli utenti. All'inizio funziona solo il VCE, che di per sé è più veloce della maggior parte delle CPU. In questo caso non sperimenteremo un rallentamento, potremo caricare la scheda video o l'unità centrale senza problemi. La seconda opzione è la modalità ibrida. Le unità aritmetico-logiche del VCE e della GPU saltano insieme al compito. Questo "matrimonio" ha ovviamente un buon effetto sulla velocità di codifica, ma in tal caso, non sorprenderti se il tuo gioco preferito passa alla modalità "slideshow".

32

Ora che siamo a conoscenza della teoria e dei numeri, facciamo conoscenza con i tre modelli GCN nel test!