Valitse Sivu

Kokeiltu: AMD GCN - Esittelyssä Radeon HD 7970 ja HD 7950

On tullut aika vihdoin esitellä AMD GCN (Graphics Core Next) -arkkitehtuuri ja sen kaksi tehokkainta edustajaa, Radeon HD 7970 ja Radeon HD 7950.

GCN-artikkelilogot

HD 7950: stä kunnioitimme heti kahta heistä, joten meillä oli myös mahdollisuus testata CrossFireX, ja teimme myös viritetyt mittaukset molemmilla korteilla. Tietysti lähetimme myös useita ratsastajia kahta uutta tykkiä vastaan ​​katsomaan, kuinka paljon kortit olivat kiihtyneet verrattuna edellisen sukupolven GeForcesiin ja Radeonsiin. 


Ennen kuin pääsemme osallistujiin ja testeihin, tarkastelemme tarkemmin GCN-arkkitehtuuria ja otamme käyttöön HD 7970: n ja HD 7950: n ominaisuudet.

 kaikki korttilaatikot 2k

 Graphics Core Seuraava

Toukokuussa 2007 AMD esitteli Radeon HD 2900 XT -näytönohjaimen, joka oli jo rakennettu yhtenäiseen varjostinarkkitehtuuriin. Kuten kävi ilmi, suunnittelussa oli useita puutteita, mutta ongelmat poistettiin melkein kokonaan Radeon HD 4000 -sarjan aikaan, mikä antoi yritykselle jalansijan näytönohjainkorttimarkkinoilla. Tässä vaiheessa voitiin nähdä, että nyt tarvitaan radikaaleja muutoksia. HD 6900 “Cayman” -sarjaa pidetään ensimmäisenä askeleena. Täällä edelliset 5-tieiset superskalaarisuorittimet (VLIW5) on korvattu 4-tielisillä prosessoreilla (VLIW4), ja Cayman oli ensimmäinen siru, joka käsitteli useita itsenäisiä käskyvirtoja. Toinen suuri innovaatio oli kahden "grafiikkamoottorin" käyttöönotto, joka kaksinkertaisti kolmion asetuskapasiteetin - kasvattaen tesellointitehoa - ja joidenkin elementtien (Rasterizer, Hierarchical Z, Tessellator) määrän. Hänestä tuli tänään seuraavan tason testimme aihe. GCN (Graphics Core Next) -nimisen arkkitehtuurin ansiosta varjostimet, jotka toimivat toistaiseksi käytettyjen VLIW-ohjeiden kanssa, ovat vanhentuneet ja korvattu ns. Compute Units (CU) -yksiköillä. GCN teki debyyttinsä Radeon HD 7900 “Tahiti” -perheessä.

19 m

Mielenkiintoista, mutta ei yllättävää, että Tahitin GPU: t ovat saavuttaneet erinomaiset transistoritiheydet TSMC: n 28 nm: n kaistanleveyden valmistustekniikan ansiosta - ne sisältävät 365 miljardia transistoria 4,3 neliömetriä kohti. Yksi laskentayksikkö sisältää neljä SIMD: tä ja yhden skalaariyksikön. AMD: n lippulaiva Radeon HD 7970 “Tahiti XT” toimii 32 aktiivisen CU: n kanssa, olettaen, että yhteensä 2048 varjostinprosessoria (neljä 16-tie SIMD: tä, 64 ALU: ta). Kun otetaan huomioon sukupolvien tähänastinen kehitys, tämä ei näytä olevan ensiluokkaisella arvolla, mutta paremman tehokkuuden ja hyödyntämisen vuoksi haluamme todeta, että tästä ei kannata tehdä vahingossa kauaskantoisia johtopäätöksiä tekninen indikaattori. Teoriassa CU voi suorittaa yhtä paljon kuin yksi Cayman SIMD -yksikkö. Suurin ongelma aiempien sukupolvien kohdalla on datariippuvuus (peräkkäiset ohjeet riippuvat toisistaan ​​tiedoista), mikä on aiheuttanut käytön vaihtelevan voimakkaasti. GCN-arkkitehtuuri on myös askel eteenpäin tällä alalla, koska se eliminoi aiemmin koetut riippuvuudet virtaprosessoinnin avulla. Edut ovat vain otsikoissa: aikataulutus, virheenkorjaus, arvioitu odotettu suorituskyky ja ohjainkehitys ovat myös tulleet radikaalisti yksinkertaisemmiksi ja avoimemmiksi. 

24

36 mCU sisältää paitsi neljä SIMD-yksikköä, mutta sillä on myös oma ajoitin, 340 kt puskuritallennustilaa ja teksturointiklusteri. Tämä on 4 × 64 kt: n vektorirekisterin, 64 kt: n paikallisen tiedon jakamisen, 4 kt: n skalaarirekisterin ja 16 kt: n ensimmäisen tason välimuistin summa. Yllä olevassa kuvassa on toinen komponentti, joka on ehdottomasti mainitsemisen arvoinen, ja se on niin kutsuttu "Branch & Message Unit", jolla on tärkeä rooli ohjelman tehokkaammassa valvonnassa.
Tarkasteltuamme toistaiseksi Tahiti XT -grafiikkaprosessorin tärkeimmät parametrit: 32 CU (2048 shader-prosessoria, 128 SIMD-muistia), 128 tekstuuriyksikköä, 512 Load-Store-yksikköä ja yhteensä 8,2 Mt välimuisti. Joten tytön asema oli heti erilainen, vaikka olimme vasta "riisuutumassa".

35 mFront-end

Käyttöliittymän suhteen voimme nähdä merkittäviä eroja NVIDIA GF110 -arkkitehtuuriin verrattuna. Hallintaa ei periaatteessa tapahdu CU-tasoilla. Tämän tehtävän suorittavat komentoprosessori ja ACE (Asynchronous Compute Engine). Sirulle on annettu kaksi geometrista moottoria, joihin Geometry-Assemblerin lisäksi Vertex-Assembler mahtuu myös yhdeksännen sukupolven tessellator-yksiköt. Viestintää CU: iden kanssa helpottaa Global Data Share (GDS), jonka kautta nämä yksiköt voivat myös jakaa tietoja keskenään. Käyttöliittymäosassa on kaksi rasterointia - näet asettelun alla.

37

ROP: t ja muistiliitäntä
AMD Tahiti sisältää 8 ROP-klusteria - tässä vaiheessa löysimme ottelun Cayman-sirulla. Jokainen tällainen "matriisi" sisältää neljä ROP-yksikköä ja 16 Z-näytteistintä. On tärkeää mainita, että jokaiselle klusterille annettiin oma välimuisti. Toinen merkittävä muutos on tapahtunut: suoraa yhteyttä muistiohjaimeen ei ole enää olemassa. Siirron tarkoituksena on parantaa joustavuutta ja käytettävyyttä, minkä voimme nähdä Pitcairnin yhteydessä ... ROP: t voivat kirjoittaa 768 kt L2-välimuistiin, jonka puolestaan ​​voi lukea useilla yksiköillä. Muistiliitäntä saa iloisen kuvan. Kuuden 64-bittisen muistin ohjaimen kokonaiskapasiteetti on 384 bittiä. Lisätään vain sana tähän. Viimeinkin! Videomuistin oletuskoko on 3072 Mt, mutta teoriassa myös 1536 Mt ja 6 Gt ovat mahdollisia.

Toivomme, että lukijamme eivät ota sitä pahalla nimellä, mutta tässä vaiheessa ilmaisemme henkilökohtaisen mielipiteemme backend-alueesta. Todella hyvin toimineen Bartsin ja suhteellisen vaatimattomia tuloksia osoittavan Cayman-sirun välinen suhde viittaa siihen, että AMD-sirujen "yleinen ongelma" on tiukka ROP-kapasiteetti. Tahitissa ei myöskään ole tapahtunut edistystä täällä, vaikka sivuja voitaisiin silti kirjoittaa sirun muista uutuuksista liioittelemalla. ROP: iden rooli on erityisen näkyvä pelien aikana, GPGPU-tehtävien ja sovellusten aikana heistä tulee viulunsoittajia. On myös varmaa, että tämä osa kuluttaa paljon transistoreita, mikä tietysti heijastuu myös sirun kokoon.

 

AMD: n tähänastiset parannukset ovat palvelleet suurelta osin pelaajien tarpeita. Nyt on kääntynyt vähintään 90 astetta ja siitä on tullut vahva tienristeys ammatillisten tarpeiden tyydyttämiseksi, GPU: n käyttämiseksi laajemmin. Tämä ei tietenkään ole ongelma, koska puhumme periaatteessa erittäin karkeasta suorituskyvystä, joka kestää varmasti muutaman vuoden ajan nykyaikaisten pelien kokeiluja. Huhujen mukaan paitsi AMD, myös NVIDIA käsittelee ROP: ita kapeasti Keplerillä.

Muistiväylän laajentaminen oli kiitettävä vaihe. Itse asiassa suunnittelijoilla ei ollut juurikaan valinnanvaraa. Kelloja ei voida enää lisätä merkittävästi, mutta siru nälkää tietoja. Mielestämme pelkästään tämä siirto olisi voinut lisätä suorituskykyä pelien aikana jopa 15 prosenttia.

44DirectX 11.1 ja PCI Express 3.0
PCI-Express 3.0 -standardi nostaa nopeuden 16 Gt / sekunnista 32 Gt / s: iin, mikä kaksinkertaistaa PCIe 2.0: n tiedonsiirtonopeuden. Emolevynvalmistajat "purivat heti aihetta", mutta riippumatta siitä, kuinka paljon he haluavat, kytkin ei tarjoa merkittävää etua tällä hetkellä. PCIe 3.0 on markkinoinnin kannalta tärkeä ase, pakollinen standardi AMD: lle ja NVIDIA: lle ja toinen "rahan ansa" käyttäjille.
DirectX 11.1 voi aloittaa valloituksensa seuraavalla Windows-käyttöjärjestelmällä, joka sisältää pieniä korjauksia ja optimointeja. Virallisen materiaalin mukaan voimme odottaa alkuperäistä 3D-stereotukea ja tehokkaampaa rasterointia uudelta sovellusliittymältä. Valitettavasti kenties mielenkiintoisinta kohtaa, jossa keskustellaan siitä, kuinka joustavuutta ja grafiikkalaitteiden laajaa käytettävyyttä voidaan parantaa, ei ole yksityiskohtainen.

31 m

Graphics-Core-Next -arkkitehtuuri näyttää suunnilleen tältä. Tietysti siru ei vain palvele pelaajien tarpeita, vaan sillä on tilaa myös ammattimaisille tehtäville. Tahitin teoreettinen laskentahuipputeho (kaksitarkkuuslaskelmia varten) on 947 GFLOP, joka on neljä kertaa korkeampi yhden tarkkuuden liukulukulaskennassa. Lisäksi muisteilla on ECC-tuki ja GPU tuntee hyvin DirectCompute 11.1-, OpenCL 1.2 C ++ AMP -sovellusliittymät.27 Uudet ominaisuudet: Zero-Core
Yleensä Radeon HD 7900 -tason saalistajat ovat tottuneet nauttimaan tabu-aiheena, mutta AMD-insinööreiltä puuttuu kekseliäisyys. Idea on yksinkertainen, mutta hieno, mutta ei uusi. Jos jätät tietokonetta pitkäksi aikaa, mutta jostain syystä et halua sammuttaa sitä, voit jättää näytön vain valmiustilaan. ZeroCore Power -tekniikan ansiosta koko näytönohjain voidaan kytkeä pois päältä virran ollessa sammutettuna eikä aktiivista jäähdytystä tarvita tässä muodossa. Edut ovat vakuuttavia: nolla melua, 3 watin virrankulutus. Se on merkityksetön tekijä monille, mutta nelisuuntaisten Crossfire-järjestelmien menettely sulkee muut kuin ensisijaiset videokortit, mikä vähentää merkittävästi sähkölaskua - vaikka kukaan tällaista kokoonpanoa ajattelija ei juurikaan puutu energiatehokkuuteen.

21a

20

Eyefinity 2.0
Yksi uuden version mielenkiintoisista ominaisuuksista on, että sen avulla voit käydä moninäyttöisiä neuvottelukeskusteluja monikaistaisen äänen kanssa. Menettelyn virallinen nimi on Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 voidaan liittää kolmeen näyttöön samanaikaisesti, jotka voivat vastaanottaa kahdeksan kanavan äänivirran. Tämä ei ehkä kiinnosta erityisesti kotikäyttäjiä, mutta se on hyvä esimerkki siitä, kuinka monella alueella uutta tykkiä voidaan käyttää. Katalysaattori on myös kehittymässä, mikä helpottaa esimerkiksi lokeron sijoittamista ja mahdollistaa mukautettujen tarkkuuksien kokoamisen. On syytä mainita, että Full HD-stereo-3D-sisältöä voidaan katsella myös Eyefinity-tilassa. 

29 m

UVD ja VCE
UVD 3.0 tarjoaa jo laitteistokiihdytyksen DivX / Xvid-, MPEG-4 Part 2 MVC -sisällölle, ja videokoodimoottori (VCE) on käytännössä Intel Quick Sync Video -sovelluksen AMD-vastine. VCE on erillinen laitteisto, ja se on suunniteltu vain nopeuttamaan H.264-videoiden koodaamista. Moottori on hitaampi kuin grafiikkasuorittimen varjostinprosessorit, mutta paljon energiatehokkaampi. Käyttäjillä on kaksi tilaa. Aluksi toimii vain VCE, joka itsessään on nopeampi kuin useimmat suorittimet. Tässä tapauksessa emme kokene hidastumista, voimme ladata näytönohjaimen tai keskusyksikön ilman ongelmia. Toinen vaihtoehto on hybriditila. VCE: n ja GPU: n aritmeettis-logiikkayksiköt siirtyvät tehtävään yhdessä. Tällä "avioliitolla" on tietysti hyvä vaikutus koodauksen nopeuteen, mutta siinä tapauksessa älä ihmettele, jos suosikkipelisi vaihtuu "diaesitys" -tilaan.

32

Nyt kun olemme tietoisia teoriasta ja luvuista, tutustutaan testin kolmeen GCN-malliin!