본문 바로가기

Lecture & Column/vga_lec_col

엔비디아와 AMD의 다음 수

 

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

1. 앞서 링크의 글 (http://iyd.kr/688) 에서 엔비디아와 AMD의 차세대 GPU의 성능을 예상해본 바 있다. 해당 글이 작성된 이후로 상당한 시간이 경과했고, 그 사이 양사의 차세대 제품에 관해 유통되는 정보에도 적잖은 변화가 있었으며 무엇보다 예상의 근거가 된 VGA 계산기가 새롭게 바뀌었기에 다시 한번 전망해보기로 한다. 더불어 실제 엔비디아의 과거 라인업 정책 -정확히는 데스크탑 라인업과 전문가용 라인업 사이의 상관관계- 에 비추어, 실제 출시가능성이 있을 세부 모델이라는 측면까지 귀납적으로 알아볼 것이다. 아래의 표는 지포스 400 시리즈부터 현재까지에 이르는 데스크탑 최상위/차상위 제품과, 그에 상응하는 동 세대의 전문가용 그래픽카드를 VGA 계산기에 대입해 본 것이다.

 

 

OpenGL 용도의 쿼드로, GPGPU 용도의 테슬라로 구성되는 엔비디아의 전문가용 그래픽카드사(史)를 짧게 요약하자면, 이들은 늘 출시 당시 최신의 GPU를 적극적으로 채용해 왔으나 코어 구성에 제한을 두거나 클럭을 낮추는 등 변경을 가해 결국 당대의 데스크탑용 최상위가 아닌 차상위급 제품과 동급의 성능을 발휘하도록 출시되는 경우가 많았다. GF100 GPU를 사용한 GTX 470/480과 쿼드로 6000/테슬라 M2070을 비교했을 때 쿼드로/테슬라 모두 GTX 470과 거의 같은 성능으로 계산되었으며, 마이너 업데이트를 거친 GF110 GPU를 사용한 모델들간의 비교에서도 마찬가지로 쿼드로 7000과 테슬라 M2090은 GTX 580이 아닌 570과 거의 같은 성능을 보여주고 있다.

 

 

 

이러한 점은 GPU 아키텍처가 변경된 이후에도 지속적으로 관찰되는 현상으로서 케플러 도입 이후 최초의 데스크탑 / 전문가 라인업인 지포스 GTX 670/680, 쿼드로 K5000/5200을 비교해 보더라도 쿼드로 K5200의 성능 계산치가 46.71%로 GTX 670의 그것에 거의 근접하고 있으며 GTX 680은 또다시 홀로 앞서나가는 것이다. 결국 데스크탑 라인업의 상대성능(정확히는, 게이밍 상대성능)을 항상 당대의 모든 라인업을 통틀어 '반보 앞서게끔' 유도하고 있는 것인데 이는 지포스 계열이 쿼드로/테슬라에 비해 항상 일부 기능이 제한된 채 공급되는 반대급부라고도 생각할 수 있을 것이다.

 

 

 

비록 가격적으로 쿼드로나 테슬라가 지포스에 비해 월등히 높은 가치가 매겨져 있기는 하나 제조사가 의도하는 서열 자체는 쿼드로/테슬라 -> 지포스로 이어지는 수직계열화와는 거리가 있다는 뜻으로, 외려 이들 라인업 상호간의 위계를 통합하기보다는 용도에 따른 타겟시장 분할을 염두에 둔 것으로 보인다. 다시 말해 지포스가 겨냥하는 데스크탑 시장 (= 게이밍 용도) 와 쿼드로/테슬라가 공략할 전문 워크스테이션 시장을 명확히 차별화하는 차원에서, 다분히 의도적으로 매 세대 최상위 쿼드로/테슬라 라인업의 게이밍 성능을 데스크탑 최상위 라인업에 미치지 못하도록 억제하고 있다는 것이 이 가설의 요지이다.

 

그렇다면 다시 시뮬레이션으로 돌아와 보자.

 

 

 

초기의 낮은 수율 때문이었는지 '완전하지 못한' GK110 GPU를 사용한 최초의 테슬라 라인업인 테슬라 K20과 K40은 출시 당시 최신이던 데스크탑 라인업의 GTX 780, GTX TITAN과 쌍을 이룰 것처럼 보인다. 하지만 공통적으로 데스크탑 카운터파트에 비해 상당히 낮아진 클럭이 적용되었으며 그 결과 실제 성능은 외려 GTX 770, GTX 780과 각각 비슷해져 있다. GK110의 완전체를 탑재한 후에도 이러한 경향은 지속되는데, 데스크탑 시장에서 완전체 GK110의 최고위급 제품이라 할 수 있을 GTX TITAN Black, 그 바로 아래인 GTX 780 Ti와 전문가용의 쿼드로 K6000을 비교하면 아무래도 쿼드로가 GTX TITAN Black에는 못 미치는 성능을 보여주는 것이다. 이것 역시 마찬가지로 전문가용 제품군이 '한 단계 낮은' 데스크탑 제품군과 일대일 대응을 이루는 사례라 할 수 있겠다.

 

그렇다면 이같은 가설을 맥스웰에까지 확장할 수 있지 않을까? 여기서부터는 상당 부분 불완전한, 어쩌면 전적으로 틀릴 가능성이 있는 추측에 의존해야 한다는 점을 인정하고 논의를 진행해 보자.

 

현재까지 출시된 맥스웰 아키텍처 기반 GPU 중 최고 사양인 GM204 -GTX 970/980에 사용된- 이 맥스웰의 최상위 칩셋이 아니라는 가정 하에, 최상위 칩셋일 것으로 여겨지는 GM200 (일부 출처에 따르면 GM210, 그러나 이 글에서는 편의상 GM200으로 통칭하기로 한다) 에 대해 여러 가지 정보가 공개(혹은 날조)되어 유통되어 왔으며 시간이 지남에 따라 여러 정보가 상정하는 GM200의 모습이 점차 하나로 수렴해가는 양상을 보이고 있다. 이 중 가장 최신의 정보들을 모아 GM200의 사양을 모사해 보면 아래와 같다.

 

GM200 (estimated) : 3072 ALU / 192 TMU / 96 ROP / 384bit GDDR5 Memory Interface

 

다만 이 정보만으로 성능을 계산하기엔 정보가 다소간 부족한데, 첫째로 작동 속도에 대한 정보가 없으며, 그보다 근본적인 문제로 개별 SM이 어떻게 구성되는지를 알 수 없다는 것이다. 우선 후자에 관해 몇 가지 가설을 제기해 보기로 한다.

 

케플러 아키텍처와 대비되는 맥스웰의 가장 큰 -그리고 물리적인- 차이점은 SM 구성이 변경되었다는 점이다. 구체적으로 다른 모든 부분을 그대로 둔 채 SM당 ALU 갯수를 192개에서 128개로 축소했다는 점을 들 수 있는데, 이로 인해 개별 SM 차원에서의 성능은 케플러 대비 90% 수준으로 소폭 줄었으나 그만큼 1 SM 구현에 소요되는 면적 역시 절약할 수 있어 SM 자체를 추가로 탑재할 여력을 갖추게 된 것이 핵심이다. 같은 면적이라면 더 많은 SM을 탑재하게 됨으로써 전체적인 밸런스는 'ALU 소폭 희생, 다른 모든 부분 대폭 향상' 으로 요약되며 이로 인한 향상은 특히 프론트엔드 부분인 스케줄러/디스패치 유닛에 집중되었다.

 

그런데 이러한 변경점이 GM107/GM204를 넘어 GM200에까지 이어지리라는 확신이 없다. 물론 한 아키텍처 내에서 다른 SM 구성을 취하는 것이 오히려 쉽지 않은 방식으로 여겨지기는 하나 페르미 시절 GF100/110과 GF104/114가 그리 했던 전례가 있기에 그 가능성을 완전히 배제할 수도 없다. 따라서 이 글에서는 GM200의 1 SM이 192개의 ALU를 탑재하는 경우와 128개의 ALU를 탑재하는 경우로 나눠 성능을 계산해 보기로 한다.

 

우선, 각 시나리오별 세부 유닛 구성은 아래와 같아진다.

 

시나리오 1 : SM당 192 ALU 탑재 = 총 16 SM, 64 스케줄러, 128 디스패치 유닛
시나리오 2 : SM당 128 ALU 탑재 = 총 24 SM, 96 스케줄러, 192 디스패치 유닛

 

이제 아직까지 불명확하게 남아 있는 부분은 작동속도뿐이다. 마침 GM200을 사용한 것으로 추정되는 쿼드로 M6000이라는 제품에 대한 사양 (GPU 988MHz / 메모리 6.6Gbps) 이 유통되고 있는 바, 일단 이를 반영해 위의 두 시나리오의 성능을 계산해 보면 아래와 같다.

 

쿼드로 M6000 시나리오 1 : 108.78%p
쿼드로 M6000 시나리오 2 : 126.24%p

 

편의상 위의 두 시나리오를 각각 1번 시나리오 / 2번 시나리오라 한다면, 1번 시나리오의 경우 쿼드로 M6000의 성능은 현존하는 GTX 980의 그것과 매우 가까워진다. 반면 2번 시나리오 하에서 쿼드로 M6000의 성능은 GTX 980보다도 상당한 마진으로 높아져 있는 것을 알 수 있다.

 

전문가용 그래픽카드의 작동 속도가 대체로 데스크탑용보다 현저히 낮았음을 감안하면 GM200이 궁극적으로 데스크탑 라인업까지 진출할 것을 염두에 두고 임의로 쿼드로 M6000보다 높은 작동 속도를 상정해 보는 것도 의미있을 것이다. GTX 980과 970의 평균 수준인 GPU 1200MHz / 메모리 7.0Gbps를 적용해 위의 두 시나리오를 계산해 보면 아래와 같다.

 

쿼드로 M6000 @ 1200/7000 시나리오 1 : 128.53%p
쿼드로 M6000 @ 1200/7000 시나리오 2 : 148.51%p

 

이 대목에서 '전문가용 그래픽카드 최상위 제품은 항상 당대의 데스크탑 차상위 제품과 동등한 성능을 갖게끔 유도된다' 는 지금까지의 가설을 적용해 보자. 만일 1번 시나리오가 실제 GM200의 내부 구성을 반영하는 것이라면, 현재로써는 최상위 쿼드로 라인업을 담당할 것이 확실시되는 쿼드로 M6000의 성능이 GTX 980과 엇비슷한 수준인 만큼, GTX 980을 차상위로 밀어낼 단 하나의 모델만이 데스크탑 포트폴리오에 추가되는 것으로 엔비디아의 라인업 개편이 마무리될 가능성이 크다. 이 경우 GTX TITAN X로 예상되어지고 있는 GM200 기반 데스크탑 그래픽카드의 성능은 위에서 살펴본 바와 같이 GTX 980 대비 128% 수준이 될 가능성이 있다. 즉 아래와 같은 진용을 갖추게 되는 것이다.

 

GTX 980 : 100.00%p
GTX TITAN X : 128.53%p
Quadro M6000 : 108.78%p

 

그런데 2번 시나리오가 사실이라면 이야기가 다소 복잡해진다. 이 시나리오 하에서 예측된 쿼드로 M6000의 성능이 이미 GTX 980을 한참 넘어서고 있기 때문인데, 그보다 상위의 성능을 갖는 GTX TITAN X가 추가된다 하더라도 GTX 980과 GTX TITAN X 사이의 넓은 '성능상의 공백지대'를 메워야 할 필요성이 대두된다. 비단 엔비디아 자사 내의 데스크탑/전문가 라인업 관계설정 차원이 아니더라도, 현존하는 라인업으로 채울 수 없는 구멍은 경쟁사의 아주 좋은 Sweet Spot이 되기 때문이다. 이 경우는 GTX TITAN X와 별개로 그 사이를 메꿀 제3의 모델, 가령 GTX 980 Ti 등이 추가될 가능성을 배제할 수 없다.

 

GTX 980 : 100.00%p
▶ GTX 980 Ti : ~120%p (?) ◀
GTX TITAN X : 148.51%p
Quadro M6000 : 126.24%p

 

내친 김에 좀 더 추측을 풀어 보도록 하자. 바로 위 시나리오에서 출시될 가능성이 점쳐지는 GTX 980 Ti의 사양에 관한 것이다. 우선 아래의 표를 보도록 하자.

 

 

위에 열거된 그래픽카드들은 모두 당대의 최상위 GPU를 탑재한 것으로, 그중 최상위 제품으로부터 어떻게 차상위 제품이 파생되었는가를 짚어 보기 위해 비교해 본 것이다. 굳이 설명을 부연할 필요조차 없다고 생각하나 몇 가지 언급하자면, 공통적으로 ALU 갯수를 줄이고 있으며 (정확히는 SM 갯수를 줄임으로써 ALU 감소가 수반되는 것이다.) 이중 몇몇은 ROP/메모리 인터페이스까지 줄인 사례도 있단 점이다.

 

지금부터 시도할 작업은 아주 간단하다. GTX TITAN X에 적용된 '온전한 사양'을 바탕으로, 임의로 숫자들을 줄여 가며 VGA 계산기가 'Sweet Spot' 에 해당하는 값을 출력할 때까지 두들겨 보는 것이다. 여기서 Sweet Spot이라 함은 GTX 980과 GTX TITAN X가 커버할 수 없는 그 둘 사이의 한복판, 쿼드로 M6000과 동급이 되는 120% 지점을 의미한다. 그 결과 찾아낼 수 있던 가능성있는 조합은 아래와 같다.

 

GTX 980 Ti (estimated) : 20 SM / 2560 ALU / 160 TMU / 80 ROP / 320bit GDDR5 Memory Interface

 

가까운 전례 -GTX 780 Ti와 780 사이의 관계- 를 좇아 SM 갯수를 20% 감축하고 그럼에도 시뮬레이션된 성능 예상치가 원하는 목표지점까지 내려가기에는 부족하다고 판단해 먼 전례 -GTX 480/580과 470/570의 관계- 까지 참고해 ROP와 메모리 인터페이스를 각각 16.7%씩 줄인 것이다. 그다지 논리적인 접근법이라고는 할 수 없으나 '왠지 이렇게 출시될것만 같다' 는 글쓴이 자신의 직감이 가장 크게 반영된 것은 덤이다.

 

이렇게 구한 추정 사양에 앞서 GTX TITAN X에 적용했던 작동 속도를 대입하면 그 성능은 아래와 같다.

 

GTX 980 Ti (estimated) : 123.76%p

 

그럴싸해 보이지 않는가.

 

 

 

2. 원래는 여기서 글을 끝내려 했으나 이 글이 기획되던 중 엔비디아 / AMD의 계산식이 통합되었다. 통일장이론을 완성한 물리학자의 마음으로 기뻐하고 있던 중 마침 이 글에의 첫 적용을 시도하게 되었고, GM200을 중점으로 다루는 위 글에 더해 AMD의 차세대 GPU에 관해서도 글을 써야겠다는 - 써야만 한다는 욕심 겸 의무감이 들기 시작했다. 다만 현재까지 AMD의 차세대 GPU에 관해서는 유통되는 정보가 극히 제한적인 관계로 이전까지의 글보다도 더 논리적으로 빈약하거나, 폭넓은 추측에 기반할 수밖에 없음을 짚어 두고자 한다.

 

AMD가 자사의 차세대 플래그십 GPU인 Fiji에 On-die stacked HBM을 적용하는 것은 거의 확실시되고 있다. (유통되는 정보도 그렇거니와 처음으로 & 이제야 밝히는 것이지만 작년 연말 AMD의 해외 행사에 참석했을 때 관계자로부터 직접 언질을 듣기도 했었다.) 이 부분을 어떻게 성능으로 환산하느냐 하는 것이 Fiji 성능 예측의 첫번째 장애물인데, 편의상 대역폭 자체의 확장 이상의 의미는 없는 것으로 보았다. 다시 말해 기존 Hawaii의 메모리 대역폭인 320GB/s에서 Fiji의 대역폭이 640GB/s가 되었다면, 계산식상에는 단순히 메모리 비트레이트를 두 배 올려 입력하는 것으로 대체했다는 뜻이다. 그 밖의 다른 사양 관련 데이터는 현재 유통되고 있는 정보들을 참조했다.

 

이런 과정을 거쳐 추측된 Fiji 시리즈의 사양은 아래와 같다.

 

Fiji XT : 64 CU / 4096 ALU / 256 TMU / 64 or 96 ROP / 1024bit GDDR5 HBM = 640GB/s
Fiji PRO : 55 CU / 3520 ALU / 220 TMU / 64 or 96 ROP / 768bit GDDR5 HBM = 480GB/s

 

현재 AMD의 최상위 라인업인 라데온 R9 290X의 작동 속도 (GPU 1000MHz / 메모리 5.0Gbps) 를 대입해 성능을 계산해 보면 그 결과는 아래와 같다.

 

Fiji XT : 124.86%p (64 ROP 시나리오) or 136.61%p (96 ROP 시나리오)
Fiji PRO : 109.61%p (64 ROP 시나리오) or 118.57%p (96 ROP 시나리오)
R9 290X : 84.51%p

 

일단 Fiji XT의 경우, 앞서 GM200에 대해 살펴본 글에서 GTX TITAN X의 최저성능으로 제시된 값이 128.53%p 이고 쿼드로 M6000의 최고성능으로 제시된 값이자 이에 따른 GTX 980 Ti (만약 존재한다면) 의 최고성능값이 123~126%p 란 점과 결합해 볼 때 어느 시나리오에서건 어쨌든 Sweet Spot으로 예견되는 지점을 정확히 겨냥하고 있다고 할 수 있다. GM200 1 SM = 192 ALU 시나리오와 AMD의 96 ROP 시나리오가 결합된 세계관에서는 사실상 차세대 대결에서 AMD가 최종적으로 승리를 거두는 것이라고까지 평가할 수 있을 것이다. 최악의 시나리오에서도 Fiji XT가 GTX TITAN X를 꺾는 것은 불가능할지라도, 어쨌든 GTX 980는 넉넉한 차이로 따돌리는 동시에 GTX 980 Ti -만약 존재한다면- 와는 대등한 경쟁을 펼칠 수 있으리라 점쳐진다.

 

그보다 하위 모델인 Fiji PRO의 경우, Fiji XT와는 반대로 ROP 갯수가 몇 개이든 1 SM = 192 ALU 시나리오 하의 GTX TITAN X 또는 1 SM = 128 ALU 시나리오 하의 GTX 980 Ti를 넘어서지는 못한다. (부연하자면 ROP가 128개일 경우 120%p 대에 도달하는 것으로 나타났으나, 실제 이렇게 거대한 렌더 백엔드를 장착할 가능성은 크지 않아 보인다.) 다만 GTX 980보다는 어떻게든 좋은 성능을 보일 것으로 예상되어 전형적인 Sweet Spot 겨냥형 제품이 될 가능성이 있다.

 

 

 

3. 지금까지의 가설들을 정리하면 아래와 같다.

 

1) 어떤 형태로든, 현 GTX 980 대비 120%p ±α 구간에 위치하는 신제품이 출시될 것이다.
(1 SM = 192 ALU 시나리오라면 GTX TITAN X, 1 SM = 128 ALU 시나리오라면 GTX 980 Ti라는 이름을 달고 나올 가능성이 높다. 또한 후자의 경우 그와 별개의, 더 고성능의 GTX TITAN X 역시 나올 것이다.)

 

2) 바로 그 구간 즈음에 AMD의 차세대 최상위 GPU 또한 자리잡을 것이다.

 

3) AMD의 차세대 차상위 제품은 GTX 980과 "120%p 구간" 사이의 빈 자리를 노릴 것이다.

 

//

 

(아래 위젯은 티스토리의 크라우드펀딩 시스템인 '밀어주기' 위젯입니다. 100원부터 3000원까지의 범위 내에서 글쓴이에게 소액 기부가 가능합니다. 사견으로는 이러한 형태의 펀딩이야말로, 성공적으로 정착될 경우 이해관계자로부터 독립된 벤치마크가 지속가능해지는 원동력이 될 것이라 생각합니다. 제가 작성한 글이 후원할만한 가치가 있다고 여기신다면 밀어주기를 통한 후원을 부탁드립니다. 물론 글을 '가치있게' 쓰는 것은 오롯이 저의 몫이며, 설령 제 글이 '후원할 만큼 가치있게' 여겨지지는 못해 결과적으로 후원을 받지 못하더라도 그것이 독자 여러분의 잘못이 아니란 건 너무 당연해 굳이 언급할 필요도 없겠습니다. 저는 후원 여부와 관계없이 제 글을 읽어주시는 모든 독자분께 감사합니다.)