본문 바로가기

Lecture & Column/vga_lec_col

GK110, 하와이 가상 대결 : by VGA 계산기

글쓴이: 이대근

(이 블로그의 CCL 정책에 위배되는 무단전재/재배포를 금지합니다)




그동안 '그래픽카드 성능 방정식'을 사용해 몇번의 포스팅을 올리곤 했는데, 혹시 이 방정식의 배경이 궁금하셨던 분은 안 계셨는지요. 오늘은 아직 출시되지 않은 '가까운 미래의' 그래픽카드의 성능을 예측함과 함께 그간 한번도 직접적으로 언급한적 없던 이 방정식의 비하인드 스토리를 적어 보려 합니다.


이 방정식의 탄생은 정확히 3년 6개월 전, 2010년 초로 거슬러 올라갑니다. 당시 AMD는 5870/5850과 같은 RV870칩에서 파생된 5830이란 제품을 출시했었고, 1120SP / 56TMU / 800MHz 등의 외견상 '괜찮아 보이는' 스펙에도 불구하고 만족스럽지 못한 성능을 보여 4830때와 같은 가성비를 기대한 유저들을 실망시킨 바 있는데, 문제는 도무지 5830이, 심지어 4890보다도 떨어지는 성능을 보이는 이유를 모르겠단 것이었습니다. 잠깐 짚고 넘어가자면, 5830과 4890의 스펙은 대략 아래 표와 같습니다.



5830의 완승처럼 보이지만, 사실 행간에 함정이 있었습니다: 5830의 ROP 성능이 4890보다 낮은 것 아닐까?

아시다시피 GPU 내부에서의 연산 과정은 크게 SP를 중심으로 한 쉐이더 연산, TMU를 중심으로 한 텍스처 매핑, ROP를 중심으로 한 렌더링으로 나눠집니다. 각각의 성능은 각 유닛 갯수에 작동속도(GPU 클럭)을 곱한 것과 같다고 보면, SP와 TMU 성능은 단연 5830이 앞서지만 ROP 성능만큼은 4890이 5830을 앞서게 되는 것입니다. (둘 다 ROP가 32개로 같고, 4890의 클럭이 조금 더 높기 때문입니다.) 바로 여기서 제 호기심이 발동합니다.


그래픽카드의 연산 과정을 앞서 말한 3단계로 크게 구분하고, 각각의 과정에 영향을 미치는 요소들을 계량화해 하나의 '성능 예측 방정식'을 만들수 있지 않겠느냐는 생각이 들었고 -자세한 과정에 대해서는 기존의 포스팅들을 참조해 주시기 바랍니다- 그 결과물로 나온 것이 3년 반 전에 올린 글의 첨부파일이었습니다. 그리고 시간이 흐르는 동안, 요행히도 처음의 방정식에서 가정했던 많은 상수값들이 그 이후 출시된 그래픽카드의 성능 예측에도 큰 오차 없이 맞아 떨어져 가장 최근에는 GTX TITAN 성능 예측까지 성공적으로 할 수 있었습니다.


다만, 약간씩의 '오차의 경향' 역시 관측되기 시작했는데, 크게 세가지 양상으로 나타났습니다.


1. 지포스의 경우 Kepler 이전/이후, 라데온의 경우 GCN 이전/이후 아키텍처가 크게 바뀌어 1:1 비교가 어렵다.

2. 메모리 대역폭이 성능에 미치는 영향이 지나치게 과소평가된듯 하다.

3. 듀얼 GPU 그래픽카드의 성능이 (단일 GPU 대비) -실제보다- 다소 낮게 나타난다.


이 중 3번의 경우, 과거 크로스파이어/SLI 효율이 나빴던 시절에 의도적으로 보정항을 넣어 듀얼 GPU 성능의 계산값을 떨어뜨리도록 설계했던 것이 원인으로, 이번에 올리는 버전에서는 해당 보정항의 가중치를 줄여 듀얼 GPU 성능 계산시 종전보다 고효율로 계산되도록 개선하였습니다. 또한 2번 역시 메모리 성능에 관계된 항의 가중치를 높이는 방식으로 해결할 수 있었던 부분입니다. 문제는 1번입니다. 사실 한 제조사에서 구조적인 변혁(architectural leap)을 이룩한다는 것은 -저 같은 분석을 시도하는 사람들에게는- 성능을 추론할 근거가 될 '이전 세대'가 존재하지 않게 되므로 가장 마주하기 싫은 경우인데, 심지어 Fermi -> Kepler / VLIW4 -> GCN의 경우 대략적으로 '과거 대비 몇%의 IPC 향상' 같은 수치조차 구할 수 없어 울며 겨자 먹기로 1:1 매치를 시킬 수밖에 없었습니다. (즉 첨부된 파일에서, Fermi의 1SP와 Kepler의 1SP는 각각 같은 가중치를 가집니다. VLIW4와 GCN 사이에서도 마찬가지입니다. 참고로 VLIW5 -> VLIW4로의 전환기에는 IPC가 정확히 4:5의 비율을 가지는 것으로 추정이 가능했었고, 이 부분이 라데온 5000 시리즈와 6000 시리즈의 계산식에 반영되어 있습니다.) 이제부터 이 글을 보시면서 그 부분에 특히 유의해 봐 주셨으면 좋겠습니다. 더불어 이 방정식을 '더 정확히' 만들기 위해 여러분이 가진 아이디어가 있으면 가감없이 제시해 주셨으면 합니다.


아무튼... 문제의 계산식은 바로 여기 있습니다.


calc2.xlsx


그럼 이제부터는 -본론으로 돌아가서- 아직 출시되지 않은, 하지만 곧 출시될(가능성이 높은) 두 종의 그래픽카드의 성능을 예측해보려 합니다. 우선 그 첫 타자는 AMD의 Hawaii 입니다.



Hawaii의 스펙에 관해 많은 루머가 있었으나, 여기서는 2560SP / 160TMU / 48ROP 설(說)을 가정하였습니다. 이렇게 하여 얻은 성능은 AMD의 전세대 단일 GPU 플래그십이었던 7970GE 대비 126%라는 수치입니다. 막연한 숫자만으로 감이 잘 안 오실테니, 같은 식으로 계산한 현존하는 지포스들을 붙여 보겠습니다.



이 스펙이 유효하다면, Hawaii는 타이탄보다도 앞서는 성능을 보일 것으로 예상됩니다. (다만, 7990이나 690을 넘지는 못할 것으로 보입니다.) 물론 시제품의 스펙이 이것과는 완전히 다를 가능성을 배제할 수 없고, 또한 Southern Islands와 Volcanic Islands가 전혀 다른 아키텍처를 사용할 가능성 역시 존재합니다. 이쯤에서 Hawaii의 성능 예측을 접어 두고 다음으로 넘어가자면, 이번에 알아보고자 하는 것은 상대적으로 쉬운 녀석입니다. 바로 GK110의 완전체입니다.


아시다시피 GK110은 GTX TITAN과 GTX780에 쓰인 칩으로, 현재까지 NVIDIA가 개발해 내놓은 칩 중 가장 고성능일 뿐만 아니라 -현재로써는- AMD의 어떤 칩보다도 강력한 성능을 가졌습니다. 원래 이 칩의 '풀 버전'은 2880SP / 240TMU / 48ROP로 설계되었지만, 수율상의 문제로 GTX TITAN에는 2688SP / 224TMU / 48ROP만을, GTX780에는 그보다 적은 2304SP / 192TMU / 48ROP만을 활성화해 탑재한 바 있습니다. 문제는 과거 NVIDIA의 행적에서 유추할 수 있는데, Fermi 시절 라데온 5870보다 높은 성능을 보였던 GTX480 역시 GF100칩의 완전체가 아니었으나 이를 뛰어넘을 것으로 예상된 라데온 6970의 출시에 즈음해 GF100의 완전체인 GTX580을 전격 출시, AMD에게 물을 먹였던 전례가 있기 때문입니다. 따라서, Hawaii가 GTX TITAN을 넘어설 가능성이 있다면, 이번에도 GK110칩의 완전체를 'TITAN ULTRA' 등의 이름으로 출시할 가능성이 높아 보이는데, 이 녀석의 예상 성능은 아래와 같습니다.



보시다시피 GK110의 완전체는 7970GE 대비 134% 정도의 성능을 보일 것으로 계산됩니다.

앞서 보았던 Hawaii의 성능은, 이 경우 정확히 GTX TITAN과 GK110 완전체 사이에 위치하게 됩니다.

엔비디아의 남은 한 수가 뭔가 절묘하지 않나요.


이상으로 긴 글을 마치겠습니다. 읽어 주셔서 감사합니다^^


//

 

(아래 위젯은 티스토리의 크라우드펀딩 시스템인 '밀어주기' 위젯입니다. 100원부터 3000원까지의 범위 내에서 글쓴이에게 소액 기부가 가능합니다. 사견으로는 이러한 형태의 펀딩이야말로, 성공적으로 정착될 경우 이해관계자로부터 독립된 벤치마크가 지속가능해지는 원동력이 될 것이라 생각합니다. 제가 작성한 글이 후원할만한 가치가 있다고 여기신다면 밀어주기를 통한 후원을 부탁드립니다. 물론 글을 '가치있게' 쓰는 것은 오롯이 저의 몫이며, 설령 제 글이 '후원할 만큼 가치있게' 여겨지지는 못해 결과적으로 후원을 받지 못하더라도 그것이 독자 여러분의 잘못이 아니란 건 너무 당연해 굳이 언급할 필요도 없겠습니다. 저는 후원 여부와 관계없이 제 글을 읽어주시는 모든 독자분께 감사합니다.)