Author : Daeguen Lee
(Any action violating either CCL policy or copyright laws is strictly prohibited)
지난 3월 26일, 엔비디아는 GTC 2014 행사에서 전격적으로 지포스 GTX TITAN-Z를 발표했다. 한편, 많은 이들은 엔비디아가 그 자리에서 그들의 차세대 아키텍처인 20nm 기반 맥스웰에 관해 언급할 것이라 예상했지만 재차 예상을 깨고 맥스웰에 관하여는 한마디 언급도 하지 않았다. 그리고 며칠 뒤엔 경쟁사인 AMD가 이로부터 정확히 2주 뒤인 4월 8일 라데온 R9 295X2를 출시할 것이라는 소식이 전해졌다. 이처럼 TITAN-Z의 등장이 예고(만)되고 경쟁사의 ‘신상’ 295X2는 아직 그 사양조차 드러나지 않은 시점에서, 상당 부분 추론에 의거해 엔비디아의 다음 수를 예상해 보고자 한다.
TITAN-Z는 엔비디아의 마지막 패가 아닐 것이다.
TITAN-Z 는 엔비디아가 그들의 현 세대 최고성능 그래픽 프로세서 (GPU) 인 GK110을 두 개 탑재한 것으로, 정확한 사양이 알려지지는 않았으나 엔비디아는 발표자료를 통해 이 제품의 단정밀도 부동소수점 연산성능이 8 테라플롭스임을 밝혔다. 이를 GK110 GPU의 사양에 대입해 역산하면 TITAN-Z에 탑재되는 GK110 두 개는 각각 700MHz를 약간 상회하는 작동 속도를 갖게 될 것으로 추측된다. 이는 현재까지 엔비디아가 발표한 최고 성능 데스크탑용 그래픽카드인 지포스 GTX 780 Ti보다 18% 낮으며, 비교 대상을 비(非) 데스크탑용으로까지 확대할 경우 동일한 GK110 GPU 기반의 지포스 GTX TITAN BLACK보다는 21% 더 느린 것이다.
사실 엔비디아가 GPU를 두 개 탑재한 제품을 당대 최고 성능의 단일 GPU 제품보다 낮은 사양으로 결정한 것이 이번이 처음은 아니다. GTX 295는 GTX 280의 GPU에서 ROP, 메모리 인터페이스 및 작동 속도를 하위 제품인 GTX 260 수준으로 제한하여 두 개를 탑재한 것이었고 GTX 590은 GTX 580과 동일한 GPU를 사용했으나 작동 속도가 GTX 570에도 미치지 못할 만큼 낮춰졌던 바 있다. 마찬가지로 GTX 690 역시 작동 속도를 낮춘 GTX 680의 GPU를 두 개 탑재한 것이다. 이렇다 보니 TITAN BLACK 내지는 GTX 780 Ti보다 낮은 속도로 작동하는 GK110 GPU 두 개로 TITAN-Z를 구성하는 것이 지극히 자연스러운 귀결처럼 보인다. 하지만 이 논리에서 우리가 간과하고 있는 것이 있는데, 그것은 엔비디아가 이들 제품을 발표할 당시 경쟁사인 AMD 제품의 상대적인 성능이다.
지포스 GTX 280과 라데온 HD 4870이 양사의 최상위 제품이던 때, AMD의 4870은 많은 매체로부터 호평을 받고 실제 시장에서도 좋은 반응을 이끌어내는 데 성공했지만 이는 절대성능에서의 우위에서 비롯된 것은 아니었다. 단지 4870이 GTX 280보다 (기실 그 하위 제품이던 GTX 260보다도) 저렴한 가격에 팔리고 있었기에 ‘가격 대비 성능’의 측면에서 어필할 수 있을 따름이었다. 마찬가지로 GTX 590이 출시되던 당시 AMD의 6970은 엔비디아의 GTX 580이 아니라 GTX 570과 경쟁하는 수준이었고, GTX 690의 출시 직전까지 GTX 680은 AMD의 7970 대비 비교우위를 확실히 점하고 있었다. 하지만 양사의 차기 듀얼 GPU 제품들이 예고된 지금의 상황은 지금까지 살펴본 것과는 사뭇 다르다. 현 시점에서 AMD의 최고성능 GPU인 ‘하와이’ 기반 그래픽카드인 라데온 R9 290 / 290X는 엔비디아의 GK110 기반 제품들과 그 어느 때보다도 동등한 절대성능을 무기로 대등한 싸움을 펼치고 있기 때문이다.
더군다나 앞서 기술한 각 상황에서 AMD는 2-GPU 제품에 승부수를 띄우기 위해 외려 최상위 단일 GPU 제품보다도 더 높은 작동속도를 적용하곤 했는데, 이러한 ‘공작’은 심지어 공식 TDP를 실제 소비전력보다 축소해 표기한다는 비난을 감수하면서까지 포기하지 않아 왔던 것이다. 실상 하와이 GPU의 소비전력이 매우 높기는 하나 이를 근거삼아 AMD가 하와이 GPU 두 개를 탑재한 그들의 새 제품을 설계함에 있어 작동속도를 낮출 것으로 예상했다면, 그리고 이 같은 인식이 엔비디아가 TITAN-Z를 설계한 저변에 있었다면 이는 크게 잘못된 것이다. 필자는 아직 295X2의 사양이 공개되지 않았지만 단일 하와이 GPU 그래픽카드인 290 / 290X와 최소한 같은 작동속도를 갖게 될 것으로 추측한다. 간단히 말해, 295X2는 TITAN-Z보다 압도적으로 빠를 것이다. 그렇다면, 엔비디아가 적어도 이 글과 같은 전략적 판단을 거쳐 TITAN-Z의 사양을 결정했다면 TITAN-Z가 겨냥한 것은 295X2가 아닌 다른 무엇이라는 결론에 도달한다. 그것이 무엇인지 알기 위해서는 GTC 2014 이전으로 시계를 되돌려 볼 필요가 있다. 마침 양사의 타임라인을 통틀어 이 시점 이전에 도래한 가장 가까운 사건은 3월 18일의 하와이 GPU 기반 FirePro (이후 FirePro W9100라는 이름으로 공식 발표된다.) 의 유출이었다.
FirePro W9100은 하와이 GPU에 기반한 AMD의 워크스테이션용 제품으로, AMD의 발표자료에 따르면 5 테라플롭스의 단정밀도 연산성능과 2 테라플롭스 “이상”의 배정밀도 연산성능을 갖는다고 기술되어 있다. 여기서 배정밀도 연산성능은 5 테라플롭스의 절반인 2.5 테라플롭스로 추측되는데, 이는 데스크탑용 제품에 적용되는 하와이 GPU의 그것보다 네 배 향상된 것이다. (소수점 이하를 생략한 것은 마케팅상 메세지의 단순화를 위해서일 것이다.) 이 제품이 데스크탑 영역의 형제뻘인 290X와 동일한 작동 속도를 갖는 경우 이론적인 배정밀도 연산성능은 2.8 테라플롭스에 달하나, 여분의 배정밀도 연산장치가 활성화되며 늘어난 소비전력 등을 고려해 작동 속도를 다소 낮춰 최종적으로 2.5 테라플롭스를 얻어 낸 것으로 이해된다. 이는 앞서 세운 가설과 맞물려 많은 점을 시사하는데, 가설과의 가장 직관적인 연결고리는 바로 GK110 GPU의 단정밀도 및 배정밀도 연산장치의 구성비에 있다. 널리 알려졌다시피 이 비율은 3:1로, 다시 말해 8 테라플롭스의 단정밀도 연산성능을 갖는 TITAN-Z는 그 3분의 1에 해당하는 2.6 테라플롭스의 배정밀도 연산성능을 가지며, 공교롭게도 이 2.6이라는 숫자는 마치 끼워 맞춘 듯 FirePro W9100의 그것을 간신히 넘어서는 것이다. 즉, 여기서부터 TITAN-Z가 겨냥한 것은 애초 295X2가 아니라 FirePro W9100이라는 가설이 세워진다.
한편, 시계를 좀 더 뒤로 돌려 보면 엔비디아가 AMD ‘베수비오’ (295X2라는 이름이 확정되기 전까지 이 제품을 가리키던 코드명이다.) 의 대항마로 GK110 GPU를 두 개 탑재한 GTX 790을 준비하고 있다는 소식이 발견되는데, 이는 우리의 가설을 보다 설득력 있게 뒷받침해 주는 정황증거이다. 애초 TITAN-Z와 GTX 790이 서로 다른 과녁을 겨냥하여 별도로 추진돼 왔다는 것은 지포스 GTX TITAN - GTX 780 - GTX 780 Ti - GTX TITAN BLACK으로 이어지는 일련의 흐름으로 “TITAN”과 (통상적인) “지포스” 브랜드의 별개성을 증명한 역사와 일맥상통하기 때문이다. 다시 말해, 처음부터 TITAN-Z의 경쟁 상대는 FirePro W9100였고, 그렇기에 295X2가 TITAN-Z보다 압도적으로 우수한 게임 성능을 보이리라는 어떤 전망도 사실 TITAN-Z에게는 (나아가 엔비디아에게는) 별다른 동요를 일으키지 못하는 것이다. 이 가설이 맞다면, 295X2가 상대해야 할 진정한 경쟁자는 이미 알려진 TITAN-Z가 아니라 아직까지 베일에 싸인 GTX 790이 될 것이다.
혹시라도 지금까지의 전개에 회의를 가질 독자들을 위해 쐐기를 박자면, TITAN-Z는 8 테라플롭스에 해당하는 작동 속도를 가지고는 죽었다 깨어나도 295X2를 상대할 수 없다. 그래픽카드의 성능을 결정짓는 요소를 크게 대별하면 '연산', '질감 처리' 및 '그리기' 의 세 영역으로 나뉘는데, 이 중 '그리기'를 담당하는 렌더링 파이프라인 (ROP) 의 갯수가 하와이는 64개, GK110은 48개로 하와이 GPU에 더 많은 반면 '질감 처리'를 담당하는 텍스처 매핑 유닛 (TMU) 은 하와이에 176개, GK110에 240개로 GK110쪽이 압도적으로 더 많다. 결국 승부는 연산성능에 달렸는데 이것을 결정하는 연산장치의 갯수는 하와이가 2816개, GK110이 2880개로 갯수만으로 우열을 가리기는 어려워 결국 작동 속도의 대결로 귀결되는 상황이다. 연산성능만을 따지더라도 11 테라플롭스가 넘을 295X2를 대적하기 위해 8 테라플롭스로 '낮춘' TITAN-Z를 내보내는 것은 자살과도 같다.
나아가 아직까지 공식화되지 않은 GTX 790의 존재를 상정하고 볼 때 우리는 엔비디아의 최근 일련의 행보를 더 설득력 있게 받아들일 수 있다. 인과의 선후가 어떻게 된 것이든, 20nm 맥스웰에 대해 GTC 2014에서 일언반구가 없었던 점 (이후 엔비디아는 동 GPU의 등장이 2015년으로 연기될 것이라 공식화한 바 있다.) 과, 만약 출시된다면 새로운 최고 성능 제품이 될 것이 자명한 GTX 790의 등장은 밀접하게 이어져 있을 수밖에 없기 때문이다. 20nm 공정으로의 이행이 늦어져 그 사이를 메꿀 새 리더십이 필요해진 것이거나, 반대로 새 왕좌를 차지할 제품에 최소한의 치세를 보장하기 위한 것, 어느 쪽이든 가설들이 가리키는 손가락 끝은 TITAN-Z 이후의 그 무언가를 가리키고 있다.
단언하건대, TITAN-Z는 엔비디아의 마지막 패가 아니다.
'Lecture & Column > vga_lec_col' 카테고리의 다른 글
GTX TITAN Z 가격의 숨겨진 진실 (15) | 2014.05.28 |
---|---|
라데온 Rx 300 시리즈 성능 예측 (11) | 2014.04.14 |
TITAN-Z는 엔비디아의 마지막 패가 아니다 (17) | 2014.04.03 |
VESUVIUS vs TITAN Z : A speculative comparison (4) | 2014.03.26 |
NVIDIA GeForce GTX 780 Ti 성능 예측 (6) | 2013.10.22 |
An essay on NVIDIA GeForce GTX 780 Ti (5) | 2013.10.19 |

Furomand 주소 수정/삭제 댓글
근데 뭐 소비자들은 flops로 보긴하지만 별로 flops로 두회사의 카드를 비교하는건 좋지 않은듯 싶기도 하네요... 애초에 nvidia special function쪽이 생각보다 파워풀한데 결국 어플리케이션 마다 다른거고
발열때문에 과연 공정상향없이 더 높은 걸 낼지도 수율적인 측면에서 가능할까 생각도 들고 게임쪽은 생각보다 flops보다 rop쪽이 영향을 많이 주는거 같은데 뭔가 당연하게 나올지는 알수가 없는거 같네요
하지만 확실히 flops낮은건 근데 api써서 개발하는 입장이 아닌 저로서는 연구할때 조금 그렇긴하네요. 어차피 function일일이 짜는데 빨라야 좋지 ㅎㅎ
Reply: Mola Mola 주소 수정/삭제 댓글
플롭스는 TITAN Z의 클럭을 구하기 위해 상징적으로 끌어다 쓴 것 외엔 이 글에서 큰 비중이 없습니다. 후반 11테라플롭스 vs 8테라플롭스... 대목 역시 이런 수치들로부터 역산되는 클럭을 비교하고자 하는 목적이 더 컸죠. 물론 동종의 GPU(GK110) 사이에서 플롭스를 비교했을 땐 그 자체가 상대성능의 지표도 되기에 그대로 활용한 것이고...ㅋㅋ
임주혁 주소 수정/삭제 댓글
FLOPS자체가 하나의 객관적인 성능의 지표로 알고 있었는데 비교하기 힘든 항목이었나요? 그리고 ROP의 영향이 더 크다면 하와이의 성능이 더욱 좋으니(GK110와 비교했을때) 대근님의 생각이 더 확실해 지는 것 아닌지요?
앞뒤가 딱 맞아떨어지는군 하면서 읽어내려왔는데 혼란스럽네요 ㅎㅎ;;
Reply: Mola Mola 주소 수정/삭제 댓글
글의 일관된 내용은 TITAN Z으론 295X2를 못 잡는다, 그런고로 애초 게임용으로 나온 게 아닐 것이고 따로 나오게 될 게임성능 킹(이 글에서는 GTX 790으로 가정한)이 엔비디아의 마지막 한 수가 될 것이다... 입니다. 어느 부분에서 헷갈려지신 건가요 ㅋㅋㅋ
Reply: Furomand 주소 수정/삭제 댓글
뭐 저도 개인적인 사견이라 ㅎㅎ 벤치 부분을 보니 주로 ROP가 게이밍에서는 영향을 많이 주더라고요 근데 rop구조가 동일하다 했으면 아마 성능상으로는 암드가 더 좋겠죠?
사실 flops의 경우 제가 제일 체감을 많이 한게 비트 코인 계산하는 부분이었는데 그게 단순히 flops때문에 암드가 좋은게 아니라 내부 연산 alu구조 빨이 훨씬커서 차이가 나는거라 만약 alu 어레이 형태의 amd보다 fft같은 걸 많이 쓰는 어플리케이션 경우는 nvidia가 훨씬 좋을 가능성이 있다고 봅니다. 근데 영상 처리나 시뮬에서는 그런 부분도 많이 써서... 결국 옵티마이징잘되면 nvidia가 flops는 낮아도 훨씬 빠를 가능성이 있습니다.
Reply: Furomand 주소 수정/삭제 댓글
추가적으로 이건 c에서 계산한건데 float형 32비트 부동소숫점의 경우는 생각보다 쓰기에 정확도가 좋지가 않은거 같애요... 예전에 매트릭스 연산 수업들으면서 32비트의 정밀도를 측정해봤는데 64비트 double형과 비교하면 천차만별이라... 결국 시뮬같은 경우나 다른 프로그래밍의 경우는 속도 때문에 쓰지 않는한 배정밀 연산도로 보는게 좋긴한데 일단 그래도 nvidia가 지는게 함정 ㅜㅜ
Reply: Mola Mola 주소 수정/삭제 댓글
워어 이렇게 학술적인 댓글들이 ㅋㅋㅋ 일단 장문의 댓글에 감사드리고, 다만 제가 밤을 샌 관계로 다 읽고 답글을 달기가 굉장히 힘이 드네요 ㅜㅜ 오후에 다시 읽고 피드백하도록 하겠습니다! 주혁님 성필님 모두 감사~^^
Reply: 임주혁 주소 수정/삭제 댓글
그럴수도 있군요. 하지만 분위기나 엔비디아의 라인업으로 봐선 GTX790(?)이 나올 확률이 높은건 사실인듯 합니다. 의견 감사합니다. (티스토리는 대댓글이 안되나보군요;; )
ㅇㅇ 주소 수정/삭제 댓글
'790이나 800대가 다음제품으로 나오겠지??' 하고있는데 타이탄Z가 쿵!하고 나타나서 '왜나왔지??' 하고있던 저에게 딱맞는 글이네요
연산이니 렌더링이니 하는건 몰라도 숫자로 비교해주시니 무슨이야기인지 알수있고ㅋㅋ
어떻게 여기선 제가 궁금해하던거나 필요한것들이 쑉~ 하고 올라오나 모르겠어요..ㅋㅋㅋ
항상 좋은글 감사합니다. 이제 완전히 봄인데 입맛없으시거나 하신지는 모르겠네요. 맛난거 많이 드시고 힘내셔서 글 많이많이써주세요~ㅋㅋㅋㅋㅋㅋ
Reply: Mola Mola 주소 수정/삭제 댓글
칭찬 감사합니다 ㅜㅜ 입맛은....... 좀 없어 봤으면 좋겠습니다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
김효민 주소 수정/삭제 댓글
790ti?
Reply: Mola Mola 주소 수정/삭제 댓글
으 설마요ㅋㅋㅋㅋ 그렇게까지 될까 ㅋㅋㅋㅋ
rushTENm 주소 수정/삭제 댓글
쭉 읽고나니 소름 돋네요 아무리 발버둥쳐도 부처님 손바닥 안 같은 느낌이에요 엔당이 처음 타이탄을 발표할 때 게임보다는 워크스테이션 용도에 초점을 맞췄던 만큼 ㄷㄱ님 의견이 사실이 될 거 같아요
Reply: Mola Mola 주소 수정/삭제 댓글
아이고 이런 댓글을 보니 손발이 없어지는 느낌 ㅜㅜ 읽어 주셔서 감사합니다. 저도 평소보다 좀 더 확신에 찬 어조로 글을 썼는데 실은 써놓자마자 후회하기 시작했다는 후문 (...) 기왕 예언을 지른 김에 꼭 이대로 실현되길 바랍니다.ㅋㅋㅋ 이래 놓고 GTX 790 안 나오면 뒷감당을 어찌 해야되나...
아쉽게도 주소 수정/삭제 댓글
7월까지 현재까지는
이 예언이 많이 빗나가셨네요...
괜히 이 글에 설레여서 295x2를 안 질렀던게 후회되네요...
Reply: Mola Mola 주소 수정/삭제 댓글
흑흑... 죄송합니다......
Mola Mola 주소 수정/삭제 댓글
...는 GTX 790이 아니라 테슬라 K80으로 환생-_-