본문 바로가기

Lecture & Column/vga_lec_col

피지 다시보기 : (1) Fury에 분노한 이들을 위하여

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

 

AMD가 지난주 공식적으로 출시한 라데온 R9 Fury X에 대한 국내 여론이 썩 좋지 않다. 비교적 이른 시기에 해당 제품을 만져 볼 기회를 가졌던 한 사람으로써, 그리고 나름대로 오랜 시간 이 제품을 만지고 고찰해볼 수 있었던 리뷰어로써 혹시라도 이 제품에 대한 여론이 형성되기까지 사용자들이 놓친 (미디어들 역시 - 많은 미디어가 하루이틀씩 잠깐 만져본 뒤 작성한 리뷰에는 미처 담을 수 없었을)  부분이 있는지 살피고, 만약 있다면 이를 적극적으로 발굴해 재조명을 유도해줄 필요가 있다는 일종의 책임 비슷한 느낌을 가졌다. 개인적으로는 피지라는 GPU가 대단히 미래지향적인 것이라 생각하며 Fury X 역시 매력적인 제품이라 느꼈기에, 관점에 따라 재조명 칼럼일 수도 있고 리뷰어의 비하인드 스토리일수도 있을 이 글을 그다지 어렵잖게 써내려갈 수 있었다는 것이 다행이라면 다행일 것이다.

 

<피지 다시보기> 글은 총 2편으로 구성되었으며, 1편에서는 국내외 여러 리뷰에서 미처 짚고 넘어가지 못한 피지 GPU의 숨은 특징을 재조명하고 2편은 Fury X 2/3/4-way 크로스파이어 리뷰로 진행된다.

 

.  .  .  .  .

 

<1편 : Fury에 분노한 이들을 위하여 - 목차>

 

(1) AMD의 의도

(2) DirectX12의 특징

(3) 설계의 딜레마

 

.  .  .  .  .

 


1. AMD의 의도 : FreeSync, VR, 경험적 성능

 

AMD가 근래 출시하는 제품마다 빠짐없이 강조하는 기능이 있다. 바로 VR과 FreeSync이다. 그들의 신제품을 분석함에 있어 이 둘을 빼놓고 이야기한다면 숨겨진 많은 이야깃거리를 놓치는 것이다. 누구도 보지 않은 시각으로 바라보는 것에서 글을 시작해 보자. 오늘날 FreeSync를 지원하는 모니터 중 많은 모델은 주사율이 60Hz~75Hz에 머물러 있다. 근래 들어 주사율을 144Hz까지 지원하는 디스플레이가 지속적으로 추가되고는 있으나 FHD에 한정되거나, 대중을 타겟으로 하기엔 가격이 비싸거나 구입 자체도 아직은 쉽지 않은 것이 대부분이다. 즉 바로 이 순간 FreeSync가 정확히 조준하는 '사용자 경험'의 과녁은 60Hz~75Hz의 주사율, 다시 말해 초당 60~75프레임 이내의 범위로 구동되는 게임플레이에 있다.

 

글쓴이의 Fury X 리뷰에 사용된 DirectX11 게임 11종 벤치마크 시나리오 하에서, 최상급 그래픽카드 3종(타이탄X, 980Ti, Fury X)은 FHD의 경우 AMD가 상정한 '사용자 경험'의 기준치의 두 배에 가까운 초당 130~150프레임 정도를 기록한 바 있다. QHD는 그보다 다소 낮기는 하나 여전히 평균 100~105프레임으로 기준치를 훌쩍 뛰어넘는다. UHD(4K)는 되어야만 일제히 50프레임 중후반으로, 가까스로 모니터 주사율과 동기화가 될까 말까한 수준으로 내려온다. (링크 : 4장 참조) 여기서 중요한 것은 FHD/QHD에서 우리가 얻는 프레임이 이미 FreeSync 모니터가 실제로 사용자의 눈에 보여줄 수 있는 한계 이상이라는 것이다. 간단히 말해, '경험적 성능'의 측면에서 과연 그 이상이 필요하냐는 질문에 AMD는 과감히 '그렇지 않다'는 답을 내렸단 얘기다. 실제로 드라이버 업데이트 등을 통한 저해상도에서의 성능 보완은 이미 AMD의 관심사가 아니다. 그들의 이러한 입장은 모니터가 우리 눈에 보여주는 주사율이 75Hz 정도에 머물러 있는 상황에, 타이탄X가 초당 150프레임을 연산하고 Fury X가 그보다 낮은 130프레임을 연산한다고 하여 사용자 경험(UX)이 결정적으로 달라지지 않는다는 판단에 기초한 것이다.

 

그러나, 고해상도에서의 고성능으로 말하자면 그것이야말로 AMD가 핵심적으로 의도한 부분이라 할 수 있다. 벤치마크를 통해 살펴보면 피지는 타이탄X에 비해 QHD까지는 낮은 성능을 보이지만 4K에서는 역전에 성공하고, 그보다 픽셀수가 두 배 많은 5K까지도 성능상의 우위를 유지한다. (다만 재차 픽셀수를 두배 늘린 8K에서는 메모리용량 자체의 한계로 성능이 하락한다.) 물론 이 결과를 두고 오늘날 구하기조차 쉽지 않은 5K 에서의 고성능이 무슨 의미를 갖느냐고 반문할 수 있겠다. 그러나 실은 피지의 거의 유일한 안방이라 할 수 있는 4K/5K 시나리오야말로 가장 대중적인 구성을 대표하게 될 위력이 있는 것이다. 바로 VR이 스며들었을 때의 얘기다.

 

오래 전부터 개발되어 온 3D 디스플레이 기술이나 오늘날의 VR에는 일정한 공통점이 있다. 우리 눈에 보여지는 특정 해상도를 구현하기 위해서는 그 해상도의 두 배에 해당하는 수의 픽셀을 계산한 후 우리의 양 눈에 각각 보여주어야 한다는 것이다. 즉 2560x1440 해상도에서 VR을 즐기기 위해서는 초당 2560x1440 화면을 두개씩 그려 내야 한다. 일반적인 게임환경에 비해 픽셀 수가 두 배씩 증가하는 셈이다. 앞에서 4K/5K 환경을 두고 "가장 대중적인 VR 구성" 에 비유한 까닭이 여기에 있다. 우연히도 QHD의 픽셀수(400만)를 두 배 늘리면 4K(800만)에 근접해지고, 4K의 픽셀수를 두배 늘리면 5K(1500만)의 그것을 살짝 넘기기 때문이다. 오늘날 여전히 FHD 모니터가 많이 쓰인다는 사실 자체를 외면해서는 안 되겠지만, 한편으로 "신규 판매되는 하이엔드 모니터"의 면면이 이미 빠른 속도로 QHD/UHD로 이행하고 있는 것 역시 엄연한 현실이며 이러한 디스플레이를 갖춘 사용자들이 QHD-VR 또는 UHD-VR 게이밍을 시도할 때 그 러닝메이트로 Fury X를 추천하는 데에는 전혀 부족함이 없다. 또한 단일 디스플레이 환경에서 FHD/QHD/4K 세 시나리오 중 1승 2패에 그친 Fury X의 궁색함은, VR 적용과 함께 (픽셀 수 기준으로 각각 FHD-VR/QHD-VR/4K-VR을 갈음할) QHD/4K/5K 시나리오에서의 2승 1패로 얼마든지 재평가가 가능하다.

 


2. DirectX12의 특징 : DirectX11에서 달라지는 것

 

피지의 미래지향적 설계철학을 엿볼 수 있는 또다른 곳은 바로 DirectX12이다. DirectX12의 (DirectX11에 대한) 가장 널리 알려진 변경점은 API 오버헤드를 줄이는 것 - 다시 말해 과도한 draw-call 생성으로 인한 CPU에의 의존성 (정확히는, CPU 코어 하나에만 과도하게 의존함으로써 발생하는 '과도한 싱글코어성능 의존성') 을 줄이는 것이며, 현재까지 개발된 벤치마크 툴 역시 이 부분의 검증에 치중하고 있다. 실제로 벤치마크를 돌려 보면 기존보다 CPU 의존성이 감소했으며, 특히 싱글코어에의 과한 부하가 분산되어 멀티코어 효율이 증가되었음을 확인할 수 있다. 그러나 여기서 다루고자 하는 부분은 그것이 아니다.

 

DirectX12 이전까지 GPU의 연산유닛은 거의 매 세대 배증해오다시피 했으나 실제로 GPU의 성능이 그 비율만큼 향상되어 오진 않았다. 이는 부분적으로는 '(전통적으로) 연산유닛보다 게임성능에 더 깊이 관여해 오던' ROP의 갯수가 그에 비례해 향상되지 않은 까닭이지만, 근본적으로는 GPU 내부에서도 연산유닛을 효율적으로 사용해오지 못한 데 그 이유가 있다. DirectX12의 공개를 전후하여 이러한 비효율성을 제거하기 위한 시도인 비동기 쉐이더 등의 신기술이 소개된 바 있고, 여러 기술 각각의 작동원리는 다르나 그 목적은 단 하나로 수렴한다 : 연산유닛을 더 효율적으로 가동하는 것이다. 이로써 DirectX12 하에서는 전통적인 연산유닛:ROP의 게임성능 기여도와 비교할 때 연산유닛의 비중이 상대적으로 더 커지게 된다. 이를 한 문장으로 요약하자면 "지금까지는 ROP가 중요했으나 앞으로는 SP가 중요해진다" 쯤 되겠는데, 피지의 아키텍처상 특징 - 하와이보다 1.4배 증가한 SP 갯수, 반면 그대로인 ROP 갯수 - 이 마침 이 명제를 빼다박은 것을 결코 우연이라고만은 할 수 없다. 특히 이러한 전환은 VR의 도입과 불가분의 관계에 있는데, VR로 인해 폭증한 연산량을 감당할 유일한 GPU 내 자원이 연산유닛이기 때문이다.

 

또한, DirectX12부터 도입되는 '제2의 크로스파이어 작동원리' 인 SFR은 피지를 위한 또다른 무기라 할 수 있다. 매 프레임을 여러 GPU가 교대로 연산하는 AFR방식과 달리 SFR은 하나의 프레임을 GPU 수만큼 분할해 각각의 GPU에 할당하는 것이다. AFR모드 하에서 하나의 프레임은 오롯이 자신이 할당된 GPU의 몫이 된다. 그 GPU 단일로써 '처리할 수 있는' 수준의 프레임이라면 문제가 없지만 '처리할 수 없는' 수준의 프레임이라면 두번째 GPU에서도, 나아가 세번째/네번째 GPU에서도 상황은 변하지 않을 것이다. 예컨대 4K 해상도를 잘 소화하지 못했던 1세대 케플러의 경우 GK104을 두개 탑재한 GTX 690 역시 4K 해상도엔 적합하지 않은 것으로 판명되었다. GPU 갯수가 몇 개가 되었든, 하나의 GPU에 할당된 VRAM 용량이 변하지 않았기 때문이다.

 

현재 Fury X의 가장 큰 물리적 약점은 VRAM 증설의 어려움이다. 분명 4GB라는 VRAM 용량은 플래그십으로써는 부족한 감이 있다. AFR모드 하에서 하나의 피지 GPU가 처리하지 못하는 해상도는 제아무리 많은 피지를 동원하더라도 마찬가지로 처리할 수 없다. 그러나 이 문제는 SFR모드의 도입으로 자연스레 해소된다. 가령 4GB HBM가 감당할 수 있는 최대 해상도가 8K인 경우 Fury X 두 장을 SFR모드로 구동하면 각각의 Fury X는 8K의 50%에 해당하는 연산량만 처리하면 되므로 아무런 문제가 없다. 만약 세 장을 사용한다면 하나의 Fury X가 감당할 연산량은 처음의 33%로 줄어든다. 원리는 다르지만 어느 정도 'GPU간의 VRAM 공유' 시나리오와 유사해지는 측면이 있다. 4GB + 4GB VRAM으로 실질적으로 8GB분의 해상도를 소화할 수 있게 되는 것이다.

 

현재까지 벤치마크로 살펴본 바, Fury X의 4GB HBM은 5K까지는 문제가 없으나 8K에서는 확연한 성능하락이 있다. 정확한 변곡점의 위치는 아마 5K와 8K 사이의 어딘가일 것이다. 중요한 것은 8K급의 해상도에서는 '성능하락 없는' 다른 어떤 현존하는 그래픽카드라 할지라도 단일로는 게이밍이 불가능하다는 점이다. 여기서도 AMD가 선전하는 '경험적 성능'의 논리를 적용하자면, (어차피 그 어떤 단일 그래픽카드로도 초당 30프레임 이상을 뽑아낼 수 없기에) 멀티 GPU 구성을 할수밖에 없는 상황에 SFR이 있는 한 더이상 4GB HBM은 결정적인 단점은 아닌 것이다. 그리고 실은 굳이 SFR까지 가지 않더라도 역사적으로 SLI보다 효율이 좋던 크로스파이어의 전통을 물려받아 이미 Fury X CF가 타이탄X SLI보다 좋은 성능을 보이는 벤치마크가 몇몇 매체를 통해 나와 있기도 하다. (링크)

 


3. 설계의 딜레마 : AMD의 트레이드오프

 

비록 지금까지는 Fury X의 저해상도에서의 타이탄X / 980 Ti대비 낮은 성능이 명백한 사실이고, 이는 일견 부족해 보이기까지 하는 ROP 갯수에 기인했음을 부인할 수 없으나 한편으로 현 단계에서조차 부인할 수 없는 Fury X의 명백한 장점이 있다. 바로 4096개의 SP를 통한 압도적인 연산성능이다. 8.6TFLOPS라는 수치는 하와이보다 무려 50% 증가한 것이며, 강력한 경쟁제품인 타이탄X보다도 30%이상 뛰어나다. DirectX12가 확산되고 그래픽 연산의 무게중심이 ROP에서 SP로 옮겨가면 갈수록 피지는 강력해질 것이다. 출시 초기 경쟁제품보다 뚜렷한 우위가 없었으나 신기술에 대한 강력한 최적화로 시간이 지날수록 격차를 벌렸던 사례는 다른 누구도 아닌 경쟁사의 전례에서 볼 수 있다 : 라데온 HD 5800 시리즈에 대한 (강력한 테셀레이션 엔진과 고수준의 병렬화로 무장한) 페르미의 승리가 바로 그것이다.

 

물론 미래를 위해 SP 갯수를 늘린 만큼, 현재를 위해 ROP를 보강했더라면 좋지 않았겠는가라는 반론이 있을 수 있다. 맞는 말이다. SP를 늘린 만큼 ROP도 늘리면 좋았을 것이다. 그 둘뿐 아니라 프론트엔드 격인 ACE도 늘리면 좋았을 것이다. 그 밖에도 많으면 많을수록 좋을 모든 것을 늘리면, 물론 좋았을 것이다. 그러나 그랬다가는 지금보다 다섯 배쯤은 비싸고 세 분기쯤 더 늦은 Fury X를 보게 되었을지 모른다. TSMC가 20nm GPU를 양산할 여력이 없는 한 AMD는 이 모든 '늘리면 좋았을' 것들 중 오직 몇 가지만을 선택할 수밖에 없었고, 여러 검토를 거쳐 마침내 선택지가 '현재'와 '미래'의 단 둘로 압축되었을 때 AMD는 미래를 선택한 것이다. 어떻게 보면 지금은 AMD가 그 선택의 대가를 치르는 중일지 모른다.

 

그러나 분명한 것은 피지는 최근 몇년간 유례를 찾을 수 없을 만큼 AMD가 공격적으로 만든 GPU라는 점인데, 사이프러스(21억) / 케이맨(26억)이 GF100(30억)보다 트랜지스터 수가 적었던 것은 물론 하와이(62억)도 GK110(71억)보다 집적률이 낮았지만 피지(89억)는 GM200(80억)보다 많은 트랜지스터를 탑재하고 있는 것이 그 증거이다. 또한 HBM을 사용함으로써 그래픽카드 전체의 크기를 대폭 줄일 수 있게 되었고 이는 시스템 전체의 성능밀도를 높일 수 있는 중요한 디딤돌이 된다. (그간 '오직 그래픽카드 하나 때문에' 크기를 더 이상 줄일 수 없던 많은 컴퓨터를 생각해보자) 그러면서도 소비전력은 하와이보다 오히려 감소했고, 가장 고성능을 발휘하는 4K 환경에서조차 경쟁상대인 타이탄X나 980 Ti와 비슷한 수준의 전력소비를 보이는 데 그친다. 탑재하는 VRAM 용량을 나란히 증가시킨다고 가정하면 그 격차는 더 벌어질 것이다.

 

.  .  .  .  .


지금까지 서술한 이유에 근거해 글쓴이는 피지의 미래를 비관하지 않는 편이다. 아니, 솔직히 말하면 낙관에 가깝다. 본질적으로 미래지향적인 무언가를 논함에 있어 시간은 결국, 항상 그 편이 되리라 믿기 때문이다. 비록 지금으로써는 Fury라는 브랜드명부터가 "소비자들의 분노를 예상하고 지어졌다" 는 비웃음을 사고 있는 형편이나, 분명한 것은 피지는 매력적인 GPU이고 Fury X는 시장에서 구할 수 있는 가장 좋은 대안 중 하나라는 것이다. 현재까지는 싸늘하기만 한 소비자들의 여론 역시 단기적으로는 Fury X 크로스파이어 리뷰들이 공개되는 것을 기점으로 일차적 재평가가 이뤄진 후, 중장기적으로 고해상도 디스플레이와 VR, 그리고 DirectX12의 보급 등과 맞물려 서서히 반전될 수 있으리라 조심스레 점쳐본다.

 

//