본문 바로가기

Benchmark/vga_bench

The IYD Report : Graphics Card - Oct & Nov 2015

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

 

안녕하세요 독자 여러분. 포맷을 바꿔 새로 여러분을 찾아뵙게 된 (구)GAMER'S CHOICE와 글쓴이입니다.

 

이미 아시는 분도 계시겠지만, 지난달로 연재가 종료된 GAMER'S CHOICE의 뒤를 이어 이번달부터는 분야별 'IYD 리포트' 시리즈가 CPU/VGA/소매시장 각 부문의 따끈따끈한 소식을 전해드릴 예정입니다. 특히 그동안 하나의 글로 엮어내기 위해 분량 관계상 생략할 수밖에 없던 여러 매니악한 분석과 시뮬레이션, 여타 리뷰/정보사이트에서 다루지 않던 & 다룰 수 없던 학술적 시각에서의 접근까지 글쓴이로서 제가 여러분께 선보일 수 있는 최대한을 보여드리기 위해 최선의 노력을 기울여 이번 글을 완성했음을 자부합니다. 그러면서도 방대한 데이터를 딱딱하지 않게 전달하기 위해 글의 '인터페이스'에도 많은 고민을 기울였는데, 이전의 글보다 얼마나 보기 좋아졌는지 (혹은 오히려 나빠졌는지) 여러분이 직접 보고 피드백을 주시기 바랍니다.

 

앞서 언급했듯 IYD 리포트는 매달 CPU, VGA, 소매시장("용산 리포트")의 3개 시리즈로 구성됩니다. 이 중 CPU 및 VGA 리포트는 큰 틀에서 기존의 GAMER'S CHOICE를 그대로 계승하는 내용이지만 그간의 글이 "게임용"이라는 시각에 한정되었던 것과 달리 CPU의 경우 서버용/워크스테이션용, VGA는 연산용/전문가용 등 그동안 다루지 않았던 영역까지 분석을 확대하게 되었습니다. 또한 'IYD 용산 리포트'의 일부 내용은 ITCM과의 계약에 따라 ITCM에 독점 연재되니 그곳에서도 많은 열람 부탁드립니다.

 

이쯤에서 서론을 마치고, 본론으로 들어가 보겠습니다.

 

 

1. 대조군 및 테스트 시나리오 소개


지지난달의 GAMER'S CHOICE에서 저는 현존하는 그래픽카드들을 크게 4개 그룹으로 나눈 바 있습니다. (링크) 이 글의 타이틀 이미지에도 나타나 있듯 크게 평균 상대성능 및 최신형 게이밍 콘솔 (PS4) 과의 우열을 바탕으로 나뉜 A, B, C, D 그룹이 그들인데요. 일단 크게 보아 A, B, C 그룹은 PS4보다 높은 성능을 갖는 그래픽카드들이고 D 그룹은 PS4보다 낮은 성능을 갖는 것으로 구분됩니다. 여기서 다시 A, B, C 각 그룹을 나누는 기준은 타이탄 X를 기준으로 한 평균 상대성능입니다. 성능이 80%p 이상인 그래픽카드는 A 그룹에, 50%p 이상인 그래픽카드는 B 그룹에 속하며 50%p 미만은 C 그룹이 됩니다.

 

이 글에서는 과거의 A와 B 그룹을 묶어 A 그룹으로, C 그룹을 B 그룹으로, D 그룹을 C 그룹으로 하나씩 당겨 지칭하도록 하겠습니다. 즉 A~D로 나뉘던 그룹이 A~C로 단순화된 것입니다. 또한 지지난달까지는 다뤄지지 못했던 '내장그래픽' 그 자체 및 내장그래픽급 그래픽카드까지 전면적으로 비교 대상에 포함시켜 대조군 또한 대폭 늘었습니다. 결국 각 그룹에 속하는 그래픽카드는 아래의 표와 같습니다.

 

 

또한 이 글에서, 저는 각 그룹별로 비교하는 해상도를 조금씩 달리해 가며 각 그룹별로 실제로 자주 사용될법한 환경에서의 최고의 게임용 그래픽카드를 가려 낼 것입니다. 각 그룹별로 적용되는 해상도 시나리오는 아래와 같습니다.

 

 

먼저 A 그룹 그래픽카드들의 진검승부를 관람해 봅시다.

 

 

2. 최고의 하이엔드 게이밍 그래픽카드 : 그룹 A


앞 장에서 미처 말씀드리지 못한 게 하나 있는데, 이번달부터는 각 그래픽카드별로 가능한 최다(多) 멀티 VGA 구성까지도 남김없이 보여 드립니다. AMD / 엔비디아 양사 공통적으로 매 세대의 하이엔드 그래픽카드들은 4개까지 크로스파이어 또는 SLI로 묶어 사용할 수 있기 때문에 실상 하이엔드 그래픽카드간의 성능 비교는 단순히 일대일 비교만으로 완성되지 않습니다. 방대한 데이터를 어떻게 독자 여러분께 효과적으로 주입해 드릴지 오래 고민한 끝에 아래와 같은 그래프 모양을 고안하게 되었습니다. (※ 그래프의 정렬 기준은 단일 VGA 서열순입니다.)

 

이 장에서는 A 그룹에 속하는 그래픽카드들의 진검승부를 다룹니다. 아래의 그림은 FHD 해상도에서의 성능을 나타낸 것인데, 정확히는 FHD 디스플레이 하나를 출력하는 경우(왼쪽 그래프)와 FHD 디스플레이 세 대로 서라운드를 구성한 경우(오른쪽 그래프)를 각각 나타내고 있습니다. 한번 보시죠.

 

 

FHD에서의 단일 VGA 성능은 이미 여러 벤치마크 사이트에서 다루었기에 독자 여러분께도 익숙한 서열이 나타나 있습니다. AMD의 라데온 R9 295X2는 명실공히 현존하는 가장 빠른 그래픽카드이지만 전세대 GPU를 두개 탑재했다는 한계가 동시에 존재합니다. 또한 이 때문에 멀티 VGA 구성을 하고 싶어도 최대 듀얼까지가 한계인데, 효율이 나쁜 것은 둘째치고 다른 고성능 싱글 GPU VGA를 트리플로 구성한 것에 이미 밀리고 있는 형편입니다. 이렇듯 '트리플 구성으로 듀얼 R9 295X2를 이기는' VGA로는 타이탄 X, 980 Ti, Fury X, Fury, Nano 등을 꼽을 수 있습니다.

 

재미있는 사실은 타이탄 X의 경우 이 해상도에서 쿼드 SLI 구성이 트리플 SLI보다 성능향상이 전혀 없다는 -엄밀히 말하면 오히려 근소하게 떨어졌다는- 점인데, SLI의 효율이 크로스파이어보다 떨어지는 점과 저해상도에서 멀티 VGA의 효율이 좋지 못한 점 등이 복합적으로 작용한 결과로 보입니다. 사실 FHD에서 멀티 VGA 구성시 얻을 수 있는 성능은 어떤 그래픽카드를, 몇 장을 묶더라도 타이탄 X 성능의 두배 (200%p) 에 이르는 것조차 불가능합니다. 비용 대비 효율이 그리 좋지 못한 편이죠. 참고로 970, 780은 정책적인 이유 -각각 980, 780 Ti를 팀킬하지 못하게 하려는- 로 쿼드 SLI 사용이 봉쇄되어 있습니다.

 

한편, 오른쪽의 FHD 서라운드 그래프에서는 멀티 VGA 효율이 보다 좋아진 것을 볼 수 있습니다. 처리해야 할 픽셀의 수가 늘어나면서 순수하게 VGA 내에서 체류하는 시간이 증가하게 되었고, 이에 따라 VGA 외적인 부분에서의 오버헤드가 차지하는 비중이 낮아졌기 때문입니다. 여기에서도 타이탄 X, 980 Ti는 Fury X보다 높은 단일 VGA 성능을 기록했지만 무조건 최고 성능만을 추구한다면 Fury X 쿼드 크로스파이어가 최선입니다.

 

아래에서 QHD 해상도의 결과가 이어집니다.

 

 

위 그림 중 왼쪽은 단일 QHD 디스플레이, 오른쪽은 트리플 QHD 디스플레이 서라운드 구성으로 픽셀 수가 왼쪽보다 세배 더 많습니다. (368만 픽셀 vs 1105만 픽셀)

 

일단 왼쪽을 보면 전체적인 양상은 FHD와 거의 동일합니다. AMD / 엔비디아 양사의 최상위 싱글 GPU VGA를 비교해 보면 타이탄 X, 980 Ti는 여전히 Fury X보다 앞선 성능을 보여주고 있습니다. 하지만 이와 동시에, 멀티 VGA 구성시 Fury X가 다른 둘을 역전하여 종합 1위를 차지하는 모습 역시 선명히 드러납니다. 여기에서도 R9 295X2는 가장 빠른 그래픽카드이지만, 전체를 통틀어 가장 빠른 솔루션을 제공하는 것은 Fury X입니다.

 

QHD는 FHD보다 픽셀 수가 약 두배 더 많고, 따라서 멀티 VGA 효율이 FHD보다는 다소 좋아진 편이어서 트리플/쿼드 구성으로 200%p 장벽을 넘은 대조군이 심심찮게 보이고 있습니다. 또한 FHD에서 일부 VGA의 쿼드 구성이 트리플보다 성능이 오히려 떨어지는 현상이 관찰되었지만 여기서는 그런 일은 없었습니다. 일단 그래픽카드를 더 끼우기만 하면 최소한 역효과는 보지 않을 수 있습니다.

 

한편, 오른쪽의 QHD 서라운드 구성은 더욱 향상된 멀티 VGA 효율을 보여주고 있으며, 이와 함께 처음으로 테스트를 완주하지 못한 그래픽카드들이 걸러졌습니다. 690, 780, 780 Ti, 970과 라데온으로서는 유일하게 HD 7990이 불명예의 전당에 이름을 올리게 되었습니다. 이들은 공통적으로 VRAM 용량이 4GB에 미달한다는 특징이 있습니다. (※ 970은 명목상 4GB의 VRAM을 탑재하고 있으나, 복잡한 파티션 구조로 인해 3.5GB + 512MB 분리 정책을 채택하고 있습니다.)

 

아래에서 A 그룹 진검승부의 마지막 장이 펼쳐집니다.

 

 

위 그림은 UHD 해상도에서의 성능을 나타내고 있습니다. 왼쪽은 UHD 단일, 오른쪽은 UHD 서라운드 구성이죠. 사실 오른쪽과 같은 경우 기존의 테스트 결과가 거의 없다시피 합니다. 트윅타운에서 약식으로 간단히 다룬 기사(링크)가 거의 전부였다고 봐도 무방할 정도입니다. 이미 서라운드 디스플레이 구성에서의 성능 자체가 흔히 보기 힘든 자료임을 생각할 때, 바로 여기서 이곳의 독자 여러분께 이 정보들을 보여드리게 된 것이 무엇보다 뜻깊은 일이 아닐까 싶습니다.

 

각설하고, 일단 왼쪽부터 살펴보면 Fury X의 단일 성능이 980 Ti를 넘어서게 되었지만 여전히 타이탄 X에는 미치지 못했고, 그러면서도 한편으로는 멀티 VGA 구성을 통해 최고 성능을 발휘하게 되는 쪽은 Fury X라는 것이 다시 한번 확인됩니다. 이 해상도에서 Fury X 쿼드 구성은 모든 대조군을 통틀어 유일하게 300%p (타이탄 X 단일 성능의 세배) 고지를 넘어서고 있습니다. 한편 690은 이 해상도에서도 테스트를 완주할 수 없었는데, 서라운드 아닌 단일 디스플레이 환경에서 탈락자가 발생한 것은 UHD가 처음입니다. 역시 대조군 중 GPU당 VRAM 용량이 제일 적다는 점(2GB)이 690의 패인으로 보여집니다.

 

오른쪽은 UHD 서라운드, 그러니까 3 x (3840 x 2160) 라는 엄청난 픽셀 수를 자랑하는 디스플레이 구성입니다. 화면의 가로 픽셀수만 다섯자리수를 돌파했으며 총 픽셀수는 2488만개에 달합니다. 흥미로운 점은 이 해상도에서 Fury X가 단일 VGA 성능으로도 타이탄 X를 앞질렀다는 것인데, 사실 이 해상도에서는 어떤 그래픽카드도 단일로는 플레이할 만한 프레임을 뽑아내기 힘들기 때문에 그리 의미있는 서열은 아닙니다. 그렇더라도 단일부터 쿼드에 이르기까지 모든 갯수별 비교에서 다른 대조군을 리드하고 있다는 점과, 쿼드 구성시의 성능이 유일하게 (비단 이 그래프뿐 아니라, 이 글 전체를 통틀어) 400%p를 넘어섰다는 점은 짚고 넘어갈만 합니다.

 

지금까지 살펴본 A 그룹 그래픽카드 성능 비교를 간단히 요약하면 아래와 같습니다.

 

- 현존하는 가장 빠른 그래픽카드는 라데온 R9 295X2

- 현존하는 가장 빠른 단일 GPU 그래픽카드는 지포스 GTX 타이탄 X (단, QHD 서라운드 이상의 픽셀 수에서는 라데온 R9 Fury X)

- 현존하는 가장 빠른 멀티 VGA 구성은 라데온 R9 Fury X 쿼드 크로스파이어

- UHD 이상의 픽셀 수에서는 GPU당 VRAM 용량이 4GB 미만인 조합은 가급적 피할 것

 

 

3. 최고의 퍼포먼스급 게이밍 그래픽카드 : 그룹 B


앞 장에서 하이엔드급 그래픽카드를 아주 상세한 해상도별로 살펴보았는데, 미리 이실직고하자면 이 장에서 다룰 해상도는 앞의 그것보다는 다소 단촐합니다. 물론 이러한 결정에 대해, 어떤 독자께서 퍼포먼스급 그래픽카드로도 서라운드 디스플레이를 구성할 경우가 있지 않겠느냐 되물어보실 수 있다고 생각합니다.

 

하지만 개인적인 의견으로, 하이엔드 그래픽카드 중 가장 저렴한 것보다도 더 싼 예산을 그래픽카드 부분에 투자하는 동시에 서라운드 디스플레이 구매를 고려하는 사람을 만나게 된다면 진지하게 우선순위 재설정을 권장할 것 같습니다. 이미 퍼포먼스급으로 내려온 이상 FHD 서라운드 이상에서의 '원활한' 게임 플레이가 어렵기 때문입니다. 또한 굳이 서라운드가 아니라도, FHD 서라운드보다 약 33% 더 많은 픽셀 수를 갖는 UHD 단일 디스플레이의 경우도 마찬가지입니다.

 

따라서 이 장에서 제가 성능을 살펴볼 해상도는 QHD 이하로 한정됩니다. QHD, FHD, 그리고 많은 20인치 초반대 모니터에 채택되어 있는 HD+ 해상도 (1600 x 900) 가 이 장의 주인공들입니다. 참고로 소형 16:10 종횡비 모니터에 많이 채택된 1680 x 1050을 HD+라고 놓고 보셔도 그리 많이 다르지는 않을 것입니다.

 

 

퍼포먼스급 그래픽카드 중에서 트리플 이상 구성을 지원하는 것은 그리 많지 않지만, 그래도 듀얼 크로스파이어 / SLI는 거의 모두가 지원하기에 손쉽게 하이엔드급 성능을 맛볼 기회를 제공하기도 합니다. 아마 이 글을 읽는 분 가운데 상당수도 당대의 중상급 그래픽카드를 사용하다가 가격이 떨어지면 하나 더 끼워야겠다 마음먹고 있는 분이 계시겠지요. 하지만 결론부터 말하자면 어중간한 급의 그래픽카드로 크로스파이어 / SLI를 구성하는 것은 그리 큰 의미를 갖지 못할 가능성이 높습니다. 당장 위에 열거된 것만 보더라도 듀얼 구성시 100%p (타이탄 X의 단일 성능) 를 넘는 것조차 없다는 점이 한가지 시사점입니다. 그래픽카드 갯수를 더 늘리는 것 또한 그리 현명한 방법이 아닙니다. 이에 관해 탐스하드웨어에서는 이미 수년 전, 듀얼 780과 트리플 760을 비교하며 '중급 그래픽카드 많이 달기' 의 허황됨을 지적했던 바 있었습니다. (링크)

 

이 글에서 '퍼포먼스급' 그래픽카드를 정의한 가장 큰 기준은 무엇보다도 최신 게이밍 콘솔보다 성능이 좋아야 한다는 것이었습니다. 보시다시피 열거된 모든 그래픽카드는 PS4의 GPU보다 더 높은 성능을 보이고 있는 것들입니다. 만약 (콘솔 대신) 아주 작은 초소형 게이밍 PC를 만들 계획이라면 위에 열거된 것 중 ITX 폼팩터가 제공되는 제품을 구입해 보는 것도 가격대비 큰 만족도를 얻을 수 있는 방법입니다. 이에 해당되는 제품으로는 AMD의 라데온 R9 380, 엔비디아의 지포스 GTX 960 등이 있습니다. 물론 돈이 많다면 하이엔드급으로 눈길을 돌려 ITX 970을, 돈이 "아주" 많다면 R9 Nano를 사는 것도 좋겠습니다만...

 

어쨌든, 성능에 관해 논하자면 위에 열거된 모든 해상도에 걸쳐 지포스 GTX 770이 1위를 굳건히 지키고 있으며 2~3위권에서는 680과 라데온 R9 280X가 해상도에 따라 엎치락뒤치락 하고 있습니다. 반면 멀티 VGA 성능은 모든 해상도에서 280X 크로스파이어가 (듀얼, 트리플, 쿼드 모두) 770 / 680 SLI보다 착실히 앞서고 있습니다. 그나마 시도해볼 만한 중급 그래픽카드 멀티 조합이 있다면 280X가 아닐까 싶습니다.

 

그러나 여기에는 함정이 있습니다. 바로 770, 680, 280X 모두 지금은 단종에 가까워진 상태라는 점입니다. 이 점을 고려해 신품 구매가 용이한 것으로 비교대상을 한정하면 라데온 R9 380과 지포스 GTX 960이 퍼포먼스급 시장의 투톱을 형성합니다. 이들의 뒤를 잇는 '신상'들은 950, 370 등이지만 체급 차이가 좀 있는 편이라 어지간히 돈이 없는 게 아니라면 960 / 380을 사는 게 여러 모로 나아 보입니다.

 

지금까지 살펴본 B 그룹의 특징을 요약하면 아래와 같습니다.

 

- 현존하는 가장 빠른 퍼포먼스급 그래픽카드는 라데온 R9 380 / 지포스 GTX 960

- 그나마 해볼 만한 퍼포먼스급 멀티 VGA 구성은 (구할 수 있다면) 라데온 R9 280X 듀얼 크로스파이어 (퍼포먼스급에서 트리플 이상은 초강력 비추)

- 콘솔 대용이라 생각하고, ITX 폼팩터 380 / 960을 이용한 소형 PC를 조립하면 좋지 않을까?

 

 

4. 최고의 메인스트림 게이밍 그래픽카드 : 그룹 C


앞의 두 장에서는 그나마 독립 그래픽카드 (discrete GPU: 외장 그래픽카드) 로 의미있는 수준의 제품들을 다루었지만 이번 장에서 다룰 제품들은 보기만 해도 조금 답답해질수 있는 것들입니다. 명목상 최신형 게이밍 콘솔보다 성능이 떨어지는 그래픽카드들을 모은 것이지만 요 근래 내장그래픽의 비약적인 발전과 맞물려 사실상 내장그래픽 레벨과도 큰 차이가 없는, 있으나마나한 외장그래픽들이 여기에 다 모여 있기 때문입니다.

 

그런데 아이러니하게도 실제 시장에서 가장 많이 팔리는 것들이 이 그룹에 모여 있기도 합니다. 지포스 GTX 750 / 750 Ti가 대표적이죠. 사실 오늘날 게임 환경이 극도로 양극화되어 그래픽 품질 자체가 큰 연산량을 요구하지 않는 부류의 게임들이 엄연히 하나의 시장을 형성하게 되었기에 이들 '가격 부담 없는' 그래픽카드가 흥행하게 된 것이지, 기존 패키지 게임의 잣대에서 (그러한 그래픽카드들이 플레이할 만한 프레임을 뽑아 낼 수 있는 상한인) HD급 저해상도를 쓰는 사람이 많기 때문에 이들이 많이 팔린다고 분석한다면 그것은 틀린 것입니다. 우선 이 점을 분명히 해 둡니다.

 

하지만, 전체 시나리오의 일관성을 유지하고 분석의 편의를 위해 이 장에서는 HD, HD+, FHD의 세 해상도를 테스트합니다. 물론 여기서의 분석은 메인스트림 그래픽카드 구매자들이 주로 플레이할 LOL 부류의 영역에 진입하는 순간 의미가 없어지겠지만, 적어도 현 세대의 메인스트림 그래픽카드가 동세대의 게이밍 콘솔과 & 동세대의 내장그래픽과 비교해 어느 정도의 위치인지 살펴볼 지표가 될 것입니다.

 

 

우선 이 영역대에서도 멀티 VGA 구성이 가능한 대조군이 몇 있었다는 점을 짚고 넘어갑시다. 이들은 모두 라데온들로, 최대 듀얼까지의 크로스파이어 구성이 가능하며 이를 통해 도달 가능한 상대성능은 약 50%p 가량입니다. 물론 이러한 크로스파이어 구성보다는 그에 상응하는 퍼포먼스급 그래픽카드 하나를 다는 편이 모든 면에서 이득이기에 이에 관해 자세히 거론하지는 않겠습니다. 전체적으로 PS4가 (정확히는, PS4의 GPU성능에 상응하는 그래픽카드 성능) 굳건히 1위를 지키고 있는 가운데 다른 대조군의 순위 변화도 그리 크지 않은 편입니다.

 

지포스 GT 630 / 640의 성능을 살펴보면 재미있는 점이 발견됩니다. 둘 모두 오리지널 버전과 리비전된 버전 (rev.2) 이 존재하는데 리비전을 거치면서 성능이 오히려 떨어졌다는 점이 그것입니다. 물론 이정도급 그래픽카드를 구입하려는 사용자에게 성능이 조금 더 좋거나 나쁜 것은 이미 결정적인 선택요인은 아니겠지만, 그렇더라도 제품의 출시 중 같은 이름 하에 제품을 교체해 버리는 것은, 심지어 성능을 더 떨어뜨려 버리는 것은 결코 도덕적으로 바르다고 할 수는 없습니다. 만약 GT 630이나 640을 구입할 계획이 있다면 이 점에 유념해야겠습니다.

 

현존하는 내장그래픽 중 가장 성능이 좋은 것은 브로드웰 i7 / i5에 내장된 아이리스 프로 6200입니다. 지포스 GT 640 (rev.2) 의 다운그레이드 리브랜딩 버전인 GT 730과 엎치락뒤치락 하는 성능이며 라데온 R7 250과는 매우 유사하지만 근소하게 떨어지는 성능을 가졌습니다. 거꾸로 말해 R7 250이나 GT 730 이하의 외장 그래픽카드는 이제 존재가치 자체가 의심받지 않을 수 없는 상황에 처하게 된 것입니다. 이들과 (내장그래픽 없는) 쿼드코어 CPU의 조합이 브로드웰 i7 / i5보다 저렴해져야만 상식적으로 납득이 되겠죠.

 

AMD의 카베리 / 고다바리는 브로드웰은 물론, 하스웰의 아이리스 프로 5200보다도 소폭 떨어지는 성능을 가졌습니다. 다만 연산유닛 자체는 카베리(고다바리)가 더 많은 수를 가지고 있기에 (카베리 / 고다바리 512개, 브로드웰 384개, 하스웰 아이리스 프로 320개) 순수한 GFLOPS 성능은 카베리(고다바리)쪽이 더 높습니다. 어쨌든 이들은 라데온 HD 7730, R7 240과 비슷한 성능을 보이고 있는데 공식적으로 '크로스파이어'는 지원하지 않는 이들이지만 AMD가 이들을 위한 히든카드를 준비해 두었으니, 바로 '듀얼 그래픽' 기술입니다. 카베리(고다바리)의 내장그래픽과 HD 7750 이하 / R7 250 이하의 라데온 외장그래픽을 동시에 장착해 일종의 크로스파이어를 구현하는 것으로, 예전에 제가 직접 실측했던 바로는 (링크) 라데온 HD 7770에 약간 못 미치는 수준의 성능이 측정되었습니다.

 

어쨌든, 이 경우 역시 임의의 CPU와 7770을 합한 가격보다 카베리(고다바리)와 7730 / R7 250을 합한 것이 저렴해야만 7730이나 R7 250의 존재의의가 돋보일 것인데 현재 시장에서 형성된 가격은 그렇지 않습니다. 종합적으로 위에 열거된 것 중 가장 빠른 내장그래픽보다 느린 외장그래픽들의 입지는 아주 위태로운 수준입니다.

 

지금까지 살펴본 C 그룹의 특징을 요약하면 아래와 같습니다.

 

- 현존하는 (단종되지 않은) 가장 빠른 메인스트림급 그래픽카드는 지포스 GTX 750 Ti

- 현존하는 (단종되지 않은) 메인스트림급 그래픽카드 중 X-Box One보다 빠른 것은 GTX 750 / GTX 750 Ti / R7 250X / R7 260 / R7 260X / R7 360 단 6종에 불과함

- 현존하는 (단종되지 않은) 메인스트림급 그래픽카드 중 가장 빠른 내장그래픽보다 빠른 것은 위에 더해 GT 740 단 1종에 불과함


 

5. 최고의 전문가용 그래픽카드 (및 코프로세서) : (1) 연산성능


그래픽카드의 성능을 설명하는 지표로 연산성능이 거론되기 시작한 것는 사실 그리 오래 되지 않았습니다. 엔비디아에서는 지포스 8000 시리즈, AMD에서는 라데온 2000 시리즈가 각각 "통합 쉐이더" 모델을 도입하며 범용 연산에 대응할 수 있게 된 것이 그 시초라고 할 수 있습니다. 또한 그래픽카드의 범용 목적에의 활용 (general purpose GPU, GPGPU) 은 본연의 게이밍성능 구현과는 그 메커니즘이 또 다른 것이어서 게임성능이 좋은 그래픽카드라고 하여 연산성능이 반드시 뛰어난 것은 아니고, 반대로 연산성능이 뛰어나다고 해서 최고의 게임 성능을 갖는 것만도 아닙니다.

 

그렇지만 이 둘은 시간이 지남에 따라 비슷한 우상향 곡선을 그리며 나란히 성장해 왔고, 특히 제조사가 디스플레이 출력이 아예 생략된 연산 전용 유닛 (이 글에서는 "코프로세서"라 통칭합니다) 을 염두에 두고 그에 특화된 GPU를 설계하는 데에까지 이르렀습니다. 한 마디로 오늘날 GPU가 활용되는 분야에서 GPGPU를 빼놓는 것은 중요한 한 축을 생략하게 되는 것이고, GPU의 범용 연산성능 역시 중요한 하나의 지표로 받아들여지게 되었다고 볼 수 있습니다.

 

현존하는 GPU 칩셋 중 상용화 여부를 떠나 가장 높은 연산성능을 제공하는 것은 AMD의 Fiji로, 4096개의 스트림프로세서가 각각 2개씩의 단정밀도 / 1개씩의 배정밀도 FMAD 명령어를 처리할 수 있습니다. 하지만 Fiji의 상용화된 버전들인 라데온 R9 Fury X / Fury / Nano에서는 배정밀도 연산성능이 규정된 스펙의 4분의 1수준으로 제한되어 있어 단정밀도 대비 12.5%밖에 처리하지 못하고 있습니다. 오히려 Fiji 이전 세대인 Hawaii의 경우 2816개의 스트림프로세서가 각각 2개의 단정밀도 / 1개의 배정밀도 FMAD 명령어를 처리할 수 있는데 이 스펙을 온전히 살린 전문가용 라인업 FirePro가 존재하기에 결국 상용화된 레벨에서의 배정밀도 연산성능은 Hawaii가 Fiji보다 더 앞선다고 볼 수 있습니다.

 

한편, 엔비디아는 맥스웰을 출시하며 정작 맥스웰에는 아직 적용되지 않았지만 차기 GPU부터 적용될 "2배속 반정밀도 연산성능" 을 언급한 바 있습니다. 개별 연산의 정확도와 많은 유효숫자가 중요시되는 분야에서는 단정밀도(32bit 길이)로도 부족해 배정밀도(64bit 길이)를 도입하고 있는 형편이지만, 반대로 개별 연산의 정확도는 그리 중요하지 않은 경우는 단정밀도마저도 낭비인 경우가 있을 수 있습니다. 반정밀도(16bit 길이)는 이에 대응하는 개념입니다. (※ 정확히는, 테그라 X1 모바일 SoC에 도입된 GPU는 맥스웰 아키텍처 기반이지만 2배속 반정밀도 연산성능을 지원합니다.)

 

구체적으로, 반정밀도는 개별 연산의 부하를 줄일 필요가 있거나 다량의 "개별 연산"을 취급해야 할 때 유용하게 적용됩니다. 전자는 모바일 GPU에서 주로 요구되며 후자는 대표적으로 딥 러닝 부문을 꼽을 수 있습니다. 특히 딥 러닝은 개별 단계에서의 연산 결과가 다소 부정확하더라도 수많은 학습의 누적을 통해 이를 보정할 수 있기에, 정밀도를 줄여 연산량을 늘릴 수 있다면 단연 유리한 분야라고 할 수 있습니다.

 

요약하자면 각 정밀도별 특성은 아래와 같습니다.

 

 

아쉽지만 이 글에서 논하는 대조군 중 반정밀도 가속을 지원하는 제품이 없기 때문에, 이번 달은 단정밀도와 배정밀도 성능만 살펴보도록 하겠습니다. 엄밀히 말해 '그래픽카드' 라고는 할 수 없지만 GPU의 GPGPU적 활용으로부터 파생된 대표적인 제품군인 엔비디아 테슬라와, 역시 비슷한 설계철학으로부터 만들어진 인텔의 제온 파이 MIC를 이번 장에서 함께 다루게 되었습니다. 이들 코프로세서의 연산 성능이 과연 어느 정도인지 살펴보는 것도 이 장의 관전 포인트일 것입니다.

 

아래는 전문가용 그래픽카드 & 코프로세서들의 단정밀도 / 배정밀도 연산성능 그래프입니다.

 

 

우선 두 정밀도 레벨 모두에서 엔비디아의 테슬라 K80이 1위를 차지하고 있는 점이 눈에 띕니다. 참고로 이 제품은 케플러 세대의 '빅 뷰티'인 GK110의 컷칩 두개를 탑재하고 있는데 해당 스펙은 공교롭게도 과거에 제가 듀얼 GK110 게임용 그래픽카드인 GTX 790이 출시될 것이라 오인했던 것이기도 합니다. (링크) 뭐, 천기누설 때문에 엔비디아가 급히 지포스 -> 테슬라로 진로를 바꾼 것이라고 맘대로 상상해 보겠습니다.

 

테슬라 K80 및 단정밀도 그래프에서 2위를 차지한 테슬라 M60은 모두 듀얼 GPU 코프로세서라는 공통점이 있습니다. 실질적으로 단일 GPU로써 단정밀도 1위를 차지한 것은 엔비디아의 전문가용 그래픽카드 라인업인 쿼드로 M6000이라고 할 수 있겠습니다. 하지만 배정밀도 연산유닛이 결핍된 맥스웰 아키텍처의 한계로 오른쪽의 배정밀도 그래프에서는 아주 낮은 성능을 보여 주고 있습니다. 이 영역에서 가장 좋은 성능을 보인 단일 GPU 제품은 AMD의 FirePro S9170 / W9100인데, 이들이 바로 이번 장 첫머리에 언급했던 Hawaii GPU를 탑재한 제품들입니다.

 

인텔 제온 파이는 외형 자체는 여느 그래픽카드와 닮았지만 테슬라와 마찬가지로 디스플레이 출력기능이 없습니다. 인텔은 이러한 형태의 제품군을 MIC (위키백과에 따르면 믹 또는 마이크라고 읽습니다) 이라 분류하고 있는데, MIC과 테슬라는 엄밀히 말해 그래픽카드가 아니지만 성능이 궁금하신 분이 계실 것 같아 이 글에서 함께 다루게 되었습니다.

 

결론부터 이야기하자면 제온 파이의 연산성능은 생각보다는 그리 뛰어나지 않습니다. 다만 사이클당 처리 가능한 단정밀도 연산 대 배정밀도 연산 비율이 대조군 중 가장 높은 수준인 2:1인 관계로 배정밀도 연산성능은 상대적으로 좋아지는 모습인데, 그렇더라도 가격 (제온 파이 7120이 4000달러) 을 생각하면 비슷한 가격대의 테슬라, 쿼드로나 FirePro보다 매력적이라고는 할 수 없습니다. 순수한 FLOPS 성능 자체보다는 x86 명령어 세트를 지원한다는 점 등 이 글에서 평가할 수 없는 요소들이 인텔 MIC 나름의 장점일 것이라 여겨집니다.

 

 

6. 최고의 전문가용 그래픽카드 : (2) OpenGL 및 종합 성능


이 장에서는 AMD / 엔비디아 양사의 전문가용 "그래픽카드" (그래픽카드를 강조하는 이유는, 그래픽카드가 아닌 테슬라나 인텔 MIC가 빠지기 때문입니다) 를 좀 더 심도있게 분석해보게 됩니다. 쿼드로나 FirePro는 과거 OpenGL 가속용으로 파생된 라인업이었으며 실제로 이들의 역사 속에는 그러한 흔적이 짙게 남아 있습니다. 쿼드로 초기 모델들의 코드네임은 대칭되는 지포스의 그것에 -GL 접미사를 붙인 것이었고, FirePro는 아예 제품명 자체가 FireGL이던 시절이 있었다는 것들이 그러한 예입니다.

 

오늘날, 비단 OpenGL에 국한하지 않더라도 이들 그래픽카드에 특화된 그래픽 작업 프로그램들이 즐비하며 AMD / 엔비디아 양사는 드라이버 차원에서 해당 프로그램에서의 성능이 극대화되도록 (정확히는, 쿼드로나 FirePro가 아닌 제품군의 성능이 극소화되도록) 지원하고 있습니다. 따라서 많은 경우 쿼드로나 FirePro의 성능은 일반적으로 지포스나 라데온의 성능 서열과 큰 관계가 없는 경우가 많으며, 심지어 쿼드로-FirePro 사이에서도 각자 최적화된 프로그램의 종류에 따라 성능이 발현되는 양상이 천차만별입니다.

 

이 글에서는 가급적 공통적으로 비교가 가능한 부분에서의 지표들을 모아 OpenGL 성능으로 제시하고자 노력했으며, 그럼에도 불구하고 앞서 언급한 한계 -제조사별로 친화적인 프로그램의 종류 자체가 다름- 를 생각하면 실제 전문가용 그래픽카드 구매 가이드로써는 적합하지 않을 수 있습니다. 예컨대 '우리 회사에서 작업하는 프로그램은 쿼드로에 최적화된 것 같다' 라면 아래 그래프와 상관없이, 예산이 허락하는 범위 안에서 가장 비싼 쿼드로를 사면 될 일입니다. 다만 이 장의 의의는 일반 사용자들에게 생소한 이들 제품군의 성능을 대략적으로나마 제시해 주는 '얕은 정보'로 봐 주시면 그것으로 충분할 것 같습니다.

 

 

우선, 위 그림 중 왼쪽 그래프에 나타난 OpenGL 성능은 가장 최근에 출시된 쿼드로인 쿼드로 M6000이 압도적으로 다른 대조군들을 따돌리고 있습니다. 그 뒤를 쿼드로 M5000, K6000, FirePro 최상위권 제품들이 따르고 있는데 사실 쿼드로 K6000과 FirePro S9170 / W9100 같은 경우는 한세대 전 플래그십 GPU 기반임을 생각하면 일견 당연한 결과입니다. 아주 러프하게 보아 AMD / 엔비디아 양사 모두 가격에 비례하는 서열을 보이고 있습니다. 그리 놀랍지 않은 결과이죠.

 

오른쪽 그래프는 지금까지 살펴본 연산성능 (단정밀도, 배정밀도) 과 OpenGL 성능을 50:50으로 반영한 일종의 인덱스입니다. 물론 전문가용 그래픽카드를 도입하는 분야에서는 이미 용도가 구체적으로 특정된 경우가 대부분이기에 이와 같은 올라운드 비교가 적합하지 않습니다만, 굳이 점수를 매겨 보자면 위와 같다는 것입니다. OpenGL 성능이 가장 뛰어났던 쿼드로 M6000은 배정밀도 연산성능이 크게 떨어져 종합 순위에서 4위로 내려앉았고, 대신 1~3위를 나란히 Hawaii 기반의 FirePro S9170/9150, W9100이 차지했습니다.

 

 

7. 콘솔 vs PC : 오버헤드 시뮬레이션


지금까지 살펴본 그래픽카드 성능 분석에는 사실 중요한 것 한가지가 빠져 있습니다. CPU에 의한 영향이 고려되지 않았다는 점이 바로 그것인데요. 일반적으로 해상도가 높아질수록 CPU에 의한 의존도는 감소하며, 따라서 충분히 고해상도인 경우라면 VGA의 서열을 아는 것만으로도 그 VGA를 사용한 PC의 게임성능을 유추할 수 있지만 아직까지도 FHD 이하의 저해상도에서는 그렇지 못한 게 현실입니다. 아래 그림을 보면 지지난달 GAMER'S CHOICE (링크) 에서 긴 분량을 할애해 제가 설명하고자 했던 내용이 압축되어 있습니다. (※ 이에 관해서는 이번달 IYD CPU 리포트에서도 다룰 예정입니다.)

 

(출처 : GAMER'S CHOICE : Aug & Sep 2015, 링크)

 

PC에서의 게이밍 경험이란, 보다 자세히 말해 윈도우를 OS로 하고 DirectX를 API로 하는 환경에서의 게이밍 경험이란 사실 유저들이 즐길 수 있는 게이밍 환경들 중 일부분만을 대변하는 것입니다. 그 말인즉, OS가 윈도우 아닌 다른 무엇이 될 수도 있다는 얘기이고 (예: 리눅스, OS X, 모바일 OS 등) 하나의 OS 내에서도 여러 API에 따라 (예: DX11, DX12, 맨틀, 불칸, 메탈, OpenGL 등) 게이밍 환경은 극단적으로 달라질 수 있다는 암시이기도 합니다. 실제로 최근 윈도우-PC 게임 생태계는 DirectX 12의 등장과 맞물려 큰 패러다임 전환을 예고하고 있습니다.

 

흥미로운 것은, DirectX11 -> 맨틀/DirectX 12로 이어진 API 패러다임 전환의 궁극적인 지향이 "게이밍 콘솔"에 가깝다는 것입니다. 실제로 플레이스테이션이나 X-Box 등 게임 전용 콘솔의 API 오버헤드는 비슷한 사양을 갖는 PC의 그것보다 훨씬 낮은 편이라고 평가되어 왔으며, 따라서 PC에 비해 더 낮은 하드웨어 사양을 갖고 있더라도 비슷한 그래픽 품질을 구사하는 경우가 많았습니다.

 

물론 PC와 각 콘솔간의 오버헤드를 손수 분석하려면 이를 가능하게 할 크로스플랫폼 테스트 환경 구축이 선행되어야 하고 그 밖에도 여러 기술적 장벽이 존재합니다. 예컨대 PS4와 X-Box One이 비록 x86 명령어 세트 기반 프로세서를 탑재하고 있으나, 그들의 CPU나 GPU는 현존하는 어떤 PC용 CPU / GPU와도 같지 않기 때문에 엄밀한 의미에서 변인통제가 불가능합니다. 그렇지만 PC 환경에서 이미 존재하고 & 측정 가능한 오버헤드를 인위적으로 줄여 가며 그 영향을 시뮬레이션하는 것은 얼마든지 가능합니다. (링크 참조)

 

(위 그림에서 b에 해당하는 부분을 임의로 줄여 볼 것입니다.)

 

이 장에서는 바로 그 부분에 초점을 맞춰 콘솔이라는 플랫폼의 (적어도 현재까지의) 존재의의를 재조명해 볼 것입니다. 아래의 그래프는 HD 해상도 (1280 x 720) 에서의 시뮬레이션 결과입니다.

 

 

이미 그림이 모든 설명을 하고 있습니다. PS4나 X-Box One의 SoC 프로세서에 내장된 GPU파트는 그 자체의 성능만으로는 데스크탑의 라데온 HD 7850, 7770에 각각 해당하는 성능을 갖습니다만, 콘솔 API의 최적화 정도에 따라 (PS4의 경우) HD 7870을 뛰어넘는 성능을 갖게 되거나, 심지어는 GTX 770보다도 높은 성능을 발휘할 수도 있게 됩니다. 특히 VGA 외적인 영역에서의 오버헤드를 해상도에 무관한 불변의 값으로 정의하자면 해상도가 낮아질수록 오버헤드의 비율이 상대적으로 높아지게 되기에 저해상도일수록 콘솔의 비교우위가 더 커진다고 볼 수 있습니다.

 

아래의 그래프는 FHD 해상도 (1920 x 1080) 에서의 시뮬레이션 결과입니다.

 

 

앞서 살펴본 것과는 사뭇 다른 분위기입니다. 물론 오버헤드가 줄어들수록 콘솔 GPU의 상대성능이 높아지는 경향은 뚜렷하지만 그 진폭이 확연히 줄어든 탓입니다. 가장 큰 이유는 "해상도가 높아졌기" 때문입니다. 저해상도일수록 오버헤드의 영향이 커진다는 것은 반대로 고해상도일수록 영향이 줄어든다는 것이기도 합니다.

 

결국 콘솔의 존재의의, PC에 대한 비교우위(또는 열위)는 이 모든 주변 여건을 아울러 살펴볼 수밖에 없습니다. PC 디스플레이는 디스플레이 시장의 수많은 세그먼트 중에서도 가장 최신 트렌드의 이식률이 높은 편이고 실제로 요 근래 2K, 4K, 5K에 이르기까지 시장에서 찾아볼 수 있는 고해상도 모니터의 최전방은 끊임없이 진화를 거듭해 왔습니다. 무엇보다 PC 디스플레이의 교체주기가 TV보다 훨씬 짧다는 점으로 인해 대부분의 가정에서 TV의 해상도는 PC 디스플레이의 그것보다 낮은 경우가 많고, 이는 필연적으로 콘솔의 '상대적인 저해상도에서의 구동' 환경을 가져오게 됩니다. 다른 한편으로는, (그럼에도 불구하고) 현행 PC 디스플레이의 주류 해상도는 여전히 FHD급에 머물러 있는 각종 통계를 볼 때, 결국 PC와 콘솔 모두 아직까지는 '오버헤드가 큰 영향력을 갖는 영역'에 머물러 있다는 결론에 도달합니다.

 

이러한 조건 하에 콘솔은 여전히 PC에 비해 -특히 동 가격대에서 구성 가능한 PC에 비해- 높은 매력을 갖는 플랫폼입니다. 하지만 윈도우 10의 등장으로 X-Box에서부터 시작될 PC-콘솔 플랫폼 융합, DirectX12로 대표되는 PC의 API 오버헤드 절감 노력, 고해상도 디스플레이로의 점진적인 이행 등은 GPU성능 자체에의 의존도를 높일 요소이기에 콘솔 진영이 여기에 잘 대응하지 못하면 도태될 위험이 과거 어느 시기보다도 높습니다. 더욱 고성능의 GPU를 내장해야 할 필요성이 어느 때보다 커졌고, 바로 이 대목이 HBM을 탑재할 AMD의 차기 APU라든지, PS4의 고사양 파생버전 루머라든지, 닌텐도의 차기 콘솔에 AMD의 차기 APU가 탑재되는 루머라든지 등이 설득력을 갖는 배경이라 할 수 있겠습니다.

 

 

8. 결론


지금까지 살펴본 내용을 결산해 봅시다. 게임 용도 하에서의 그래픽카드 성능을 분석한 2~4장에서 우리는 아래와 같은 결론들을 얻었습니다. (해당 장에서의 소결론들 중 중요한 것을 발췌한 것입니다.)

 

- 현존하는 가장 빠른 단일 GPU 그래픽카드는 UHD까지는 지포스 GTX 타이탄 X, 그 이상의 픽셀 수에서는 라데온 R9 Fury X

- UHD 이상의 픽셀 수에서는 GPU당 VRAM 용량이 4GB 미만인 것은 가급적 피할 것

- 갯수를 막론하고 크로스파이어의 효율이 SLI보다 높음. 그에 따라 현존하는 가장 빠른 멀티 VGA 구성은 해상도를 막론하고 라데온 R9 Fury X 쿼드 크로스파이어

- 퍼포먼스급 이하에서 멀티 VGA 구성은 전반적으로 추천하지 않음. 특히 트리플 이상의 구성에 대한 글쓴이의 의견은 극히 부정적

- 내장 그래픽 솔루션의 성능향상으로 메인스트림급 그래픽카드의 존재가치가 어느 때보다 위협받는 상황

 

우선 과거 IYD의 벤치마크/리뷰에서도 간헐적으로 & 꾸준히 지적해 온 부분이지만 AMD / 엔비디아 양사의 멀티 VGA 기술을 비교하자면 크로스파이어의 오버헤드가 SLI보다 작다는 것은 명백한 사실입니다. 따라서 단일 그래픽카드로서의 성능이 다소 떨어지더라도 멀티 VGA 구성을 통해 역전하게 되는 경우가 많으며, 특히 가격이나 효율을 고려하지 않고 '무조건' 최고의 성능만을 고집하는 사람이라면 R9 Fury X 네개를 구입하는 것 이상의 대안이 없습니다.

 

다만, 2장에서 살펴본 FHD 해상도에서의 하이엔드 그래픽카드의 멀티 VGA 효율은 쿼드 구성시마저도 200%p를 넘는 대조군이 단 하나도 없을 만큼 나쁘기 때문에, 만약 제 주위에 FHD 이하의 디스플레이를 사용하면서 크로스파이어나 SLI를 고려하는 분이 계시다면 개인적으로는 진지하게 우선순위의 재설정을 건의할 것입니다. 3장 말미에 '퍼포먼스급 이하의 그래픽카드로 서라운드 디스플레이를 구축하려는 사람이 있다면 우선순위 재설정을 권한다' 고 말한 것과 같은 맥락에서, 디스플레이와 그래픽 솔루션의 밸런스가 너무나도 맞지 않기 때문입니다. 이에 관해서는 해당 장에서의 설명이 충분히 상세했으리라 생각합니다.

 

또한, 멀티 VGA 구성은 적어도 라데온 R9 290 / 지포스 GTX 780 이상급의 그래픽카드부터 하는 것이 효율적이라는 이야기를 하고 싶습니다. 이는 저성능 그래픽카드 여러 개로 고성능 한개랑 비슷해져 봐야 성능을 제외한 다른 모든 면에서 불리해질 뿐이라는 사실이 명백하기 때문입니다. 다시 말해, 단일 그래픽카드로 도달할 수 있는 성능의 범주까지는 예산이 허락하는 한 최대치의 성능을 갖는 단일 그래픽카드로 해결하는 것이 가장 효율적입니다. 멀티 VGA 구성은 단일 VGA로 도달할 수 없는 성능영역에 닿고 싶을 때에만 고려할 가치가 있다는 것이죠.

 

이외에도, 이 글의 다른 장에서는 게임용 아닌 전문가용 영역에서의 성능 분석을 시도하기도 했고 (5~6장) 콘솔과 PC의 오버헤드에 따른 서로의 비교우위를 살펴보기도 했습니다. (7장) 맥스웰 기반 그래픽카드는 공통적으로 배정밀도 연산성능이 취약하다는 약점이 있으며 따라서 배정밀도 연산이 주된 목적인 경우라면 쿼드로 M6000이나 테슬라 M60을 구입하는 것은 별로 의미가 없습니다. 단정밀도/배정밀도를 통틀어 가장 높은 연산성능을 제공한 것은 테슬라 K80이었는데, 이 제품은 GK110 듀얼칩을 탑재하고 있으며 디스플레이 출력기능 없는 순수한 코프로세서입니다. "그래픽카드"로 한정해 보면 단정밀도 최고는 쿼드로 M6000, 배정밀도 최고는 Hawaii 기반의 FirePro S9170 / W9100 이었습니다. 한편 OpenGL 성능은 예상하셨다시피 쿼드로 M6000이 가장 좋았습니다.

 

 

끝으로, 지난 몇달간 GAMER'S CHOICE와 IYD 리포트를 위한 데이터베이스를 구축하며 축적한 방대한 데이터 중 극히 일부만을 글을 통해 보여드리게 된 점이, 글쓴이로서는 여전히 아쉽다는 점을 고백하며 글을 마칩니다. 이미 이 글 자체가 방대한 분량이 되었습니다만 여기에 사용된 데이터는 IYD 내부 데이터베이스의 10분의 1가량 정도로 -문자 그대로- 빙산의 일각에 불과합니다. 멀지 않은 시기에 이 방대한 데이터를 사용해 시도할 수 있는 참신하고 기상천외한 분석을 고안해 여러분께 보여드릴 수 있도록 하겠습니다.

 

읽어 주셔서 감사합니다 :)