본문 바로가기

Benchmark/vga_bench

GAMER'S CHOICE : Aug & Sep 2015

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)





독자 여러분 안녕하십니까. 두달만에 새로운 GAMER'S CHOICE를 들고 찾아오게 되어 감개무량한 글쓴이입니다. 아시다시피 지난 두 달간 그래픽카드 시장에는 또 뉴페이스들이 등장했죠. 라데온 R9 나노와 지포스 GTX 950이 그들입니다. 물론 둘 모두 지난달 말에 출시된데다 특히 R9 나노 같은 경우는 엄청난 고가에, 물량도 거의 찾아보기 어려운 탓에 시장에 미칠 영향은 제한적이리라 생각되지만 어쨌든 제품이 나온 이상 이 글에서 다뤄지긴 해야겠죠. 그것도 그렇고 지난번 글 (6/7월호 통합본 : 링크) 까지 제가 고수해오던 테스트베드가 GTX 980을 사용하고 있었는데 R9 나노의 출시로 공식적으로 GTX 980의 위에 있는 것만 엔비디아가 2종, AMD가 3종에 이르게 되었습니다. 바꿔 말하자면 더이상 '플래그십'이라 칭하기는 어려운 지경이 되었습니다. 이쯤 되면 자연히 새 테스트베드의 도입을 고려해야 할 시기였단 걸 짐작하시겠죠.


아마 제가 준비한 변화들은 여러분을 놀라게 하기 충분하지 않을까 싶습니다. 지금부터 차근차근 설명해 드리도록 하겠습니다.

 

<목차>

 

1. CPU : Theory

2. VGA : Theory

3. Best Gaming CPUs

4. Market Analysis

5. Gamer's Choice

 

 

1. CPU : Theory


우선, 이번달에 제가 다룰 CPU의 리스트입니다.



시장에서 주류인 하스웰과 AMD 파일드라이버/스팀롤러 기반 CPU로 테스트 포트폴리오가 구성되었단 사실엔 변함이 없지만, 중요한 것 두가지가 있습니다. 그중 첫번째는 제온 라인업이 대대적으로 확충된 것 (늘기만 한 건 아니고 빠질 부분은 과감히 뺐습니다. 제온 라인업의 핵심인 E5 시리즈를 대거 집어넣고, 대신 데스크탑 카운터파트와 거의 동일한 E3 시리즈를 모두 탈락시켰습니다) 입니다. 물론 이들이 게임용은 아닙니다만 CPU 성능을 분석하는 각 차트에 빠짐없이 등장함으로써, 아주 기초적으로나마 이들 CPU가 우리가 쉽게 구할 수 있는 데스크탑 CPU와 비교했을 때 어떤 성능특성을 갖는지 맛뵈기라도 보여드리기 위해 노력했습니다.


두번째는 위 표에서 파란색으로 표시된 것들인데요. 바로 현재 시장에서 팔리고 있지는 않지만 비교 목적으로 인텔/AMD 양사의 구 아키텍처 기반 CPU를 가능한 한 최대한 확보해 라인업별로 대표성있는 모델 하나씩을 대조군 리스트에 올린 것입니다. 구체적으로 인텔에서는 아이비브릿지/샌디브릿지/웨스트미어/네할렘의 4개 세대에서 i7/i5/i3/펜티엄/셀러론 각 라인업별로 하나씩, AMD에서는 불도저/K10.5 2개 아키텍처에 걸쳐 FX/페넘2/애슬론2/APU A10/A8/A6/A4 각 라인업별로 하나씩을 선별해 표에 적은 것과 같이 대조군을 늘렸습니다. 즉, 이 글에서 다룰 CPU 성능 차트만으로도 대략 과거 4~5년간의 CPU 발전사를 한 눈에 볼 수 있도록 데이터베이스를 구축하는 것을 이번 리뉴얼의 큰 목표 가운데 하나로 삼았습니다.


한편, 테스트 항목 포트폴리오를 어떻게 구성하는지도 큰 고민이었습니다. 흔히 테스트해 오던 Sandra Dhrystone / Whetstone, 시네벤치, 기타 각종 인코딩/압축/암호화 벤치마크 등으로 구성된 레퍼토리가 이미 있지만 결국 어떤 테스트 항목도 '공정성' 이라는 측면에서 완전히 논란이 없을 수는 없다는 생각을 하게 되었습니다. 그럴 바에는 극단적으로 이론적으로 접근해, 각 CPU의 성능을 명령어 세트별로 파편화시켜 측정 후 각 명령어 세트를 적당히 배합한 시나리오 하에서 얻어질 성능을 '실 사용환경에서의 성능' 으로 제시하면 어떨까 하는 생각이 들더군요. 따라서 아래와 같은 테스트 포트폴리오를 구성했습니다.


1. SSE-128 커스텀 코드로 측정한 FP32 성능

2. AVX-256 커스텀 코드로 측정한 FP32 성능

3. AVX2 (AVX-256 + FMA3) 커스텀 코드로 측정한 FP32 성능


위 세가지 테스트는 다시 아래의 세가지 조건 하에서 수행됩니다.


A. 최대 스레드, 베이스 클럭

B. 최대 스레드, 부스트 클럭

C. 싱글스레드


즉 각각의 테스트와 조건의 조합은 총 아홉가지가 됩니다(1,2,3 x A,B,C = 1A,1B,1C,2A,2B,2C,3A,3B,3C). 지금부터 그 날것 그대로의 성능을 보여 드리도록 하겠습니다.



위 그래프는 각 CPU가 지원하는 최대 스레드 갯수를 해당 CPU의 베이스 클럭으로 수행한 이론적인 결과입니다. 파란색이 인텔, 녹색이 AMD라는 사실은 직관적으로 이해하실 수 있겠죠.


아주 러프하게 위의 결과를 해석해 보면, 명령어 세트가 최신의 것으로 이행할수록 (SSE -> AVX -> AVX2) AMD의 상대적인 성능이 급격히 저하되는 것을 알 수 있습니다. 다만 순위를 떠나 절대성능을 살펴보면 SSE에서 AVX로 이행할 때 성능향상이 전혀 없고, AVX2로 이행하면서는 성능이 두 배 증가하는 것을 확인할 수 있습니다(불도저 이후 아키텍처 한정). 단지 비교 대상인 인텔 CPU들이 명령어 세트 최신화에 발맞춰 거의 두 배씩 성능을 부풀리고 있다는 점이 AMD의 패인입니다.


특히 인텔 CPU 가운데서도 SSE -> AVX, AVX -> AVX2 두 단계 모두 성능이 배로 증가한 것은 하스웰 이후의 아키텍처 뿐이고, 샌디브릿지와 아이비브릿지는 SSE -> AVX로 이행할 때만 성능이 두 배 증가하고 AVX -> AVX2에서는 성능향상이 없습니다. 왜냐면 샌디브릿지 아키텍처는 AVX2를 지원하지 않거든요. 마찬가지로 AVX조차 지원하지 않는 네할렘 아키텍처 기반의 네할렘/웨스트미어 대조군은 AMD보다도 더 가파르게 순위가 하락하는 모습을 보입니다.



위의 그래프는 각 CPU가 지원하는 최대 스레드 갯수를 반영하되, 부스트 클럭이 적용된 것입니다. 아시다시피 인텔 CPU는 기본 클럭인 베이스 클럭, 싱글코어가 최대 속도로 작동하는 상한인 최대 부스트 클럭 이외에도 모든 코어가 일시적으로 작동속도를 높일 수 있는 상한선인 '올 코어 부스트 클럭' 이 있습니다. AMD에는 유사한 기능이 없기에 AMD의 상대성능이 더욱 떨어지리라 짐작해볼 수 있는데 실제로 그렇게 나타났습니다. 제조사별, 아키텍처별로 명령어 세트의 지원여부에 따라 성능의 희비가 갈리는 것은 먼저 살펴본 그래프와 동일합니다.


 

위의 그래프는 단일코어 성능을 측정한 것입니다. FX의 성능이 대단히 높게 나와 아주 의아해하실 분들이 많으시겠지만 맨 왼쪽 그래프는 SSE-128로만 채워진 코드임을 다시 한번 상기하시기 바랍니다. SSE는 아시다시피 카트마이 뉴 인스트럭션 (Katmai New Instruction) 이라는 이름으로 세상에 처음 등장했으며 여기서 카트마이가 의미하는 것은 최초의 펜티엄 III입니다. 즉 짧게 잡아도 16년 이상 된 코드에 인텔/AMD 양사 모두 질리도록 최적화가 되었으리란 점은 너무나 예측가능한 것이고, 여기에 더해 FX-9590은 현존하는 CPU 가운데 가장 높은 작동속도를 가지고 있습니다. 성능이 안 높게 나타나면 그게 이상한 거죠.

 

물론 테스트 명령어 세트가 AVX, AVX2로 이행하면 금방 우리에게 익숙한 청고녹저(...)의 분포가 재현됩니다. 다시 한번 최신 명령어 세트에 취약한 AMD의 특징을 짚고 넘어갑니다.

 

사실, 엄밀히 말하자면 AMD가 최신 명령어 세트에 취약하다고만 볼 수는 없습니다. K10.5까지는 AVX조차 지원하지 않았지만 불도저 이후부터는 일단 네이티브로 AVX를 지원하기는 하거든요. 심지어 훗날 인텔이 AVX2라 이름붙인 FMA3마저 인텔보다 선제적으로 지원해 두기까지 했습니다. 따라서 현재 테스트 대상으로 쓰인 AMD의 CPU들은 기본적으로 AVX/AVX2를 지원하고 있는 것입니다. 그런데 왜 성능이 이렇게 낮을까요? 그것은 불도저의 '간소한' FPU 설계 (한 모듈 내에서 2개의 코어가 1개분의 FPU를 공유함) 및, 1개분의 FPU로 보더라도 취약한 AVX 스루풋을 낼 수밖에 없는 'FlexFP' 라는 설계에 있습니다. 여기서 구조적인 부분까지 설명하기엔 이야기가 너무 곁다리로 새는 것이니 간단히만 언급하자면 FlexFP는 기존의 SSE 대응 유닛 두개로 하나의 AVX 명령어를 처리하는 것입니다. 원래 AVX 코드를 도입하면 SSE 대비 두 배의 스루풋을 얻을 수 있지만 FlexFP 구조로 인해 그것이 다시 절반으로 감소하는 것이죠. 지금까지 살펴본 그래프에서 AMD 불도저 계열의 SSE 성능과 AVX 성능이 전혀 차이가 없던 이유입니다.

 

여기까지 살펴본 자료를 바탕으로, 이제부터는 '시뮬레이션'의 영역으로 들어갑니다. 바로 멀티코어 지원수준과 각 명령어 세트별 최적화정도를 임의로 설정해 보는 것입니다.

 

멀티코어 CPU가 세상에 등장한지는 오래되었지만 아직까지도 단일코어 성능이 컴퓨팅 환경의 핵심적인 요소가 되는 경우가 많이 있습니다. 즉 현재까지도 우리가 일상 속에서 접하게 되는 각종 코드의 '멀티코어 최적화 정도' 는 100%에는 미치지 못한다는 뜻입니다. 그렇다면 과연 몇% 정도란 말입니까. 어쨌든 멀티코어 CPU가 등장한 지 몇 년이 지났으니 0%가 아닌 것만은 확실하고, 0%와 100% 사이 어느 지점이겠죠. 이를 최대한 근사해보기 위해 세 가지 시나리오를 만들었습니다.

 

1. 멀티코어 최적화 레벨 20% (전체 코드 중 멀티코어를 지원하는 분량이 20%, 나머지가 80%)

2. 멀티코어 최적화 레벨 50% (전체 코드 중 멀티코어를 지원하는 분량이 50%, 나머지가 50%)

3. 멀티코어 최적화 레벨 80% (전체 코드 중 멀티코어를 지원하는 분량이 80%, 나머지가 20%)

 

또한, 우리가 사용하는 어플리케이션이 어떤 명령어 세트를 지원하도록 짜여졌는지 역시 성능을 측정하는데 큰 변수가 됩니다. 이에 관해서도 세 가지 시나리오를 만들었습니다.

 

A. 레거시 시나리오 (전체 코드 중 SSE:AVX:AVX2의 비율이 70:20:10)

B. 현재 시나리오 (전체 코드 중 SSE:AVX:AVX2의 비율이 50:30:20)

C. 미래 시나리오 (전체 코드 중 SSE:AVX:AVX2의 비율이 20:40:40)

 

이들을 조합해 이론적인 성능을 한번 계산해 보겠습니다. 그런데 여기서 활용한 성능 계산 방식에 관해 한가지 짚고 넘어갑시다.

 

제가 '레거시 시나리오'를 SSE 70% : AVX 20% : AVX2 10% 의 비율로 만들었다는 것이 우리가 앞서 구한 각 CPU별 SSE/AVX/AVX2 성능을 해당 비율로 합산한다는 뜻은 아닙니다. 예컨대 SSE 성능이 100GFLOPS, AVX와 AVX2 성능이 각각 200/400GFLOPS인 임의의 CPU가 있었더라면 우리는 단순히 0.7*100 + 0.2*200 + 0.1*400 = 150GFLOPS라는 답을 생각하기 쉽지만 그게 아니라는 뜻입니다. 그 이유는, 각 시나리오의 SSE/AVX/AVX2 반영비율은 해당 명령어 세트를 사용한 코드의 분량을 의미하는 것이기 때문입니다.

 

코드의 분량은 CPU가 처리해야 할 작업량을 의미합니다. 따라서 분량이 많을수록 CPU가 처리할 시간은 늘어나는데, 이 '처리시간' 은 CPU의 '해당 명령어에서의 성능의 역수'에 비례합니다. 따라서 위의 예처럼 산술평균 (0.7, 0.2, 0.1이라는 가중치가 반영되었기에 '가중 산술평균' 이라고 합니다) 을 구하는 것은 전혀 의미가 없고, 이 경우에는 조화평균을 구해야 합니다.

 

- 산술평균 : (a + b + c) / 3

- 조화평균 : 3 / (1/a + 1/b + 1/c)

 

이해가 되시는지요. 즉 제가 사용한 공식은 레거시 시나리오의 경우 다음과 같아집니다 : 1 / (0.7/a + 0.2/b + 0.1/c)

 

이 식을 통해 위에서 가정한 가상의 CPU의 성능을 구하면 1 / (0.7/100 + 0.2/200 + 0.1/400) = 121GFLOPS가 됩니다.

 

이 점을 숙지하고 아래의 그래프를 봅시다.

 

 

위 그래프는 멀티코어 최적화 정도가 20%인 경우의 각 시나리오별 (레거시, 현재, 미래) 성능을 나타냅니다. FX의 단일코어 SSE 성능이 뛰어났던 만큼 처음 두 그래프에서는 우수한 성적을 거두고 있으나 마지막 그래프에서는 순위가 대폭 하락했는데, 세 번째 시나리오에서 AVX/AVX2 코드의 반영비율이 대폭 상향된 결과일 것입니다.

 

 

위 그래프는 멀티코어 최적화 정도가 50%일 때의 결과입니다.

 

 

마지막으로 위 그래프는 멀티코어 최적화 정도가 80%일 때의 결과입니다.

 

지금까지 살펴본 결과를 바탕으로 뭔가 의미있는 결론을 도출할 수 있다면 여러분은 천재입니다 -_-; 사실 그래프가 너무 복잡해 의미를 알아볼 수 없을 지경이죠.

 

편의를 위해, 지금까지 살펴본 아홉 개 그래프에서 대표적인 대조군 몇 개를 뽑아 마커 (marker) 로 활용해 보았습니다. 아래의 그림을 보시죠.

 

 

보시는 것과 같이, 인텔측에서 하스웰 i7/i5/i3/펜티엄/셀러론을 하나씩 차출하고 AMD 측에서 FX-9590/8350/6350/4350을 차출해 나열해 본 그래프입니다. 오른쪽으로 갈수록 최신 명령어 세트가 많이 반영된 것이며 아래로 내려갈수록 멀티코어 최적화가 잘 이뤄진 것이죠. 1~5번 및 7번은 아무래도 현실적이지 않고, 6, 8, 9번이 경우에 따라 현실에서의 성능 서열과 비슷한 양상을 보이는 것 같습니다.

 

그동안 살펴본 GAMER'S CHOICE의 테스트 결과와는 8번 그래프가 가장 유사해 보이네요. 멀티코어 최적화 수준이 80%이고, 명령어 세트 배합은 '현재' 시나리오인 경우입니다. 이를 통해 거꾸로, 제가 그간 테스트한 게임은 대체로 멀티코어를 잘 지원하며 신/구 코드가 적절히 배합된 부류였음을 유추해 볼 수도 있겠군요.

 

일단 8번 시나리오 조합으로 구한 성능은 다음 장에서 응용하기로 하고, 지금까지 직관적이지 않은 벤치마크 그래프를 보느라 심신이 놀라셨을 테니 잠시 익숙한 것으로 눈을 달래 봅시다.

 

바로 (내장그래픽이 있는 CPU 한정) 내장 GPU의 단정밀도 (FP32) 부동소수점 성능을 나열해 본 것입니다.

 

 

그동안 브로드웰이 무섭다, 물건이다, 말만 무성했지 직접 실체를 눈으로 확인하기는 처음입니다. 하스웰 i7/i5/i3에 탑재된 HD 4600의 두 배를 훌쩍 뛰어넘는다는 점은 둘째치고, AMD의 최상위 APU 라인업인 카베리의 내장그래픽 성능마저 넘어서고 있습니다. 왠지 AMD가 우려먹기라는 비난을 감수하면서까지 '고다바리' A10-7870K를 출시해야만 했던 이유를 알 것 같군요.

 

참고로 고다바리는 (일반적으로 뉴스를 통해 알려지기로는) 카베리보다 CPU 클럭만 0.1GHz 오른 것으로 알려졌지만, 실은 GPU 클럭이 크게 올라간 버전입니다. 쓰로틀링 문제가 다소 해결된 것으로 보이며, GPU 클럭이 20%이상 오른 덕분에 가까스로 브로드웰에 전 라인업이 몰살당하는 것만큼은 피했습니다.

 

 

위 그래프는 오늘 대조군으로 활약해 준 모든 CPU를, 내장그래픽 있는 CPU는 내장 GPU 몫의 연산성능까지 합산해 '총 부동소수점 연산성능' 랭킹을 매긴 것입니다. 이론상 가능한 최대 스루풋을 위해 CPU는 AVX2 명령어 세트 하의 멀티코어 베이스클럭 성능을 기준으로 했습니다. (베이스클럭 기준인 이유는 내장 GPU가 풀로드가 걸려 있을 경우 올 코어 터보 부스트가 잘 걸리지 않기 때문입니다)

 

우선 다른 모든 것에 앞서, 내장그래픽 없이 오로지 CPU의 연산성능만으로 1위 타이틀을 지킨 제온 E5-2699 V3에게 경의를 표해야 할 것 같습니다. 그 바로 아래에는 브로드웰 i7 5775C와 i5 5675C가 각각 내장그래픽 버프로 2, 3위를 꿰차고 앉았으며, 이 둘보다 CPU 성능은 대폭 떨어지지만 GPU 성능이 조금 더 나았던 고다바리 A10-7870K가 5위를 차지했습니다. 이 그래프로 나타난 가능성의 한 단면을 현실화하는 기술이 바로 HSA인데요. 이렇게 보니 AMD가 왜 HSA의 보급에 사활을 걸고 있는지 조금은 이해가 됩니다.

 

이것으로 CPU 이론 장을 마치고, VGA 장으로 넘어갑니다.

 

 

2. VGA : Theory


현재 시장에서 유통되는 그래픽카드는 엔비디아의 경우 지포스 600 시리즈부터 900 시리즈까지로, AMD는 라데온 200 시리즈와 300 시리즈로 압축할 수 있습니다. 이들의 해상도별 성능은 아래와 같습니다.

 

 

지난 GAMER'S CHOICE (6/7월 통합본 : 링크) 까지는 위와 같은 그래프를 단순히 나열해 주는 것에 불과했지만 이번 글부터는 거기에도 메스를 댔습니다.

 

우선 지난 글까지 저의 분석방식엔 큰 한계가 있었음을 미리 인정하고 가야겠습니다. 바로 분석의 기준이 된 CPU 성능은 모두 단일한 그래픽카드 (GTX 980) 으로부터 얻어졌다는 점인데요.

 

그에 따라 980보다 아랫급의 그래픽카드에서는 상대적으로 CPU간 격차가 줄어들 여지가 있음에도 이 부분이 반영되지 않았고, 또 980보다 윗급의 그래픽카드가 연쇄적으로 출시되면서부터는 반대로 980으로 측정했을 때 성능상 포화구간에 있는 것으로 여겨지던 CPU들이 좀더 명확히 서열이 드러날 가능성이 있었지만 그 부분 역시 아직까지 제대로 테스트되지 못했습니다. 따라서 이번 글을 준비하며 저는 그래픽카드를 크게 네 부류로 나눴습니다.

 

 

타이탄 X 의 성능을 기준으로, 상대성능 80% 이상인 부류를 A그룹 / 50% 이상인 부류를 B그룹으로 묶었습니다. 이들은 각각 양사의 플래그십 GPU이냐 아니냐를 구분짓는 기준선과 일치하게 나뉘었기도 하고, 위 그래프를 보면 아시겠지만 딱 그 선을 기점으로 위/아래 성능이 확연히 달라지는 절벽 구간이기도 합니다.

 

또한 현존하는 가장 고성능의 게임 콘솔인 플레이스테이션 4를 기준으로, 그보다 윗 성능인 것들을 C 그룹으로, 그보다 못한 것들을 D 그룹으로 묶었습니다. 따라서 총 네 개의 그룹이 존재하게 되었는데, 저는 이 네 그룹 각각에 대해 CPU 게임성능을 제시하여 각 그룹(클래스)별 '추천 CPU' 의 하한선을 제시하고자 합니다. 구체적으로 해당 그룹에서 발휘되는 최고성능 CPU의 90%에 해당하는 성능까지를 추천할 것입니다.

 

우선 각 그룹에 분류되어 들어간 그래픽카드의 리스트를 간단히 정리해 보았습니다.

 

 

아래는 현존하는 그래픽카드들의 단정밀도 부동소수점 연산성능입니다. 뜬금없이 이 그래프가 왜 등장했는지 궁금하신가요? 일단 조금만 참으시고요.ㅎㅎ

 


 

앞 장에서 살펴본 CPU 내장 GPU의 연산성능 및 CPU의 '총 연산성능' 그래프와 비교해 보았습니다. 새삼 CPU만의 연산성능이란 얼마나 보잘것없는 것인지 느껴집니다.

 

 

어쨌든 저희가 해야 할 일은, 대조군으로 설정한 CPU들과 VGA들의 '종합 성능' 을 알아보는 것입니다. 그리고 그 방법론으로 마침 아주 좋은 시도를 과거 한 리뷰에서 도입했던 적이 있었습니다. 바로 지포스 GTX 980 Ti 리뷰 (링크) 당시의 '해상도별 게임 프레임레이트에의 CPU:GPU 기여율 측정' 입니다.

 

 

특정 해상도에서 GPU의 워크로드는 그 해상도의 총 픽셀수에 비례한다는 것이 이 가설의 출발점입니다.

 

 

하나의 프레임을 그리는 시간, 즉 프레임타임에 CPU와 GPU가 기여하는 정도를 각각 b와 a로 가정한다면, CPU는 해상도의 영향을 받지 않으므로 b값은 고정인 반면 a값은 해상도에 비례해 증가하게 됩니다. 프레임타임의 역수가 프레임레이트이니 결국 게임 테스트에서 실측된 프레임레이트를 뒤집으면 프레임타임을 얻을 수 있고, 이를 바탕으로 분석한 결과 아래와 같이 각 게임별 a값을 구할 수 있었습니다.

 

 

이에 따르면 모든 게임에서 GTX 980 Ti의 a 값은 평균적으로 0.6 정도가 됩니다. 다시 말해 프레임타임에 GPU가 기여하는 비율이 60%, CPU가 기여하는 비율이 그 나머지인 40% 정도라는 뜻입니다.

 

처음 이 결과값을 받아들었을때 저는 "CPU가 이렇게 많이 관여한단 말이야? GTX 980 Ti같은 고성능 그래픽카드에서도?" 라는 생각이 들었는데, 여기에도 함정이 있었습니다. 바로 조화평균의 존재를 간과한 것이죠,

 

언급했다시피 위 계산을 통해 얻은 a = 0.6, b = 0.4라는 값들은 각각 프레임타임, 즉 시간을 의미합니다. 짜여져 있는 게임 코드 중 일정 비율이 CPU에게, 또 다른 비율은 GPU에 할당되어 각각 자신의 연산성능을 동원해 처리해내는데 걸린 시간이 60:40의 비율로 나타난 것이죠. 다시 말해 '코드의 비율' 자체는 60:40이 아닙니다. CPU와 VGA의 연산 성능을 반영해야 합니다.

 

앞서 그래픽카드들을 4개 그룹으로 나누었는데, 편의상 각 그룹의 '대장'을 설정했고 각 그룹에서 가장 높은 연산성능을 보인 제품들이 그룹장이 되었습니다. 이들은 아래와 같습니다.

 

- A 그룹 : 라데온 R9 Fury X - 8.6 테라플롭스

- B 그룹 : 라데온 R9 390X - 5.9 테라플롭스

- C 그룹 : 라데온 R9 280X - 4 테라플롭스

- D 그룹 : 라데온 R7 260X - 1.9 테라플롭스

 

위 표에서 얻은 a값은 980 Ti에 적용되는 것입니다. 다행히 980 Ti와 Fury X는 거의 성능이 같으며 같은 그룹에 속해 있죠. 이때 제가 사용한 CPU는 코어 i7 5960X인데 이 녀석의 SSE;AVX;AVX2 = 50:30:20 시나리오 / 멀티코어 최적화 레벨 80% 하에서의 성능은 126 기가플롭스입니다. Fury X는 위에 언급했듯 8600 기가플롭스입니다.

 

- GPU : 프레임타임 60% * 8600 기가플롭스 = 약 50000 단위

- CPU : 프레임타임 40% * 126 기가플롭스 = 약 500 단위

 

위와 같은 과정을 통해, 게임 내 코드 비중은 CPU 의존적인 코드가 1%, GPU 의존적인 코드가 99% 정도임을 확인했습니다. 이제 남은 것은 다시 한번 가중조화평균 식을 돌리는 것입니다. 이번에는 CPU:GPU 가중치가 각각 1:100으로 적용되는데 이는 FHD의 경우이고, QHD와 UHD는 각각 1:200 / 1:400으로 GPU쪽이 픽셀수에 비례해 늘어나는 구조입니다.

 

 

3. Best Gaming CPUs


앞 장에서 구축한 모델을 통해 계산한 결과입니다.

 

 

위 그래프는 A 그룹 그래픽카드와 조합되었을 때 각 CPU별 게임성능을 나타냅니다. 최고 성능의 90%까지 해당되는 CPU들을 유색으로 표시했는데 고성능의 그래픽카드이다 보니 그 기준을 채우지 못한 CPU (소위 "발목잡는" CPU) 도 상당히 많습니다. 재미있는 것은 우리가 알아 온 상식과 정확히 일치하게끔, 해상도가 오를수록 CPU에 의한 영향이 감소하고 있다는 점입니다.

 

이 그룹에서의 결과를 대략 요약하자면 Fury X / 980 Ti / TITAN X급의 그래픽카드를 원활히 사용하기 위해서는 UHD의 경우 FX 6300이나 i3 4360 이상을, QHD의 경우 FX 8350이나 i5 4430 이상을, FHD의 경우 FX 9370이나 i5 4590 이상을 써야 한다는 것입니다. 대체로 그간 GAMER'S CHOICE 에서도 i5 이상급을 최상급 게임 CPU로 간주했으니 그와 일치하는 결과입니다.

 

 

위 그래프는 B 그룹과 조합해 테스트한 결과입니다. '발목 잡는' CPU의 하한선이 상당히 밑으로 내려왔죠.

 

 

위 그래프는 C 그룹과 조합한 결과입니다. CPU 하한선은 더욱더 내려왔습니다.

 

 

마지막으로 D 그룹과의 조합입니다. 여기서는 QHD 이상만 가더라도 사실상 CPU에 의한 제약을 거의 받지 않는 수준입니다.

 

지금까지 살펴본 결과를 깔끔하게 표로 정리해 봅시다. 해상도별로 묶어 본 결과입니다.

 

 

위 표는 FHD 해상도에서의 각 그룹별 추천 CPU입니다.

 

 

위 표는 QHD 해상도에서의 각 그룹별 추천 CPU입니다. 파란색으로 표시된 것은 이전 표에서는 해당 그룹에 이름을 올리지 못했다가 신규 추가된 것입니다.

 

 

마지막으로, 위 표는 UHD 해상도에서의 각 그룹별 추천 CPU입니다. 파란색 표기가 의미하는 것은 앞의 표와 같습니다.

 

이상으로 성능분석을 모두 마치고, 시장 동향 분석으로 넘어가도록 하겠습니다.

 

 

4. Market Analysis


제가 GAMER'S CHOICE를 쓰지 못한 지난 두달간의 시장 동향은 아래와 같습니다


 

우선 i5 4690이 1위를 차지하고 있다는 점에는 변화가 없으나, 두달간의 집계 충 9위에 스카이레이크가 끼어 있다는 점이 흥미를 끌었습니다. 아시다시피 스카이레이크는 8월 초순 출시되었고 (정확히는 페이퍼 런칭과 함께 엠바고가 그때 풀렸고) 시중에 물건이 풀린 것은 그 뒤였습니다. 그럼에도 두달치 순위 안에 들었다는 것은 상당히 빠른 속도로 팔려나가고 있다는 뜻이겠죠. 약간의 수고를 더해 8월 한달간만의 집계를 별도로 해 보니 과연 무서운 속도로 점유율을 늘리고 있는 것을 확인할 수 있었습니다.

 

 

브랜드별 점유율을 살펴보면 코어 i5가 전체의 절반을 넘었고, 그 다음을 펜티엄/i3/i7의 순으로 따르는 모습입니다. AMD는 FX와 APU를 모두 합쳐도 6%에 불과합니다.

 

이제 VGA 시장으로 눈을 돌려 봅시다.

 

 

지난 두달간 가장 많이 팔린 VGA는 HV가 제조한 GTX 750 보드입니다. 전반적으로 750과 960이 시장을 휩쓸고 있다는 점은 변함이 없지만, 그래도 상위 10개 모델의 점유율이 전체의 53%로 두달 전 집계와 비교해 많이 줄었습니다. 상대적으로 시장이 다변화되었다는 의미이겠는데요. 그렇더라도 수백여 종이 난립한 그래픽카드 시장에서 단일 모델이 10% 이상의 점유율을 기록하는 것은 결코 쉽지 않은 일이기에 대단한 기록입니다.

 


위 그래프는 전체 판매량을 각각 기판 제조사별, GPU별, 세그먼트별로 나눠 본 것입니다. XENON과 HV가 나란히 국내 점유율 1, 2위를 차지하고 있으며 그 뒤를 ZOTAC이 이었습니다. 칩셋별로는 상위 10개 중 7개를 엔비디아가 차지하고 AMD가 3개를 리스트에 올렸지만, 점유율은 결코 7:3이 아니어서 AMD를 모두 합쳐도 7%를 간신히 넘기는 수준입니다.

 

세그먼트별로 보자면 제가 C 그룹으로 분류했던 미들레인지가 37%, 콘솔 이하의 D그룹이 그와 맞먹는 36%를 차지해 의외로 시장의 '아랫부분'에 사용자들이 많이 모여있음을 확인할 수 있었습니다. 내장그래픽보다 못하다는 의미로 F라는 문자로 분류한 로우엔드급 그래픽카드도 전체의 11%나 차지해, 미들레인지 이하의 점유율 총합이 80%를 훌쩍 넘고 있습니다. 생각한것 보다도 사용자들이 실제 구매하는 그래픽카드 중 퍼포먼스급 이상의 비중은 적었습니다.

 

 

6. Gamer's Choice


지금까지 도출한 & 살펴본 결과를 정리해 봅시다. 우선 지난 반년간 '사용자의 선택을 교정하겠다' 는 목표로 마지막 장을 채워 왔지만 사용자들의 구매패턴에 실제로 영향을 주기에는 관성이 너무나 강했습니다.

 

이번 달만 하더라도 미들레인지 이하의 그래픽카드 점유율이 전체의 80%를 넘는 반면, CPU 분야에서는 중상위급 이상인 (게임성능 한정으로 최상위급으로 봐도 될) 코어 i5의 점유율이 단일 브랜드만으로 51%를 기록했기 때문에 비둘기집의 원리에 의해 적어도 30% 이상의 사용자들은 i5급 CPU와 저가형 그래픽카드의 조합을 사용하고 있는 셈입니다. 그동안은 이러한 구매행태를 매우 비효율적인 것으로 진단하고 이를 '수정' 해 제안해 왔지만 몇달간 생각해 보니 그것 역시 의미있는 구매행태라는 생각이 들었습니다.

 

많은 경우, CPU의 업그레이드는 메인보드나 메모리의 동반교체로 이어집니다. 인텔만 하더라도 거의 매 해 플랫폼을 통째로 갈아치우고 있으며 최근 들어서는 AMD의 소켓도 자주 바뀌었습니다. 반면 그래픽카드를 꼽는 PCI-Express 인터페이스는 지난 십여년간 거의 변화가 없었고 하위호환성이 유지되었습니다. 간단히 말해 CPU의 교체가 VGA의 교체보다 훨씬 어렵습니다. 바꿔 말하자면 업그레이트 탄력성이 떨어집니다.

 

그런 이유로, 지금 당장 보기에 비록 VGA보다 지나치게 좋은 CPU를 사는 경우라도 미래의 업그레이드 패턴을 생각하면 (예 : CPU는 바꾸지 않고 VGA만 2~3차례 더 바꾸는 경우) 그건 그것대로 합리적인 길이라는 생각을 하게 되었습니다. 따라서 이번 글부터는 구체적인 금액에 맞춘 수정견적 제안보다는, 앞서 살펴본 해상도별 x VGA 클래스별 추천 CPU 리스트를 바탕으로 좀더 자유로운 조합 제안을 늘어놓아 보려 합니다.

 

 

A그룹 추천 가성비 조합 : 인텔 코어 i3 4170 + 라데온 R9 Fury

 

우선 A 그룹 그래픽카드와 조합할 수 있었던 (그 그래픽카드로 현존하는 CPU에서 뽑아낼 수 있는 최대성능의 90% 이상을 발휘할 수 있는) CPU의 하한은 대략 FX 6~8코어, 인텔 코어 i3~i5 근방이었습니다. UHD 급의 고해상도에서 게임을 즐길 경우 CPU의 영향력이 줄어들기에 FX 6코어나 코어 i3 계열의 CPU를 사용하는 것도 괜찮은 선택이지만, 이정도급의 시스템을 구축할 사람들에게 CPU란 '다른 부품의 성능을 끌어내기 위한 최소한' 에 그치지 않을 것입니다. 결국 FX-9000 이상, 혹은 코어 i5 이상을 구매하게 되리라 보아야겠죠.

 

그래도 그 중 가장 경제적인 조합을 꼽아 보자면 그래픽카드 측면에서는 R9 Fury (non-X) 와 코어 i3 정도의 조합이 가장 가성비가 좋지 않을까 싶습니다. 1000달러가 넘는 TITAN X는 물론이고 980 Ti, R9 Fury X, R9 Nano 등 이 그룹에 속한 다른 모든 그래픽카드의 가격이 650달러로 통일되어 있기 때문에 R9 Fury의 '저렴한' 가격은 더욱 두드러지는 상황입니다.

 

 

B그룹 추천 가성비 조합 : 인텔 코어 i5 4460 + 지포스 GTX 970 또는 라데온 R9 290

 

B그룹 그래픽카드는 지포스 GTX 980/970, 라데온 R9 290/290X/390/390X로 대진표가 짜여져 있습니다. 본질적으로 비슷비슷한 칩들인 만큼 저렴한 하위 모델을 사서 적당히 오버클럭하거나 or 팩토리 오버클럭된 기본 성능을 즐기는 게 가장 경제적인 선택일 것이고 그렇다면 그래픽카드는 R9 290 또는 GTX 970으로 좁혀집니다. 둘 중에서는 R9 290이 조금 더 저렴하지만 GTX 970은 상대적으로 다양한 팩토리 오버클럭 옵션이 적용되어 있고 따라서 순정 그대로 비교할 경우 성능이 더 좋고 소비전력은 더 적습니다.

 

CPU로 i5 4460을 추천한 것을 의외로 여길 수 있을 것 같습니다. 앞서 A그룹에 추천한 것보다 더 높은 CPU이기 때문인데요, 이는 앞선 추천이 A그룹 그래픽카드를 UHD 해상도에서 구동할 것을 가정한 반면 이번 추천에서는 QHD 해상도 성능을 중시했기 때문입니다. (GTX 970급 그래픽카드로 UHD 게이밍을 즐길 사용자는 그리 많지 않을 것 같습니다) 해상도가 낮아질수록 CPU의 영향력은 상대적으로 커지는데, i5 4460은 비단 GTX 970 / R9 290뿐 아니라 그보다 좀더 윗급인 980 / 390X까지도 잘 지원해줄 충분히 좋은 CPU입니다.

 

 

C그룹 추천 가성비 조합 : AMD FX-8350 + 지포스 GTX 960 또는 라데온 R9 380

 

C그룹은 사실 꽤 넓은 성능 스펙트럼이 한데 묶여 있는데다가 한 마디로 타겟을 정의하기 모호합니다. 굳이 말하자면 FHD와 QHD를 겨냥한 제품이 혼재되어 있다 정도랄까요. 따라서 조합을 구성함에 있어 (FHD 구성을 염두에 두고) 높은 CPU 의존성 하에서도 괜찮은 성능을 발휘할 수 있는 CPU를 찾는 동시에, 그래픽카드 자체는 어느 정도 QHD까지 커버할 수 있는 제품을 찾는데 중점을 두었습니다. 그 결과가 위의 추천 조합입니다.

 

현재 지포스 GTX 960, 라데온 R9 380 모두 20만원 중반대에 소비자가가 형성되어 기본적으로 같은 시장에서 경쟁하는 제품인데다 성능도 비슷합니다. 굳이 따지면 380이 약간 앞서지만 960의 오버클럭 여력이 좋고, 그러면서도 고해상도로 갈수록 380에 점차 유리해지는 측면이 있기에 어느 하나를 명확히 추천하기보다는 예비 구매자의 재량에 맡겨 두려 합니다. 한편 FX-8350은 그 가격대에서 찾을 수 있는 다른 대안이 없을 만큼 괜찮은 가성비를 가진 CPU입니다. 게임성능이 이 CPU의 가장 약한 부분일 만큼, 게임 이외의 분야에서 멀티코어 성능에 힘입은 활용도가 많다는 점도 추천 조합에 이름을 올리게 된 이유입니다.

 

이상으로 글을 마칩니다. 긴 글 읽어주셔서 감사하고, 무엇보다 오래 이 글을 기다려 주셨을 독자분들께 진심으로 감사드립니다.

 

//