본문 바로가기

Benchmark/cpu_bench

The IYD Report : Processor - Oct & Nov 2015

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

 

안녕하세요 독자 여러분. 공군 IT정보 게시판에서 어렵게 찾아오신 국군 장병 독자 여러분도 안녕하신지요. 지지난달을 마지막으로 연재 종료된 GAMER'S CHOICE (링크) 의 후속으로 머리끝부터 발끝까지 모습을 싹 바꾼 IYD 리포트 그래픽카드 편 (링크) 을 선보인지 어언 2주가 지나가고 있습니다.

 

새로운 IYD 리포트는 GAMER'S CHOICE보다 더 넓은 주제를 다룰 것이고, 다루는 주제가 같다면 더욱 깊게 다룰 것이라는 편집방향에 대해서는 그간 반복적으로 강조해온 바 있습니다. 그래픽카드 리포트는 그동안 제가 다뤄온 주제의 절반 가량에 불과하기에 다른 분야의 리포트가 새로 쓰여지리란 점은 독자 여러분 모두가 짐작하셨으리라 생각합니다. 오늘 여기서 여러분께 보여 드릴 글이 바로 두번째 IYD 리포트, <IYD 리포트 : 프로세서편> 입니다.

 

마지막 GAMER'S CHOICE에서 저는 각각의 CPU에 대해 '인위적으로 만들어진 시나리오' 하에서 테스트하기를 포기했습니다. 특정한 벤치마크 툴이 어느 한 진영에 우호적인 결과를 보여주는 경우, 그것 하나의 결과만으로 성능평가를 대신할 수 없음은 물론 그러한 부류들만 모아서도 성능평가를 할 수 없을 것이고, 심지어 그와 반대 진영에 우호적인 다른 벤치마크 툴을 기계적으로 수적 균형을 맞춰 대입한다 한들 성능평가의 본질에서는 멀어지는 결과를 낳기 때문입니다. 그보다는 차라리 CPU의 성능을 구성하는 기본 단위 - 순수한 부동소수점 성능, 순수한 정수 성능 - 를 정밀하게 계측한 뒤 이들을 어떤 배합으로 섞는지에 따라 최종 성능이 어떻게 변화하는지를 보여주는 편이 더 깊은 인사이트를 제공하는 편이라고 생각했습니다. 결과적으로는 '인위적으로 만들어진 시나리오'를 또 하나 만드는 셈이 되겠지만 그 과정을 통해 성능이라는 것에 대한 보다 근원적인 고찰이 가능해진다는 점에서 기존의 방식과는 전혀 다른 접근인 것입니다.

 

IYD 프로세서 리포트에서는 이러한 취지를 계승하여 다른 어디에서도 찾아볼 수 없는 접근법을 고수하는 한편, '기본 성능'을 배합하는 시나리오를 끊임없이 개량해 그 자체로 오늘날 CPU의 게이밍 성능을 정확히 대변하는 지표가 될 수 있도록 매달 개선하고자 합니다. '이런 색다른 시도도 있구나' 하는 느낌으로 재미있게 읽히는 글이 되면 더할 나위 없이 좋겠습니다. 독자 여러분의 피드백을 기다립니다.

 

<목차>

 

1. 대조군 및 테스트 시나리오 소개

2. 프로세서 최대 연산성능 분석

3. 하이엔드 프로세서 게임성능 분석

4. 퍼포먼스급 프로세서 게임성능 분석

5. 메인스트림 프로세서 게임성능 분석

6. i7 5930K VS i7 5820K : PCI-Express 라인 구성과 게임성능 분석

7. 결론

 

 

1. 대조군 및 테스트 시나리오 소개


이 리포트에서는 서버용 제온부터 메인스트림 셀러론에 이르기까지 단종되지 않고 시장에서 구할 수 있는 모든 CPU를 다룹니다. 대조군 목록은 아래와 같습니다.

 

 

한편, 각각의 CPU는 세그먼트별로 분류되며 각기 '비고'란에 명시된 그래픽카드 그룹과 조합한 성능을 이 글에서 소개하게 됩니다. 참고로 그래픽카드 그루핑은 아래와 같이 되어 있습니다. (이에 관해서는 The IYD Report : Graphics Card - Oct & Nov 2015 편 참조)

 

 

각각의 그래픽카드 그룹은 (정확히는, 각 그룹을 대표하는 그래픽카드는) 아래의 해상도에서 테스트되었습니다.

 

 

시나리오를 구성하며, 가능한 한 넓은 커버리지를 갖되 '의미 없는' 결과를 최대한 배제해 글의 분량을 '읽음직한' 수준으로 만드는 것이 저의 최우선 관심사였습니다. 이를 위해 펜티엄 등 메인스트림급 CPU에서도 GTX 980 등 비교적 고성능 그래픽카드를 조합한 성능을 소개하는 한편, i7 익스트림 에디션과 GTX 750 Ti를 조합하는 등 현실성이 떨어지는 조합의 경우 수록에서 배제했습니다.

 

관점에 따라 고성능 CPU와 저성능 그래픽카드의 조합이 그 반대보다는 더 설득력 있다고 여길 분이 계실지 모르겠지만, 일단 글쓴이의 시각에서는 그렇지 않다고 보았고, 이 글에서 다루지 않는 '비현실적인' 조합의 경우 상식적인 선에서 "우선순위를 재조정하면 되겠구나" 정도로 생각해 주시면 되겠습니다. 예컨대 i7 익스트림 에디션과 그룹C 그래픽카드가 조합되지 않았다는 것은 양쪽의 격차를 줄이는 방향으로 수정되는 것이 옳다는 저의 무언의 권고입니다.

 

 

2. 프로세서 최대 연산성능 분석


이 장에서 다룰 내용은 각 프로세서의 이론적인 최대 성능 (peak performance) 입니다. 반복되는 연산 작업의 특성상 프로세서의 성능수치는 frontend-bounded보다는 backend-bounded가 될 가능성이 높으며, 분기예측 및 그에 따른 패널티 (=파이프라인 깊이) 역시 거의 고려되지 않습니다. 한 마디로 요약하자면 통상적으로 우리가 받아들이는 "성능" 과는 차이가 있음을 미리 숙지하고 결과를 봐 주시기 바랍니다.

 

우선 하이엔드 및 서버 프로세서의 분야별 최대 연산성능입니다. 분야는 부동소수점 / 정수 / 무작위 경합(부동소수점 스칼라+부동소수점 벡터+정수 스칼라+정수 벡터+메모리 접근 등)의 3가지입니다.

 

 

그런데 앞의 경고(?)가 무색하리만치, 이미 부동소수점 연산성능은 우리가 일반적으로 'CPU 성능'이라 알아왔던 것과 크게 다르지 않은 결과를 보여주고 있습니다. 거꾸로 해석하면 오늘날 대부분의 PC 워크로드 포트폴리오를 구성하는 것이 부동소수점 연산이라고 볼 수도 있을 것입니다. 반면 정수 연산성능 그래프나 무작위 경합의 경우는 우리가 알아온 것과 매우 다른 양상을 보여줍니다.

 

일반적인 PC에서의 워크로드가 멀티미디어/게임 분야에 집중된다고 가정하고, 서버의 워크로드가 PC보다는 정수연산의 비중이 높다고 가정하면 위의 그래프는 PC용 CPU로써 성능이 좋은 것과 서버용 CPU로써 성능이 좋은 것의 기준이 완전히 다를 수 있음을 시사합니다. 실제로 부동소수점 연산성능만을 기준으로 보면 옵테론 6386은 코어 i7보다 떨어지는 수치를 기록했지만 정수 연산성능은 웬만한 제온과도 겨룰 만한 정도입니다. 아주 단편적인 분석이지만 바로 이 점이 여전히 서버 시장에서 옵테론 기반 서버의 수요가 있는 이유가 아닐까 싶습니다.

 

아래는 퍼포먼스급 CPU의 최대 연산성능 분석입니다. 인텔 코어 i3/i5, AMD FX 8코어/6코어 프로세서가 여기에 해당합니다.

 

 

여기에서도, 부동소수점 연산성능 그래프는 일반적으로 인식된 CPU 서열을 거의 정확히 반영하고 있습니다. 반면 정수 및 무작위 연산의 경우 크게 다른 순위를 보여주고 있는데, 정수코어 갯수가 많은 FX 시리즈의 상대적인 성능이 크게 오른 것이 특징입니다. 불도저 아키텍처는 하나의 모듈 내에 2개의 정수코어가 탑재되며 각각의 정수코어 내에는 정수연산 유닛과 메모리접근 유닛이 1:1로 별개의 포트로 배분되어 있어, 정수와 메모리 성능이 상호 간섭하지 않으며 이는 하스웰 아키텍처와 크게 다른 점 중 하나입니다. (하스웰은 정수와 부동소수점 연산이 같은 포트에 연결되어 서로 경합하는 구조이며, 한 코어 내의 메모리 접근 포트의 갯수도 불도저 1모듈보다 적습니다)

 

그만큼 오늘날의 워크로드가 부동소수점 성능에 일방적으로 편향되었다고 볼 수도, 한편으로는 AMD가 프로세서를 설계하며 내부 유닛을 어떻게 배분할지 수요 예측을 완전히 잘못했다는 평가도 가능하겠습니다.

 

다음은 메인스트림 CPU의 최대 연산성능 분석입니다.

 

 

여기에서도 먼저 본 두 장의 그래프와 비슷한 양상을 보여주고 있습니다. 부동소수점 연산성능 그래프를 보면 이게 말이 좋아 하나의 "메인스트림급" 으로 묶인 것이지 사실 인텔과 AMD가 거의 물과 기름처럼 따로 놀고 있는 모습이 관찰됩니다. 그만큼 AMD의 "2모듈" CPU들이 (냉정하게 말해) 경쟁력이 떨어진다는 것이지만, 다행히 정수 및 무작위 연산의 경우 양호한 성능을 보여주고 있기도 합니다.

 

이 장의 결론을 요약하면 다음과 같겠습니다.

 

"오늘날의 PC 워크로드는 부동소수점 연산에 엄청나게 편중되어 있다. 단 이러한 수요를 미리 예측하고 그에 대응하는 프로세서를 설계하는 것도 제조사의 능력이다."

 

 

3. 하이엔드 프로세서 게임성능 분석


앞 장에서 살펴본 CPU의 세가지 연산성능 중 부동소수점 연산은 각 CPU가 지원하는 최신의 명령어 세트에 코드가 100% 최적화되었다는 사실을 전제로 합니다. 이론적으로 SSE에 비해 AVX는 두 배의 스루풋을 가지며, AVX2는 다시 그보다 두 배의(SSE의 네 배), AVX-512는 재차 두 배(SSE의 여덟 배)의 스루풋을 갖게 되지만 모든 시점에 최신 명령어 세트에 대한 최적화가 100%라고 볼 수는 없습니다. 즉 오늘날에도 상당수의 어플리케이션은 AVX나 SSE에 머물러 있을 수 있다는 것이죠.

 

이 장에서는, 지지난달 GAMER'S CHOICE (링크) 에서 접근했던 방법론을 그대로 취해 CPU의 "게임 성능"을 유추하고자 합니다. 접근법을 한 장의 그림으로 요약하면 아래와 같습니다.

 

(출처 : GAMER'S CHOICE : Aug & Sep 2015)

 

- 테스트 코드 내 명령어 세트별 최적화 비율을 3단계로 구분하고 (단계가 높아질수록 최신의 명령어 세트에 최적화된 것)

- 테스트 코드 내 멀티코어 최적화 비율을 3단계로 구분하여 (단계가 높아질수록 멀티코어에 잘 최적화된 것)

- 각각의 조합에 따른 시뮬레이션 결과를 얻고 그 중 현실에서의 성능 서열과 일치하는 것을 찾는다

 

이에 따르면, 지난달의 경우 6, 8, 9번 그래프가 현실과의 '싱크로율'이 높은 것으로 나타났으며 당시에는 8번 시나리오를 채택했는데, 이번 달은 9번을 바탕으로 분석해 보겠습니다.

 

구체적으로, SSE:AVX:AVX2의 비율이 20:30:50이고 멀티코어 최적화 비율인 80%인 시나리오입니다.

 

 

일단 이 그룹 내에서 가장 하위권인 CPU (FX-9370) 조차 가장 저해상도인 경우에도 가장 좋은 조합 (i7 5960X과 조합된 경우 = 100%) 의 80%를 넘는 상대성능을 보이고 있습니다. 또한 해상도가 높아질수록 CPU 성능에 대한 의존도가 낮아지는 특성상 상하위권 사이의 격차는 더욱 좁아지는 모습입니다. 단적으로 얘기하자면, 이 글에서 하이엔드 CPU로 분류된 어떤 CPU를 사용하든 GTX TITAN X급의 그래픽카드를 사용하는 데 무리가 없습니다. 특히 GTX TITAN X, GTX 980급의 그래픽카드를 사용하는 유저가 FHD 디스플레이에 국한되어 있을 가능성은 거의 없을 것이기에 실질적으로 그러한 환경에서 CPU에 의한 병목현상은 거의 실체가 없다고 봐도 될 정도입니다.

 

 

4. 퍼포먼스급 프로세서 게임성능 분석


이 장에서는 퍼포먼스급 CPU의 게임성능을 살펴보도록 하겠습니다. 각각 A그룹, B그룹 및 C그룹을 대표하는 그래픽카드로 GTX TITAN X, GTX 980, GTX 960이 대상입니다.

 

 

우선 GTX TITAN X의 경우 퍼포먼스급에서 처음으로 상대성능 80%p 미만인 CPU를 적발하는 성과를 올렸습니다. FHD 해상도에서 FX 6코어 CPU를 사용하는 경우가 그러한 예로, 그러나 해상도를 QHD 이상으로 올리면 이들 역시 80%p 선을 넘어 실질적으로 큰 패널티가 없는 수준입니다.

 

GTX 980 및 960은 퍼포먼스급으로 분류된 어떤 CPU에서도, 어떤 해상도에서도 80%p (각각의 그래픽카드가 i7 5960X와 조합된 것이 100%p) 밑으로 성능이 떨어지지 않았습니다. 즉 GTX 980이나 960을 사용할 것을 염두에 두고 CPU를 고르고 있었다면, 앞서 살펴본 하이엔드급을 포함해 퍼포먼스급 이상에서 어떤 것을 골라도 괜찮습니다.

 

 

5. 메인스트림 프로세서 게임성능 분석


이 장에서는 메인스트림 CPU의 게임성능을 살펴보도록 하겠습니다. 인텔 펜티엄/셀러론, AMD FX 4코어 및 APU들이 비교 대상입니다.

 

 

여기에서는 비교적 많은 수의 '부적격' CPU들이 적발되었습니다. 우선 GTX 980을 FHD에서 사용하는 경우에는 인텔 셀러론 전원 / AMD 전원-_-이 적합하지 않은 것으로 드러났습니다. 해상도를 QHD로 높이면 APU 하위 네 개를 제외한 모두가 적격이 되었고, UHD에서는 모든 CPU가 적격으로 나타났지만 어쨌든 이정도의 고성능 VGA를 사용하기 위해 인텔 펜티엄을 마지노선으로 제시하는 것에 반대하실 분은 없으리라고 봅니다.

 

GTX 960을 사용하는 경우에는 앞의 경우보다는 다소 완화되었지만, 여전히 많은 수의 부적격 CPU가 있습니다. 여기에서는 HD+ 해상도를 기준으로 인텔 셀러론과 AMD의 4코어 FX, A10-6800K가 구제되었으며 FHD로 높여 보면 APU 하위 네 개를 제외한 모두가 적격입니다. 오늘날 HD+ 디스플레이를 사용하는 유저는 그리 많지 않을 것으로 보이고, GTX 960 자체가 FHD를 겨냥한 그래픽카드인 만큼 GTX 960을 사려고 한다면 사실상 어떤 CPU를 구입하든 큰 문제를 겪지는 않을 것 같습니다.

 

마지막으로 GTX 750 Ti의 경우입니다. 위 그래프에 제시된 해상도는 HD / HD+ / FHD의 세 가지이지만 오늘날 HD나 HD+를 사용하는 경우는 그리 많지 않을 것입니다. FHD만 놓고 보면 APU 중 최하위 모델인 A4-4000을 제외한 나머지 모두가 80%p 능선을 넘어 '사용 적합' 판정을 받았습니다. 즉 이 정도 레벨의 그래픽카드는 딱히 CPU에 구애받지 않는다는 의미 되겠습니다.

 

 

6. i7 5930K VS i7 5820K : PCI-Express 라인 구성과 게임성능 분석


여기까지 글을 읽으면서 무언가 해결되지 않은 궁금증이 남아 있지는 않으셨는지요. 혹은 '지난달이랑 다를 게 없잖아' 라고 느낀 분은 안 계십니까. 이 장은 바로 그런 분들을 위한 내용을 다룹니다. 바로 멀티 VGA 구성시의 성능인데요.

 

자세히 살펴보면 플랫폼별로(X99 vs Z97 등), 같은 플랫폼 내에서도 CPU별로(i7 5960X/5930K vs i7 5820K) 지원하는 PCI-Express 라인 배분 방식이 다른 관계로 어떻게든 게임성능에 영향을 줄 수밖에 없습니다. 이 장에서는 그러한 부분을 낱낱이 다뤄 여러분이 다른 어디서도 볼 수 없었던 정보를 귀띔해 드리도록 하겠습니다. 거두절미하고, 그래프를 보시죠.

 

 

우선 3장에서 "GTX TITAN X를 쓰기에도 부족하지 않다" 는 평을 들었던 FX-9590/9370이 여기에서 제대로 한계를 노출하고 있습니다. 우선 FHD/QHD에서 FX-9590으로 GTX TITAN X 트리플 이상 SLI를 구성하면 다른 대조군으로 듀얼 SLI를 구성한 것보다도 성능이 떨어집니다. UHD에서는 다소 상황이 개선되어 트리플 SLI 구성시 가장 빠른 듀얼 SLI를 넘어서기는 했지만, 쿼드 SLI로 넘어가면 재차 가장 빠른 트리플 SLI보다 낮은 성능을 보이고 있습니다. 한 문장으로 요약하자면 "FX로는 2-way SLI가 제 성능을 뽑을 수 있는 한계입니다."

 

FX를 제외하고 보면 나머지의 성능은 고만고만해 보이지만, 사실 여기에서도 크게 두 그룹으로 분할이 가능합니다. i7 5960X/5930K와 i7 5820K/4790K가 각각 별개의 그룹을 형성하는 모양이죠. FX와 나머지만큼 큰 차이는 아니지만, 분명 PCI-Express 라인 갯수에 따른 성능 차이는 있습니다. 특히 트리플이나 쿼드 SLI에서 i7 5960X와 5930K는 거의 성능차이가 없기 때문에, 고성능 게이밍을 목표로 하는 사용자라면 i7 5960X까지 살 필요는 없을지 몰라도 i7 5930K까지는 투자해볼만한 가치가 분명히 있다고 하겠습니다. 물론 돈이 많다면 i7 5960X를 사도 좋겠지만, 많은 경우에 그보다 i7 5930K + 그래픽카드를 한장 더 끼우는 조합이 우수할 것입니다.

 

 

7. 결론


지금까지 살펴본 결과를 요약해 봅시다.

 

2장에서는 개별 명령어 종류에 따른 프로세서별 성능을 알아 보았으며, 그 결과 명령어의 종류에 따라 (부동소수점, 정수 등) 프로세서의 성능이 판이하게 달라진다는 점을 확인했습니다. 심지어 어떤 프로세서는 부동소수점 연산성능이 매우 낮은 반면 정수 연산성능은 상위권에 랭크되기도 했고, 그 반대도 있어 CPU의 성능이라는 "현상"을 정의내리는 것이 얼마나 어려운 일인지 보여 드리고자 했습니다. 다만 우리가 현실에서 보아 온 CPU의 성능 서열은 부동소수점 연산성능과 놀라울 정도로 싱크로가 높았기에, 오늘날의 PC 워크로드 포트폴리오의 상당 부분이 부동소수점 연산성능에 의존하고 있음을 확인한 것 또한 우리가 얻은 소득입니다.

 

3장부터 5장까지는 부동소수점 연산 성능을 각 명령어 세트별로 (SSE, AVX, AVX2) / 멀티코어 최적화 정도별로 시나리오화해 그 중 가장 실제 게임성능 서열과 일치도가 높은 것을 골랐습니다. 그 결과 채택된 시나리오를 바탕으로, CPU의 체급에 따라 각기 다른 다양한 체급의 그래픽카드와 다양한 해상도에서의 시뮬레이션을 통해 어떤 CPU가 어느 체급의 그래픽카드와 조합되는 것이 적합한지 검증해 보았습니다. 여기서 얻은 결론을 요약하면 아래와 같겠습니다.

 

- GTX TITAN X급의 그래픽카드 : 인텔 코어 i7/i5/i3 전부, AMD FX 8코어 전부 적합

- GTX 980급의 그래픽카드 : (위에 더해) 인텔 펜티엄 전부, AMD FX 6코어 전부 적합

- GTX 960급의 그래픽카드 : (위어 더해) 인텔 셀러론 전부, AMD FX 4코어/A10/A8 APU 전부 적합

- GTX 750 Ti급의 그래픽카드 : 모두 적합

 

그러나 위의 적합도는 단일 그래픽카드일 때만을 대상으로 한 것이고, 그래픽카드 갯수가 2개 이상으로 늘어날 경우 CPU 차원에서의 추가적인 병목현상이 있을 수 있으며 특히 인텔의 경우 플랫폼의 체급별로 지원하는 PCI-Express 라인 갯수가 달라 멀티 VGA 구성시 PCI-Express 대역폭을 제한적으로 사용하게 되는 경우가 있습니다. 이에 대해서 6장에서 분석을 수행했으며, 그 결과는 아래와 같습니다.

 

- AMD FX로는 트리플 이상 멀티 VGA 구성을 권장하지 않음. 최대 듀얼 VGA 구성이 큰 성능저하 없이 쓸 수 있는 한계

- i7 5820K는 트리플 이상 멀티 VGA 구성에서 i7 5960X/5930K와 분명히 성능 차이가 드러남

- 게임용 PC 구성시 멀티 VGA를 염두에 두었다면 i7 5930K까지는 투자할 가치가 분명 있음. i7 5960X를 구입할 여력이 있더라도 i7 5930K + 그래픽카드를 한장 더 추가하는 구성이 좋을 정도

 

이상으로 어느 때보다 머리를 쥐어짜야 했던 IYD 리포트 : 프로세서편을 마칩니다. 긴 글 읽어주셔서 감사합니다.

 

 

 

'Benchmark > cpu_bench' 카테고리의 다른 글

The IYD Report : PC Build Guide - Nov 2015  (35) 2015.11.30
GAMER'S CHOICE : May 2015  (58) 2015.05.20
GAMER'S CHOICE : April 2015  (12) 2015.04.21
GAMER'S CHOICE : March 2015  (9) 2015.03.19
GAMER'S CHOICE : Feb 2015  (27) 2015.02.11