Author : Daeguen Lee
(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)
GTX 960 리뷰를 공개하며 VGA 계산기가 리뉴얼된 경위를 간단히 소개한 바 있다. (아래 링크 참조) 이 글에서는 외전격으로 거기 얽힌 비하인드 스토리 하나를 적어 보려 한다.
- 맥스웰의 모든 것 1 : 이론편 : http://iyd.kr/708
VGA 계산기를 리뉴얼하며 가장 골치아팠던 부분이 각 요소간의 밸런스를 찾는 일이었다. 막판에 가서는 TMU와 ROP, 메모리 대역폭의 상대적인 비중을 어떻게 할 것인가- 로 압축되었는데, 이때 가장 신경쓴 것이 아래 네 쌍의 성능관계 시뮬레이션이었다. 이들은 각기 엇비슷한 성능을 갖는 가운데 미세한 차이로 앞서거나 뒤서거나 한다.
1. GTX 570과 GTX 650 Ti Boost (>)
2. GTX 580과 GTX 660 (>)
3. GTX 650 Ti와 GTX 750 (<)
4. GTX 780 Ti와 GTX 970 (>)
헌데 아무리 조절해도 이 넷을 동시에 만족시키기 어려웠다. 특히 3번과 4번의 경우가 그러했는데, 그도 그럴 것이 이 둘은 모두 전형적인 '케플러 대 맥스웰' 비교로 케플러와 맥스웰의 특성이 양쪽 모두에 적용되어야 하나 그로부터 이끌어내야 하는 결론은 3번은 GTX 650 Ti < GTX 750, 4번은 반대로 GTX 780 Ti > GTX 970이었기 때문. 같은 논리를 사용해 반대의 결론을 이끌어내야 하는 모순 때문에 꽤 오랜 시간 (전체 작업시간에 대한 비율로 생각했을 떄 거의 절반 이상을!) 머리를 싸매고 있어야 했다.
여기서 잠깐 설명. 케플러는 1SM당 ALU 갯수가 맥스웰의 1.5배, TMU 갯수는 2배로 전반적으로 풍부한 자원을 갖췄다. 맥스웰은 그에 비해 상대적으로 많은 ROP 갯수를 갖고 있기에 VGA 계산식에서 TMU의 비중이 커지면 케플러에 유리해지고 ROP의 비중을 늘리면 맥스웰에 유리해진다. (이것이 전부는 아니지만 요약하자면 그렇다.)
위의 그림은 각각 TMU의 비중이 높을 때와 ROP의 비중이 높을 때의 예시. 이런 과정을 거치며 각 요소별 계수를 확정하던 중 아래와 같이 의문점이 정리되기 시작했다.
1. GTX 750의 ROP / 메모리 단위성능이 유독 좋거나
2. GTX 970의 ROP / 메모리 단위성능이 유독 나쁘거나
상식적으로 맥스웰 1세대로서 등장한 GTX 750보다 2세대 제품들이 어떤 방면에서든 더 나빠졌으리란 기대를 할 수 없었기에, 1번 가설을 기각하고 보면 2번이 남는다. 지금에야 편의상 GTX 970이라 이름붙였으나 당시의 생각으로는 '맥스웰의 메모리 효율이 나빠졌나...?' 쯤 되었다. 그런데 맥스웰의 가장 큰 변화 중 하나가 바로 델타 컬러 압축으로 메모리 대역폭의 실효성을 높인 것이라 이것 역시 말이 안된다. 그렇다면 결국 맥스웰 전반으로 일반화할 수 없는, GTX 970만의 특별한 -악영향을 미치는- 무언가가 있다는, 다소 당황스런 결론에 도달한다.
"GTX 970의 ROP / 메모리 파트에 결함이 있다."
관점에 따라 너무 공격적일 수 있어 당시로선 차마 공론화하지 못했다. (아닌 말로 엔비디아가 소송을 걸면 어쩌나 하는 염려도 있었다.) 그 후, GTX 960 샘플을 입수하게 되어 VGA 계산기는 잠시 미뤄둔 채 벤치마크에 파묻히게 되었고, 한동안 잊고 지내다 오늘 오랜만에 뉴스들을 눈팅해 보니 이런 일이 있던 것이다.
http://www.extremetech.com/extreme/198214-198214
http://techreport.com/news/27721/nvidia-admits-explains-geforce-gtx-970-memory-allocation-issue
http://www.pcper.com/news/Graphics-Cards/NVIDIA-Responds-GTX-970-35GB-Memory-Issue
간단히 요약하자면 총 256bit / 4GB로 구성된 GTX 970의 메모리 중 실효성 있게 쓰이는 영역이 224bit / 3.5GB에 불과하다는 것. (기사에는 언급되지 않았으나 맥스웰의 경우 ROP와 메모리 컨트롤러가 같은 파티션으로 묶여 있기에, 유효 ROP 역시 64개가 아니라 56개일 것으로 추측된다.) 이로써 정확히 VGA 계산기가 난항을 겪어 오던 부분이 제거된 것이다. 이를 토대로 GTX 970의 메모리 비트레이트에 256 대신 224를 대입하면 안정적으로 GTX 780 Ti에 대한 근소 열세라는 성능관계가 수립된다.
놀랍지 않은가.
아래는 가장 최근까지 확정된 식에 GTX 970을 각 시나리오별로 대입한 것.
1. 메모리 / ROP 모두 스펙 그대로인 경우 (256bit / 64개)
2. 메모리는 224bit로 줄어들되 ROP는 스펙 그대로인 경우
3. 메모리 / ROP 모두 224bit / 56개로 줄어든 경우
GTX 780 Ti와의 성능관계를 생각할 때 1번이 아님은 이미 확실해졌고, 그렇다면 2번과 3번 중 어느 것이 진실일까. 보다 다양한 벤치마크 통계를 메타데이터처럼 모아 분석하면 의외로 간단히 추론될지도 모르겠다. 훗날 엔비디아가 GTX 970의 ROP에 관해서도 결함이 있음을 인정한다면 그때 이 글이 한번쯤 회자되기를 바란다.
//
(아래 위젯은 티스토리의 크라우드펀딩 시스템인 '밀어주기' 위젯입니다. 100원부터 3000원까지의 범위 내에서 글쓴이에게 소액 기부가 가능합니다. 사견으로는 이러한 형태의 펀딩이야말로, 성공적으로 정착될 경우 이해관계자로부터 독립된 벤치마크가 지속가능해지는 원동력이 될 것이라 생각합니다. 제가 작성한 글이 후원할만한 가치가 있다고 여기신다면 밀어주기를 통한 후원을 부탁드립니다. 물론 글을 '가치있게' 쓰는 것은 오롯이 저의 몫이며, 설령 제 글이 '후원할 만큼 가치있게' 여겨지지는 못해 결과적으로 후원을 받지 못하더라도 그것이 독자 여러분의 잘못이 아니란 건 너무 당연해 굳이 언급할 필요도 없겠습니다. 저는 후원 여부와 관계없이 제 글을 읽어주시는 모든 독자분께 감사합니다.)
'Lecture & Column > vga_lec_col' 카테고리의 다른 글
AMD의 또다른 수 : 버뮤다, 피지 - 두개의 빅 칩? (2) | 2015.01.29 |
---|---|
엔비디아와 AMD의 다음 수 (4) | 2015.01.26 |
GM200, Fiji XT 성능 예측 (6) | 2014.11.13 |
지포스 GTX 960 성능 예상 : 2세대 맥스웰 예측을 바탕으로 (6) | 2014.09.19 |
2세대 맥스웰 (GM204 : GTX 870/880) 성능 예측 (3) | 2014.08.12 |