2. GTX 460, 그래픽연산에 최적화된 GF104 기반
엔비디아 (NVIDIA)의 DirectX 11 지원 지포스 GTX 400 시리즈는 하이엔드 시장과 퍼포먼스 시장을 위한 지포스 GTX 470/ 480과 지포스 GTX 465의 3종이 등장했으며, 이제 본격적인 메인스트림 경쟁을 위한 지포스 GTX 460이 등장했다.
게이머들에게 매력적인 그래픽카드의 가격대는 199달러
[2010년 5월 스팀 설문조사 결과, 게이머들의 그래픽카드 선호도]
게이머들의 선호도가 가장 높은 그래픽카드의 가격대는 199달러 ($199)로 스팀의 온라인 서비스를 이용하는 게이머들의 설문조사 결과 확인되었으며, 전통적으로 이 가격대의 제품들은 상위 제품들에 가까운 높은 성능과 적절한 가격대를 형성해 인기있는 라인업이기도 하다.
이 가격대에서 엔비디아는 DX10 기반 지포스 GTX 200 시리즈가 배치되었으나 페르미기반 제품들의 등장에 앞서 일찍 단종 수준을 밟아 새로운 카드들이 필요해졌고 엔비디아는 이들에 맞는 그래픽카드를 하이엔드와 퍼포먼스 라인업에 이어 공개할 계획을 갖고 있다. 엔비디아의 해당 라인업에 적합한 제품은 199달러부터 시작되는 지포스 GTX 460 시리즈 2종 중 768MB에 딱맞는 가격대이며, 경쟁사인 AMD ATI에는 라데온 HD 5830이 가격인하가 진행되어 배치되고 있어 이들의 직접적인 경쟁이 예상되고 있다.
40nm 공정 적용된 GTX 460, 트랜지스터 수 감소
[지포스 GTX 470 (좌)/ 지포스 GTX 460 (우)]
GF100과 GF104는 모두 이전세대의 55nm에서 40nm 공정을 적용해 차이가 없지만, 그래픽연산에 중심을 둔 GF104는 아키텍처가 개선되면서 다이 사이즈도 작아지고 트랜지스터의 수도 줄었다. 32억개의 GF100보다 작아진 약 20억개 (19억 5천만개) 수준의 트랜지스터를 제공해 라데온 HD 5800 시리즈의 RV870과 비슷한 수준의 트랜지스터 집적도를 보여준다. 다이 모양은 GF100이 정사각형, GF104는 직사각형으로 크기가 꽤 줄었고 코어 보호와 열전달을 위해 히트스프레더가 사용되는 것은 유지되고 있다.
GF104의 트랜지스터 수 감소는 GF100에 포함되었던 범용연산 등에 필요한 불필요한 부분들이 제거되었기 때문에 그만큼 발열과 소비전력이 감소되고 클럭의 향상과 생산비용이 이전보다 저렴해질 수 있다는 것을 말해준다.
그래픽연산에 중점을 둔 지포스 GTX 460
지포스 GTX 400 시리즈 중 GTX 465/ 470/ 480의 3종은 모두 페르미 (Fermi) GF100 기반으로 그래픽연산과 범용연산, 병렬처리 부분이 기존 GT200 시리즈보다 강화되었으나 지포스 GTX 460은 범용연산을 줄이고 그래픽연산에 최적화된 모습을 갖추어 설계된 GF104 기반이 적용되었다.
GF104는 그래픽연산에 중심을 둔만큼 GPGPU 기능은 GF100에서 일부 제외 또는 감소되었지만, GPGPU를 위한 CUDA나 PhysX 물리연산 등의 기능을 지원하며, DirectCompute, OpenCL과 같은 GPGPU 지원은 변함없다.
[GF100과 GF104는 탱크 (Tank)와 헌터 (Hunter)에 비유]
지포스 GTX 465/ 470/ 480 (GF100 기반) 시리즈와 지포스 GTX 460 (GF104 기반) 시리즈는 탱크와 헌터의 비유가 적절하다. GF100이 탱크처럼 강력하고 복잡한 모습이라면, GF104는 GF100보다 간결하면서 게이밍 성능 즉, 그래픽연산에 최적화된 성능을 제공하는 것이다.
지포스 GTX 460, Fermi GF104 기반으로 새롭게 설계
[GF100 (512 쿠다코어와 384bit 인터페이스)]
[GF104 (384 쿠다코어와 256bit 인터페이스)]
페르미 (Fermi)로 아키텍처가 개선되면서 스트림 프로세서로 불리는 연산유닛의 명칭은 쿠다코어 (CUDA Cores)로 바뀌었다.
지포스 GTX 400 시리즈에 적용된 GF100은 최대 512 쿠다코어 (CUDA Cores)와 384bit 메모리 인터페이스, 16 폴리모프엔진 (PolyMorph Engines), 4 래스터엔진 (Raster Engines)으로 4개의 래스터라이저 (Rasterizer), 64 텍스처 유닛, 48 ROP 구성이 가능하다.
GF104 기반은 기존 GF100과 달라진 구성을 보여주는데 최대 384 쿠다코어로 8 SM (GF100이 SM (Streaming Multiprocessor) 당 32개의 쿠다코어, GF104는 48개의 쿠다코어가 내장되고 GTX 465/ 470/ 480이 각각 11/ 14/ 15 SM (32 CUDA Cores)으로 구성, GTX 460은 7 SM (48 CUDA Cores)으로 구성), 256bit 메모리 인터페이스, 8 폴리모프엔진, 듀얼 래스터엔진으로 듀얼 래스터라이저 (라데온 HD 5800 시리즈는 1개의 테셀레이터와 듀얼 래스터라이저), 64 텍스처 유닛, 32 ROP 구성이 가능하다.
GF104는 GF100이 최대 4개의 GPC (Graphics Processing Cluster)로 구성되는 것과 달리 최대 2개의 GPC로 구성되어 듀얼코어화된 GPU이며, 범용 컴퓨팅에서는 8코어, 그래픽처리에는 듀얼코어로 활용된다.
또, GF100이 GPC 구조와 기가스레드 (GigaThread) 엔진은 개선되어 다수의 커널 프로그램을 동시에 실행할 수 있는 발전된 멀티 스레드 개념을 적용한 것처럼 GF104도 이러한 기능들을 제공하게 된다.
SM (Streaming Multiprocessor) 변화, 쿠다코어와 텍스처 유닛 증가
지포스 GTX 460 시리즈에 적용된 GF104는 그래픽연산에 최적화되었던 GT200 시리즈의 구조를 빌려오고 DirectX 11과 테셀레이션을 지원하는 형태를 취할 것이라는 주장이 제기되기도 했다. 그러나, GF104 SM (Streaming Multiprocessor)의 기본 구조는 그래픽연산과 범용연산, 병렬처리에 최적화된 GF100을 기반으로 하며, 그래픽연산 최적화를 위해 실제 연산 유닛인 쿠다코어의 수를 늘리고 범용연산 (GPGPU) 부분을 줄인 구조를 취하고 있다.
SM (Streaming Multiprocessor)에 실제 실행 유닛이 GF100의 32개 (16 x 2 그룹)보다 16개 더 증가된 GF104의 쿠다코어 구조는 16 x 3 그룹의 쿠다코어 구성 (48 쿠다코어)으로 TPC 당 8코어 x 3 SM (24 쿠다코어)으로 구성되었던 GT200 구조와 유사하다. 이는 GF104가 GF100 기반에 그래픽연산을 강화위해 SM (Streaming Multiprocessor)의 실행유닛인 쿠다코어와 텍스처 유닛, 디스패치 유닛을 늘려 그래픽연산에 보다 적합한 형태로 개선된 모습으로 보여진다. 참고로 엔비디아에서 제시한 자료에는 GF100이 GF104보다 1.6배 빠른 것으로 소개되고 있다.
GF104는 GT200의 240개보다 144개 늘어난 336개의 쿠다코어를 제공해 쿠다코어의 수는 2배가 늘어나지 않았지만, SM에 내장된 쿠다코어로 처리할 수 있는 연산 수는 2배 (24에서 48개)로 늘어났다. GF104는 GF100의 32 쿠다코어보다 16개가 더 많아 그래픽연산에서 SM의 처리 성능이 더 높을 것으로 예상된다. (GT200의 24개 (TPC 당 8코어 x 3)에서 GF100은 32 (TPC 당 16코어 x 2), GF104는 2배 증가된 48 (TPC 당 16코어 x 3))
[GF100 SM (Streaming Multiprocessor) 구성]
[GF104 SM (Streaming Multiprocessor) 구성]
지포스 GTX 460 시리즈에 사용된 GF104의 SM (Streaming Multiprocessor) 구성은 GF100과 달라졌다. 가장 큰 변화로는 32개 (16개의 2블럭구조)의 쿠다코어 (CUDA Cores)에서 48개 (16개의 3블럭구조)의 쿠다코어가 내장된 것으로 이는 실제 실행 유닛의 비율이 높아지고 텍스처 유닛도 4개에서 2배인 8개로 크게 늘어나 그래픽연산에서 더 높은 처리 성능을 내줄 수 있게 구조가 변경되었다. 폴리모프 엔진의 구성은 기존과 같고 테셀레이터가 폴리모프 엔진마다 1개씩 내장되어 SM이 총 8개 사용된 GF104는 8개의 테셀레이터를 병렬로 처리할 수 있다.
쿠다코어에는 GF100과 같이 산술 논리 연산장치인 ALU (정수, Arithmetic Logic Unit)와 부동소수점 연산장치인 FPU (실수, Floating Point Unit)이 내장되며, IEEE 754-1985 표준을 따르던 GT200이 24bit 정수 연산을 지원하였던 것과 달리 IEEE754-2008 표준을 지원해 32bit 정수와 64bit 연산도 확장하여 지원한다.
GF104의 Warp 스케쥴러는 2개로 GF100과 같고 하나의 명령을 2 사이클에 실행할 수 있고 48 스레드 단위로 처리되며, Warp 내의 스레드는 같은 명령을 실행한다. 디스패치 유닛 (Dispatch Unit, 우선 순위가 높은 명령어를 먼저 실행하도록 자원 할당)은 2배인 4개로 늘어났고 Warp 스케쥴러 하나에 2개의 디스패치 유닛이 제공된다. GF104는 GPC 2개의 그룹의 Warp 스케쥴러가 병렬로 다른 명령을 실행할 수 있다.
또, 6개의 쿠다코어 당 로드/ 스토어 유닛 2개 제공 (총 16)은 GF100과 GF104가 같으나 클럭 및 스레드 당 하나의 연산을 처리했던 SFU (Special Function Unit)는 GF100이 4개였으나 8개로 2배가 늘어났다. SFU는 사인, 코사인, 역수, 제곱근 등을 연산하는 특수 유닛으로 그래픽 인터폴레이션도 지원된다.
엔비디아에서 공개된 GF104의 SM 구조에서 GF100의 SM과 달라진 쿠다코어와 텍스처 유닛, 디스패치 유닛, 그리고 SFU 유닛의 차이 외에 캐쉬 제공 부분에서는 큰 차이가 없는 것으로 보여지나 상위 제품들과 범용연산 (GPGPU)를 위한 부분에서 차이를 두고 있을 것으로 예상된다. (GF100은 공유 L2 캐쉬의 구조가 8 ROP 그룹이 적용되고 8 ROP 1 그룹 당 128KB (GF100은 8 ROP 그룹 6개 적용)가 적용되고 GF104는 8 ROP 그룹이 4개로 구성되고 캐쉬의 감소 (GTX 460 768MB : 384KB L2, 1024MB : 512KB L2) 및 더블 프리시전 부동소수점연산 성능 감소, ECC 메모리 지원이 제거된 것으로 알려지고 있다.)
지포스 GTX 460의 주요 지원
[GTX 460은 GF104 기반 (336 쿠다코어와 192/ 256bit 인터페이스)]
GTX 460 768MB는 336 쿠다코어, 56 텍스처 유닛, 192bit 메모리 인터페이스, 56 텍스처 유닛, 24 ROP, 1024BM는 336 쿠다코어, 56 텍스처 유닛, 256bit 메모리 인터페이스, 32 ROP로 구성된다.
테셀레이터는 페르미 (Fermi)에서 DX11의 주요 기능으로 추가되었고 폴리모프엔진 하나 당 1개의 테셀레이터가 구성되므로 GF104 기반의 지포스 GTX 460 시리즈는 7개, GF100 기반 지포스 GTX 465/ 470/ 480은 각각 11/ 14/ 15개를 제공한다. 따라서, 지포스 GTX 460 시리즈 역시 엔비디아가 DirectX 11과 테셀레이션 (Tessellation)을 바탕으로 세대의 전환을 역설하고 있는 만큼 GF100을 이어 경쟁사를 리드하는 성능을 제공할 것으로 예상해볼 수 있다.
또한, 9800GT (G92)/ GTX 260 (GT200) 기반 제품들과 비교하여 지포스 GTX 460 (GF104)은 지오메트리 성능 최대 4.5배 향상, 게이밍 성능은 최대 약 2.5/ 1.5배 향상, PhysX 최대 약 4.5/ 1.5배 향상, 그리고 AI 및 레이트레이싱 (Ray-Tracing) 처리 성능도 향상된 것으로 알려져 있다. GF100은 DirectX 11의 중심인 테셀레이션과 지오메트리 성능 (최대 8배 향상)을 크게 끌어올렸다.
[지포스 GTX 460 스펙]
지포스 GTX 400 시리즈는 32x CSAA (8xMSAA + 24x CSAA)를 지원하여 AA 품질 향상과 TMAA (Transparency MultiSample Anti-Aliasing)를 개선하고 있는데 지포스 GTX 460도 이들 기능을 지원할 것으로 알려지고 있다. 그러나, 지포스 GTX 460 768MB가 24 ROP와 192bit, 1024MB는 32 ROP/ 256bit 구성인 반면, 지포스 GTX 465는 32 ROP와 256bit, GTX 470은 40 ROP와 320bit, GTX 480은 48 ROP와 384bit로 각각 구성되어 고해상도와 AA/ AF 적용시 상위 제품군과 차이를 보일 것으로 예상된다.
메모리는 지포스 GTX 465/ 470/ 480과 같이 고클럭 GDDR5 메모리를 사용하며, 용량은 768MB와 1GB, 메모리 인터페이스는 192bit/ 256bit가 적용된다. 고클럭의 GDDR5 메모리로 대역폭을 증가시켰고 GDDR5 메모리는 클럭 및 전압을 부하에 따라 스위칭하여 전력효율을 높여주는 것은 기존 시리즈와 같다.
최대 보드 파워 (TDP, 열설계전력)은 지포스 GTX 480 250W, GTX 470 215W, GTX 465 200W, 라데온 HD 5870 188W, 라데온 HD 5850 151W, 라데온 HD 5830 175W와 비교하여 768MB는 150W, 1024MB는 160W로 상위 라인업보다는 크게 줄었고 라데온 HD 5830보다 보다 약간 낮아진 수준을 보여준다. 발열 역시 트랜지스터의 수 감소로 줄어들 것으로 예상된다.
디스플레이 출력은 지포스 GTX 200 시리즈가 GPU와 별도로 NVIO 칩셋으로 디스플레이 출력을 지원한 것과 달리 GF100 GPU에 내장된 것처럼 GF104 역시 출력을 위한 기능들이 모두 내장되었다. 지포스 GTX 465/ 470/ GTX 480과 같이 듀얼링크 DVI (Dual-Link DVI) 지원 DVI 포트 2개와 미니 HDMI (Mini HDMI) 포트 1개가 제공된다. 지포스 GTX 460 1024MB의 경우 디스플레이포트 (DisplayPort)를 지원할 것으로 알려졌으나 768MB와 차이없는 출력포트 구성을 보여준다.
또, 최근 부각되고 있는 3D 기술을 3D 비전 (3D Vision)으로 지원해온 엔비디아는 지포스 GTX 400 시리즈의 SLI 구성을 통해 3대의 모니터로 확장하여 3D를 구현하는 3D 비전 서라운드 (3D Vision Surround)를 지원할 수 있게 되었다. 지포스 GTX 200 시리즈도 SLI를 통해 3D 비전 서라운드를 지원한다.
오디오는 G210/ GT220/ GT240과 이전 지포스 GTX 400 시리즈와 같이 오디오 코덱이 내장되고 2채널 LPCM, Dolby Digital (AC3), DTS 5.1, 멀티채널 (7.1) LPCM, Dolby Digital Plus (DD+), MPEG/ MPEG4 AAC를 지원한다.
AMD와 NVIDIA 제품군 비교
지포스 GTX 460은 40nm 공정 적용은 같으나 트랜지스터의 수가 줄어 발열과 소비전력이 줄었다. 또, 쿠다코어 수, ROP, 메모리 인터페이스를 비롯하여 도 상위 버전들과 차이를 두고 있어 생산비용면에서 유리해져 상위 제품들보다 가격경쟁력을 갖췄다. 지포스 GTX 460은 일부 남아있는 지포스 GTX 260 (SP216) 제품을 제외한 지포스 GTX 200 시리즈가 단종되었으므로 이들을 대체하기 적합하다.
지포스 GTX 460은 768MB와 1024MB의 2종이 등장하며, 이들 중 768MB는 라데온 HD 5830과 직접적인 경쟁이 가능한 199달러 ($199), 1024MB는 라데온 HD 5850보다는 조금은 저렴한 가격대인 229 달러 ($229)를 형성하게 된다. 수입통관비 등이 추가되면 실제 가격은 환율보다 높아 20만원 중반과 30만원 초반이 예상된다.
지포스 GTX 460 시리즈는 앞서 살펴본 것처럼 내부 스펙이 줄었으나 모듈화된 폴리모프 엔진과 래스터엔진을 통해 DX11과 테셀레이션 처리 성능이 경쟁 제품대비 유리할 것으로 예상된다.
메모리 인터페이스의 경우 768MB는 192bit로 줄고 1024MB는 지포스 GTX 465와 같은 256bit, 32 ROP 스펙은 같지만, 스트림 프로세서 수에 차이가 있어 고해상도와 AA/ AF 적용시 768MB는 성능 저하가 1024MB보다 조금 더 클 것으로 예상된다. 텍스처 유닛은 44개인 지포스 GTX 465보다 많은 56 유닛을 보유해 텍스처 기반 게임들에서 더 유리할 것으로 예상되며, DX9/ 10 세대의 성능도 어느 정도 보상이 가능할 것으로 보여진다.
열설계전력인 TDP는 지포스 GTX 465/ 470/ GTX 480이 각각 200W/ 215W/ 250W로 같은 40nm 공정이 적용된 라데온 HD 5870 188W, HD 5850 151W, HD 5830 175W보다 높았는데 지포스 GTX 460은 768MB가 150W, 1024MB는 160W로 라데온 HD 5830보다 낮은 수준으로 나타났는데 실제 소비전력은 이후 결과를 통해 확인할 것이다.
지포스 GTX 460은 지포스 GTX 465 아래 위치하게 되며, GF104 기반으로 GF100과 다른 아키텍처를 적용하여 내부 스펙에 차이를 보여주나 DirectX 11과 테셀레이션이 지원되며, GPGPU 기능의 일부가 제외 또는 감소되었다. 지금까지 살펴본 지포스 GTX 460의 스펙을 정리하면 아래와 같다.
- DirectX 11과 그래픽연산에 최적화된 아키텍처 (GF104 기반)
- 테셀레이터 및 멀티스레딩 능력 강화 (동시실행 능력) -
G92/ GTX 260 대비 최대 4.5배 향상된 지오메트리 성능 - G92/ GTX 260 대비 최대 2.6/ 1.5배 향상된 게임 성능 - G92/ GTX 260 대비 PhysX 최대 4.5/ 1.5배,
AI 및 Ray-Tracing 향상 - 쿠다코어 336 (GTX 465 352/ GTX 470 448/
GTX 480 480) - 40nm 및 GDDR5 768MB/ 1GB 메모리 (465 1024MB/ 470 1280MB/ 480 1536MB) - 텍스처
유닛 56개, 텍스처 처리향상 (GTX 480 60/ GTX 470 56/ GTX 465 44)
- 32x CSAA 및 TMAA/ AA의 효율적인 처리 및 성능 향상 - Render
Back-Ends (ROP) 유닛 24/ 32 (GTX 480 48/ GTX 470 40/ GTX 465 32) - 전력관리 개선
(클럭 및 전압 스위칭, GDDR5 클럭 및 전압 감소)
지포스 GTX 400 시리즈와 GTX 200 시리즈에 대한
내용은 드디어 출시된 엔비디아 Fermi, 지포스 GTX 400 완벽 분석 기사와 게임을 넘어서는 GPU, NVIDIA GeForce GTX 200 시리즈
기사를 참조하자.
HD 5800 시리즈와 HD 4800 시리즈에 대한 내용은
지난 기사인 [이론편] 공정으로 압도하는
RV770. ATI Radeon HD 4800 시리즈와 [이론편] Over the GeForce!
라데온HD5800의 모든것 기사를 참조하자. |