엔비디아가 일본 산업기술총합연구소(AIST)의 ABCI 3.0 슈퍼컴퓨터에 수천 개의 엔비디아(NVIDIA) H200 텐서 코어(Tensor Core) GPU가 통합된다고 밝혔다.
이를 통해 일본의 AI 주권과 연구 개발 역량이 강화될 것으로 기대된다. 아울러 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE) 크레이(Cray) XD 시스템은 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand) 네트워킹을 채택해 우수한 성능과 확장성을 제공할 예정이다.
ABCI 3.0은 AI 연구 개발을 발전시키기 위해 설계된 일본의 대규모 개방형 AI 컴퓨팅 인프라의 최신 버전이다. 이번 협력은 AI 역량을 발전시키고 기술 독립성을 강화하려는 일본의 노력을 강조한다.
ABCI 3.0 프로젝트는 경제 안전 기금을 통해 컴퓨팅 자원을 강화하기 위한 일본 경제산업성(Ministry of Economy, Trade and Industry, METI)의 지원에 따른 것으로, METI의 10억 달러 규모의 광범위한 이니셔티브의 일환이다. 여기에는 ABCI 노력과 클라우드 AI 컴퓨팅에 대한 투자를 모두 포함한다.
엔비디아는 지난해 엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)이 기시다 후미오 일본 총리를 비롯한 정재계 인사들을 만나 AI의 미래를 논의한 이후 꾸준히 연구와 교육 분야에서 METI와 긴밀히 협력하고 있다.
젠슨 황은 특히 생성형 AI, 로보틱스, 양자 컴퓨팅 분야에서의 연구 협력, AI 스타트업 투자, AI에 대한 제품 지원, 훈련, 교육을 제공하기로 약속했다.
그는 가장 연산 집약적인 AI 작업을 처리하도록 설계된 차세대 데이터 센터인 'AI 팩토리'가 방대한 양의 데이터를 지능화하는 데 매우 중요하다고 강조했다.
초고밀도 데이터 센터와 에너지 효율적인 설계를 갖춘 ABCI는 AI와 빅데이터 애플리케이션 개발을 위한 강력한 인프라를 제공한다.
이 시스템은 올해 말까지 가동돼 최첨단 AI 연구와 개발 자원을 제공할 것이며, 도쿄 인근 카시와(Kashiwa)에 들어설 예정이다.
엔비디아 기술은 이 이니셔티브의 중추를 이루며, 수백 개의 노드에 각각 8개의 NV링크(NVLink) 연결 H200 GPU를 장착해 전례 없는 컴퓨팅 성능과 효율성을 제공한다.
엔비디아 H200은 초당 4.8테라바이트(TB/s)의 속도로 140기가바이트(GB) 이상의 HBM3e 메모리를 제공하는 최초의 GPU이다. H200의 더 크고 빠른 메모리는 생성형 AI와 거대 언어 모델(large language model, LLM)을 가속화하는 동시에 더 나은 에너지 효율과 낮은 총소유비용으로 HPC 워크로드를 위한 과학 컴퓨팅을 발전시킨다.
엔비디아 H200 GPU는 LLM 토큰 생성과 같은 AI 워크로드에 대해 ABCI의 이전 세대 아키텍처보다 에너지 효율이 15배 더 높다.
네트워킹 장치가 데이터에 대한 연산을 수행해 CPU의 작업을 분산(offloading)시키는 인-네트워크 컴퓨팅(In-Network Computing)과 고급 엔비디아 퀀텀-2 인피니밴드의 통합은 집약적인 AI 워크로드와 방대한 데이터 세트를 처리하는 데 필수적인 고효율, 고속, 저지연 통신을 보장한다.
ABCI는 세계 최고 수준의 컴퓨팅과 데이터 처리 능력을 자랑하며 산학관 공동 AI 연구 개발을 가속화하는 플랫폼 역할을 하고 있다.
METI의 막대한 투자는 AI 개발 역량을 강화하고 생성형 AI의 사용을 가속화하려는 일본의 전략적 비전을 입증한다.
일본은 AI 슈퍼컴퓨터 개발에 보조금을 지원함으로써 차세대 AI 기술 개발에 소요되는 시간과 비용을 줄여 글로벌 AI 환경의 리더로 자리매김하는 것을 목표로 한다.
|