¿£ºñµð¾Æ(CEO Á¨½¼ Ȳ)°¡ ¸¶ÀÌÅ©·Î¼ÒÇÁÆ®(Microsoft)ÀÇ Å¬¶ó¿ìµå ÄÄÇ»Æà Ç÷§Æû ¾ÖÀú(Azure)¿¡¼ ±¸µ¿µÇ´Â »õ·Î¿î GPU °¡¼Ó ½´ÆÛÄÄÇ»Å͸¦ °ø°³Çß´Ù.
°¡Àå ±î´Ù·Î¿î ÀΰøÁö´É(AI) ¹× °í¼º´É ÄÄÇ»ÆÃ(HPC) ¾ÖÇø®ÄÉÀ̼ÇÀ» ó¸®Çϵµ·Ï ¼³°èµÈ ¾ÖÀúÀÇ »õ·Î¿î NDv2 ÀνºÅϽº´Â ¼¼°è¿¡¼ °¡Àå ºü¸¥ ½´ÆÛÄÄÇ»ÅÍ Áß Çϳª·Î, ´ÜÀÏ ¸á¶ó³ì½º ÀÎÇǴϹêµå(Mellanox InfiniBand) ¹é¿£µå ³×Æ®¿öÅ©¿¡¼ »óÈ£ ¿¬°áµÈ ÃÖ´ë 800°³ÀÇ ¿£ºñµð¾Æ V100 ÅÙ¼ ÄÚ¾î(Tensor Core) GPU¸¦ Á¦°øÇÑ´Ù.
º¹ÀâÇÑ AI, ¸Ó½Å·¯´× ¹× HPC ¿öÅ©·Îµå¿¡ ÀÌ»óÀûÀÎ ÀÌ »õ·Î¿î Á¦Ç°Àº ±âÁ¸ CPU ±â¹Ý ÄÄÇ»Æðú ºñ±³ÇØ ¼º´É°ú ºñ¿ë ¸ðµç Ãø¸é¿¡¼ »ó´çÇÑ ÀÌÁ¡À» Á¦°øÇÑ´Ù.
ºü¸¥ ¼º´ÉÀ» Á¦°øÇÏ´Â ¼Ö·ç¼ÇÀÌ ÇÊ¿äÇÑ AI ¿¬±¸ÁøÀº ¿©·¯ NDv2 ÀνºÅϽº¸¦ ½Å¼ÓÇÏ°Ô ½ºÇɾ÷(spin up)ÇÏ°í º¹ÀâÇÑ ´ëÈÇü AI ¸ðµ¨À» ´Ü ¸î ½Ã°£ ¸¸¿¡ ±³À°ÇÒ ¼ö ÀÖ´Ù.
¸¶ÀÌÅ©·Î¼ÒÇÁÆ®¿Í ¿£ºñµð¾Æ ¿£Áö´Ï¾îµéÀº ½ÃÇèÆÇ ¹öÀüÀÇ Å¬·¯½ºÅÍ¿¡¼ 64°³ÀÇ NDv2 ÀνºÅϽº¸¦ »ç¿ëÇÏ¿© ±¸±ÛÀÇ AI ¾ð¾î¸ðµ¨ÀÎ ¹öÆ®(BERT)¸¦ ¾à 3 ½Ã°£ ¸¸¿¡ ÈƷýÃÄ×´Ù.
¿©±â¿¡´Â NCCL, ¿£ºñµð¾Æ Äí´Ù X(CUDA X) ¶óÀ̺귯¸®, ±×¸®°í °í¼Ó ¸á¶ó³ì½º ÀÎÅÍÄ¿³ØÆ®¿¡¼ Á¦°øµÇ´Â ´ÙÁß GPU ÃÖÀûÈ°¡ È°¿ëµÆ´Ù.
°í°´µéÀº ¶ÇÇÑ ¿©·¯ NDv2 ÀνºÅϽº¸¦ »ç¿ëÇÏ¿© LAMMPS¿Í °°Àº º¹ÀâÇÑ HPC ¿öÅ©·Îµå¸¦ ½ÇÇàÇÒ ¶§¿¡µµ ÀÌÁ¡À» ¾òÀ» ¼ö ÀÖ´Ù.
LAMMPS´Â ¾à¹° °³¹ß ¹× ¹ß°ß°ú °°Àº ¿µ¿ª¿¡¼ ¿øÀÚ ±Ô¸ð·Î ¹°ÁúÀ» ½Ã¹Ä·¹À̼ÇÇϴµ¥ »ç¿ëµÇ´Â ºÐÀÚ ¿ªÇÐ ¾ÖÇø®ÄÉÀ̼ÇÀÌ´Ù. ´ÜÀÏ NDv2 ÀνºÅϽº´Â µö ·¯´×°ú °°Àº ƯÁ¤ À¯ÇüÀÇ ¾ÖÇø®ÄÉÀ̼ǿ¡ GPU °¡¼Ó¾øÀÌ ±âÁ¸ HPC ³ëµåº¸´Ù ÈξÀ ºü¸¥ °á°ú¸¦ Á¦°øÇÒ ¼ö ÀÖ´Ù.
ÀÌ °°Àº ¼º´ÉÀº ´ë±Ô¸ð ½Ã¹Ä·¹À̼ÇÀ» À§ÇØ ¹é °³ÀÇ ÀνºÅϽº·Î ¼±ÇüÀûÀ¸·Î È®ÀåÇÒ ¼ö ÀÖ´Ù.
¸ðµç NDv2 ÀνºÅϽº´Â GPU¿¡ ÃÖÀûÈµÈ HPC ¾ÖÇø®ÄÉÀ̼Ç, ¸Ó½Å·¯´× ¼ÒÇÁÆ®¿þ¾î, ±×¸®°í ¿£ºñµð¾Æ NGC ÄÁÅ×ÀÌ³Ê ·¹Áö½ºÆ®¸® ¹× ¾ÖÀú ¸¶ÄÏÇ÷¹À̽º¿¡¼ ÀÌ¿ë°¡´ÉÇÑ ÅÙ¼Ç÷οì(TensorFlow), ÆÄÀÌÅäÄ¡(PyTorch), MxNet µî°ú °°Àº µö ·¯´× ÇÁ·¹ÀÓ¿öÅ©ÀÇ Áö¿øÀ» ¹Þ´Â´Ù. ÀÌ ·¹Áö½ºÆ®¸®´Â ¶ÇÇÑ Äí¹ö³×Ƽ½º(Kubernetes) Ŭ·¯½ºÅÍ¿¡ AI ¼ÒÇÁÆ®¿þ¾î¸¦ ½±°Ô ¹èÆ÷ÇÒ ¼ö ÀÖ´Â Ç︧(Helm) Â÷Æ®¸¦ Á¦°øÇÑ´Ù.
NDv2´Â ÇöÀç ÇÁ¸®ºä ¹öÀüÀ¸·Î ÀÌ¿ë °¡´ÉÇÏ´Ù. 8°³ÀÇ ¿£ºñµð¾Æ V100 GPU¸¦ »ç¿ëÇÏ´Â ÇϳªÀÇ ÀνºÅϽº¸¦ Ŭ·¯½ºÅ͸µÇÏ¿© ´Ù¾çÇÑ ¿öÅ©·Îµå ¼ö¿ä¿¡ ¸Â°Ô È®ÀåÇÒ ¼ö ÀÖ´Ù.
|