¿£ºñµð¾Æ(www.nvidia.co.kr)°¡ »õ·Î¿î ¼ÒÇÁÆ®¿þ¾î ¿£ºñµð¾Æ ÅÙ¼RT-LLM(NVIDIA TensorRT-LLM)À» Ãâ½ÃÇß´Ù°í ¹àÇû´Ù.
ÅÙ¼RT-LLMÀº ´ë±Ô¸ð ¾ð¾î ¸ðµ¨ÀÌ ¹ßÀüÇÔ¿¡ µû¶ó ¿ÀÇ ¼Ò½º ¸ðµâ½Ä ÆÄÀ̽ã API(Python API)¸¦ ÅëÇØ »ç¿ë ÆíÀǼº°ú È®À强À» °³¼±Çϰí, ½±°Ô »ç¿ëÀÚ ¸ÂÃãÈÇÒ ¼ö ÀÖ´Ù. ÆÄÀ̽ã API´Â »õ·Î¿î ¾ÆÅ°ÅØÃ³¿Í °³¼± »çÇ×À» Á¤ÀÇ, ÃÖÀûÈ, ½ÇÇàÇÒ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î, ¸ðÀÚÀÌÅ©MLÀº ÅÙ¼RT-LLM À§¿¡ ÇÊ¿äÇÑ Æ¯Á¤ ±â´ÉÀ» ¿øÈ°ÇÏ°Ô Ãß°¡Çϰí Ãß·Ð ¼ºñ½º¿¡ ÅëÇÕÇß´Ù.
H100Àº ´Üµ¶À¸·Îµµ A100º¸´Ù 4¹è ºü¸¥ ¼Óµµ¸¦ º¸¿©ÁØ´Ù. ÀÎÇöóÀÌÆ® ¹èĪ µî ÅÙ¼RT-LLMÀÇ ¼º´ÉÀ» Ãß°¡ÇÏ¸é ¼Óµµ°¡ ÃÑ 8¹è·Î Áõ°¡ÇØ ÃÖ°íÀÇ Ã³¸®·®À» Á¦°øÇÑ´Ù.ÃÖ±Ù ¸ÞŸ°¡ Ãâ½ÃÇÑ ¾ð¾î ¸ðµ¨ ¶ó¸¶2(Llama 2)´Â »ý¼ºÇü AI¸¦ ÅëÇÕÇÏ·Á´Â ¿©·¯ Á¶Á÷¿¡¼ ³Î¸® »ç¿ëµÇ°í ÀÖ´Ù. ÀÌ ¶ó¸¶2¿¡¼ ÅÙ¼RT-LLMÀº A100 GPU¿¡ ºñÇØ Ãß·Ð ¼º´ÉÀ» 4.6¹è °¡¼ÓÈÇÒ ¼ö ÀÖ´Ù.
¶ó¸¶2¿Í °°Àº ÃֽŠ´ë±Ô¸ð ¾ð¾î ¸ðµ¨¿¡¼´Â 700¾ï °³ÀÇ ÆÄ¶ó¹ÌÅ͸¦ »ç¿ëÇÏ´õ¶óµµ °í°´Àº A100 ±âÁØ ´ëºñ 4.6¹èÀÇ ¼º´É ¼Óµµ Çâ»óÀ» ½ÇÇöÇÑ´Ù. À̷νá ÃѼÒÀ¯ºñ¿ëÀº 3¹è, ¼Òºñ ¿¡³ÊÁö´Â 3.2¹è Àý°¨ÇÒ ¼ö ÀÖ´Ù.
ÅÙ¼RT-LLMÀº °³º° °¡ÁßÄ¡ Çà·ÄÀ» ¿©·¯ µð¹ÙÀ̽º¿¡¼ ºÐÇÒÇÏ´Â ¸ðµ¨ º´·Ä ó¸®ÀÇ ÀÏÁ¾ÀÎ ÅÙ¼ º´·Ä ó¸®(Tensor Parallelism)¸¦ »ç¿ëÇÑ´Ù. À̸¦ ÅëÇØ °³¹ßÀÚÀÇ °³ÀÔÀ̳ª ¸ðµ¨ º¯°æ ¾øÀ̵µ °¢ ¸ðµ¨ÀÌ NV¸µÅ©(NVLink)¸¦ ÅëÇØ ¿¬°áµÈ ¿©·¯ GPU¿Í ¼¹ö¿¡¼ º´·Ä·Î ½ÇÇàµÅ ´ë±Ô¸ð Ãß·ÐÀ» È¿À²ÀûÀ¸·Î ¼öÇàÇÒ ¼ö ÀÖ°Ô µÆ´Ù.
¶ÇÇÑ ÅÙ¼RT-LLM¿¡´Â ¿À´Ã³¯ ÇÁ·Î´ö¼Ç ȯ°æ¿¡¼ ³Î¸® »ç¿ëµÇ´Â ¸¹Àº ´ë±Ô¸ð ¾ð¾î ¸ðµ¨ÀÇ ÃÖÀûÈµÇ°í ¹Ù·Î ½ÇÇà °¡´ÉÇÑ ¹öÀüÀÌ Æ÷ÇԵŠÀÖ´Ù. ¿©±â¿¡´Â ¸ÞŸÀÇ ¶ó¸¶ 2, ¿ÀÇÂAI(OpenAI)ÀÇ GPT-2 ¿Í GPT-3, ÆÈÄÜ(Falcon), ¸ðÀÚÀÌÅ© MPT(Mosaic MPT), ºí·ë(BLOOM) µî 12°¡Áö°¡ Æ÷ÇԵǸç, ¸ðµÎ »ç¿ëÀÌ °£ÆíÇÑ ÅÙ¼RT-LLM ÆÄÀ̽ãAPI·Î ±¸ÇöÇÒ ¼ö ÀÖ´Ù.
ÀÌ·¯ÇÑ ±â´ÉÀ» ÅëÇØ °³¹ßÀÚ´Â »ç½Ç»ó ¸ðµç ¾÷°èÀÇ ¿ä±¸ »çÇ×À» ÃæÁ·ÇÏ´Â ¸ÂÃãÇü ´ë±Ô¸ð ¾ð¾î º¸µ¨À» ´õ ºü¸£°í Á¤È®ÇÏ°Ô ¸¸µé ¼ö ÀÖ´Ù.
ÀÎÇöóÀÌÆ® ¹èĪÀ» »ç¿ëÇϸé Àüü ¿äûÀÌ ¿Ï·áµÉ ¶§±îÁö ±â´Ù·È´Ù°¡ ´ÙÀ½ ¿äû ¼¼Æ®·Î ³Ñ¾î°¡´Â ´ë½Å, ÅÙ¼RT-LLM ·±Å¸ÀÓÀÌ ¿Ï·áµÈ ½ÃÄö½º¸¦ ¹èÄ¡¿¡¼ Áï½Ã Á¦°ÅÇÑ´Ù. ±×·± ´ÙÀ½ ´Ù¸¥ ¿äûÀÌ ¾ÆÁ÷ Àü¼Û ÁßÀÎ µ¿¾È »õ ¿äûÀ» ½ÇÇàÇÑ´Ù. ÀÎÇöóÀÌÆ® ¹èΰú Ãß°¡ÀûÀÎ Ä¿³Î ¼öÁØ ÃÖÀûȸ¦ ÅëÇØ GPU »ç¿ë·®À» °³¼±Çϰí H100 ÅÙ¼ ÄÚ¾î GPUÀÇ ½ÇÁ¦ ´ë±Ô¸ð ¾ð¾î ¸ðµ¨ ¿äû º¥Ä¡¸¶Å©¿¡¼ 󸮷®À» ÃÖ¼Ò µÎ ¹è ÀÌ»ó Áõ°¡½ÃÄÑ ÃѼÒÀ¯ºñ¿ëÀ» ÃÖ¼ÒÈÇÏ°í ¿¡³ÊÁö ºñ¿ëÀ» Àý°¨ÇÑ´Ù.
ÅÙ¼RT-LLMÀÌ Å¾ÀçµÈ ¿£ºñµð¾Æ H100 GPU(H100 GPU)¸¦ »ç¿ëÇÏ¸é ¸ðµ¨ °¡ÁßÄ¡¸¦ »õ·Î¿î FP8 Çü½ÄÀ¸·Î ½±°Ô º¯È¯Çϰí, ÃÖÀûÈµÈ FP8 Ä¿³ÎÀ» ÀÚµ¿À¸·Î Ȱ¿ëÇϵµ·Ï ¸ðµ¨À» ÄÄÆÄÀÏÇÒ ¼ö ÀÖ´Ù. À̴ ȣÆÛ Æ®·£½ºÆ÷¸Ó ¿£Áø(Hopper Transformer Engine) ±â¼úÀ» ÅëÇØ °¡´ÉÇϸç, º°µµ·Î ¸ðµ¨ Äڵ带 º¯°æÇÒ Çʿ䰡 ¾ø´Ù.
H100¿¡ µµÀÔµÈ FP8 µ¥ÀÌÅÍ Æ÷¸ËÀ» ÅëÇØ °³¹ßÀÚ´Â ¸ðµ¨À» Á¤·®ÈÇÏ°í ¸ðµ¨ Á¤È®µµ¸¦ ÀúÇϽÃŰÁö ¾ÊÀ¸¸é¼ ¸Þ¸ð¸® ¼Òºñ¸¦ ȹ±âÀûÀ¸·Î °³¼±ÇÑ´Ù. FP8 ¾çÀÚÈ´Â INT8 ¶Ç´Â INT4¿Í °°Àº ´Ù¸¥ µ¥ÀÌÅÍ Çü½Ä¿¡ ºñÇØ ³ôÀº Á¤È®µµ¸¦ À¯ÁöÇϸ鼵µ °¡Àå ºü¸¥ ¼º´ÉÀ» ´Þ¼ºÇÏ°í °¡Àå °£´ÜÇÑ ±¸ÇöÀ» Á¦°øÇÑ´Ù.
ÅÙ¼RT-LLMÀº ÇÁ·Î´ö¼Ç ȯ°æ¿¡¼ Ãß·ÐÀ» À§ÇÑ ´ë±Ô¸ð ¾ð¾î ¸ðµ¨À» Á¤ÀÇ, ÃÖÀûÈ, ½ÇÇàÇϱâ À§ÇÑ °£´ÜÇÑ ¿ÀÇ ¼Ò½º ÆÄÀ̽ã API¿¡ ÅÙ¼RTÀÇ µö ·¯´× ÄÄÆÄÀÏ·¯, ÃÖÀûÈµÈ Ä¿³Î, »çÀü, »çÈÄ Ã³¸®, ¸ÖƼ GPU/¸ÖƼ ³ëµå Åë½ÅÀ¸·Î ±¸¼ºµÈ´Ù.
¿£ºñµð¾Æ ÅÙ¼RT-LLMÀº ÇöÀç ¾ó¸® ¾×¼¼½º ¹öÀüÀ¸·Î Á¦°øµÈ´Ù. ¾Æ¿ï·¯ º¸¾È, ¾ÈÁ¤¼º, °ü¸® ¿ëÀ̼º, Áö¿ø µîÀ» °®Ãá ¿£ÅÍÇÁ¶óÀÌÁî±Þ AI ¼ÒÇÁÆ®¿þ¾î Ç÷§ÆûÀÎ ¿£ºñµð¾Æ AI ¿£ÅÍÇÁ¶óÀÌÁî(AI Enterprise)ÀÇ ÀϺÎÀÎ ¿£ºñµð¾Æ ³×¸ð ÇÁ·¹ÀÓ¿öÅ©¿¡ ÅëÇÕµÉ ¿¹Á¤ÀÌ´Ù. °³¹ßÀÚ¿Í ¿¬±¸ÀÚ´Â NGCÀÇ ³×¸ð ÇÁ·¹ÀÓ¿öÅ© ¶Ç´Â ±êÇãºê(GitHub)ÀÇ ¼Ò½º ·¹Æ÷ÁöÅ丮¸¦ ÅëÇØ ÅÙ¼RT-LLM¿¡ ¾×¼¼½ºÇÒ ¼ö ÀÖ´Ù.
¾ó¸® ¾×¼¼½º ¸±¸®½º¸¦ ½ÅûÇÏ·Á¸é ¿£ºñµð¾Æ °³¹ßÀÚ ÇÁ·Î±×·¥(Developer Program)¿¡ µî·ÏµÅ ÀÖ¾î¾ß ÇÑ´Ù. ¶ÇÇÑ ±â¾÷¿ë À̸ÞÀÏ ÁÖ¼Ò·Î ·Î±×ÀÎÇØ¾ß ÇÑ´Ù. Áö¸ÞÀÏ(Gmail), ¾ßÈÄ(Yahoo), ťť(QQ) ¶Ç´Â ±âŸ °³ÀÎ À̸ÞÀÏ °èÁ¤À» »ç¿ëÇÏ´Â °èÁ¤¿¡¼´Â ½ÅûÀ» ¹ÞÀ» ¼ö ¾ø´Ù.
|