PC ´º½º Ȩ Àαâ PC ´º½º

¿£ºñµð¾Æ, ÀÎÅͽºÇÇÄ¡ 2021 Çà»ç¼­ ÃÖ÷´Ü ´ëÈ­Çü AI ¸ðµ¨ ¹ßÇ¥

2021-09-01 10:33
ÆíÁýºÎ press@bodnara.co.kr

¿£ºñµð¾Æ(CEO Á¨½¼ Ȳ)°¡ 8¿ù 30ÀϺÎÅÍ 9¿ù 3ÀϱîÁö ¿­¸®´Â ¼¼°è ÃÖ°í À½¼º ¾ð¾î ó¸® ÇÐȸ ÀÎÅͽºÇÇÄ¡ 2021(INTERSPEECH 2021)¿¡¼­ Ç¥ÇöÀû À½¼º ÇÕ¼º(Expressive speech synthesis)À» À§ÇÑ ÃÖ÷´Ü ´ëÈ­Çü AI ¸ðµ¨À» °ø°³ÇÑ´Ù°í ¹àÇû´Ù. ÇØ´ç ¸ðµ¨Àº °íÇ°Áú¿¡ Á¦¾î ¶ÇÇÑ °¡´ÉÇÑ À½¼º ÇÕ¼ºÀ» ±¸ÇöÇØ Àΰ£ À½¼ºÀÇ Ç³ºÎÇÔÀ» ÀâÀ½ ¾øÀÌ ´ã¾Æ³½´Ù.

 

¿£ºñµð¾ÆÀÇ ¸ðµ¨µéÀº ÀºÇà°ú ¼Ò¸Å¾÷°èÀÇ À½¼º ÀÚµ¿È­ °í°´ ¼­ºñ½º ¶óÀÎÀ» Áö¿øÇÏ°í ºñµð¿À °ÔÀÓ°ú ¼Ò¼³ ¼Ó ij¸¯ÅÍ¿¡ »ýµ¿°¨À» ºÒ¾î³Ö´Â ÇÑÆí, µðÁöÅÐ ¾Æ¹ÙŸ¿ë ½Ç½Ã°£ À½¼º ÇÕ¼ºÀ» Áö¿øÇÑ´Ù. ¿£ºñµð¾Æ Å©¸®¿¡ÀÌƼºê ÆÀÀº AIÀÇ À§·ÂÀ» ´Ù·ç´Â ºñµð¿À ½Ã¸®Áî¿¡ »ðÀԵŠdzºÎÇÑ Ç¥Çö·ÂÀ» ÀÚ¶ûÇÏ´Â ³»·¹À̼ǿ¡µµ À½¼º ÇÕ¼º ±â¼úÀ» »ç¿ëÇÏ°í ÀÖ´Ù.

Ç¥ÇöÀû À½¼º ÇÕ¼ºÀº ¿£ºñµð¾Æ ¿¬±¸ÁøÀÌ ´ëÈ­Çü AI ºÐ¾ß¿¡¼­ ÁøÇà ÁßÀÎ ¿©·¯ ¿¬±¸ÀÇ ÀϺÎÀÌ´Ù. ´ëÈ­Çü AI´Â À½¼º ÇÕ¼º ¿Ü¿¡µµ ÀÚ¿¬¾î ó¸®, ÀÚµ¿ À½¼º ÀνÄ, Å°¿öµå °ËÃâ, ¿Àµð¿À °³¼± µî ¿©·¯ ¿ä¼Ò¸¦ Æ÷ÇÔÇÑ´Ù.

¿£ºñµð¾Æ GPU¿¡¼­ È¿À²ÀûÀ¸·Î ½ÇÇàµÇµµ·Ï ÃÖÀûÈ­µÈ ÃÖ÷´Ü ¿¬±¸ÀÇ ÀϺδ ¿£ºñµð¾Æ NeMo ÅøŶÀ» ÅëÇØ ¿ÀǼҽº·Î Á¦ÀÛµÆÀ¸¸ç, ¿£ºñµð¾ÆÀÇ NGC ÄÁÅ×ÀÌ³Ê Çãºê¿Í ±âŸ ¼ÒÇÁÆ®¿þ¾î¿¡¼­ Á¦°øµÈ´Ù.

 

¿£ºñµð¾Æ ¿¬±¸Áø°ú Å©¸®¿¡ÀÌƼºê Àü¹®°¡µéÀº À½¼º ÇÕ¼º ±â¼úÀ» ½ÇÁ¦ »ç·Ê¿¡ Á¢¸ñÇØ ´ëÈ­Çü AIÀÇ À§·ÂÀ» Áõ¸íÇÏ°í ÀÖ´Ù. ±× ÀÏȯÀ¸·Î ¿£ºñµð¾Æ´Â ¾ÆÀÌ¿¥ AI(I AM AI)ÀÇ Á¦ÀÛ¿¡ Çõ½ÅÀû À½¼º ÇÕ¼º ¸ðµ¨À» »ç¿ëÇÑ´Ù. ¾ÆÀÌ¿¥ AI´Â »ê¾÷ Àü¹ÝÀ» ÀçÆíÇÏ´Â ¼¼°èÀû Çõ½ÅµéÀ» ¼Ò°³ÇÏ´Â ºñµð¿À ½Ã¸®Áî´Ù.

¾ó¸¶ Àü±îÁö¸¸ Çصµ ÇØ´ç ¿µ»óÀÇ ³»·¹À̼ÇÀº »ç¶÷ÀÌ Á÷Á¢ ´ã´çÇß´Ù. ±âÁ¸ À½¼º ÇÕ¼º ¸ðµ¨ÀÇ °æ¿ì ÇÕ¼ºµÈ À½¼ºÀÇ ¼Óµµ¿Í À½Á¤ Á¦¾î¿¡ ÇÑ°è°¡ Á¸ÀçÇß´Ù. ±× °á°ú, AI¸¦ È°¿ëÇÑ ³»·¹À̼ÇÀº Àΰ£ È­ÀÚ¸¸Å­ ½ÃûÀÚÀÇ Á¤¼­Àû ¹ÝÀÀÀ» °­ÇÏ°Ô À̲ø¾î³»Áö ¸øÇß´Ù.

ÀÌ·¯ÇÑ °æÇâÀº ¿£ºñµð¾ÆÀÇ ÅؽºÆ®-Åõ-½ºÇÇÄ¡(text-to-speech) ¿¬±¸ÁøÀÌ RAD-TTSó·³ º¸´Ù °­·ÂÇÏ°í Á¦¾î °¡´ÉÇÑ À½¼º ÇÕ¼º ¸ðµ¨À» °³¹ßÇϸ鼭 º¯È­Çß´Ù. RAD-TTS´Â ½Ã±×¶óÇÁ(SIGGRAPH) 2021ÀÇ ½Ç½Ã°£ ¶óÀÌºê ¼îÄÉÀ̽º¿¡¼­ ¿ì½ÂÇÑ ¿£ºñµð¾ÆÀÇ µ¥¸ð¿¡¼­µµ ¼Ò°³µÈ ¹Ù ÀÖ´Ù. ÇØ´ç ¸ðµ¨Àº ÅؽºÆ®-Åõ-½ºÇÇÄ¡ ¸ðµ¨À» °³ÀÎÀÇ À½¼ºÀ¸·Î ÈƷýÃÄÑ ÅؽºÆ® ÀÏü¸¦ ÇØ´ç È­ÀÚÀÇ ¸ñ¼Ò¸®·Î Áï½Ã º¯È¯ÇÒ ¼ö ÀÖ´Ù.

RAD-TTSÀÇ ¶Ç ´Ù¸¥ À½¼º º¯È¯ ±â´ÉÀº È­ÀÚÀÇ ¸» »Ó ¾Æ´Ï¶ó ³ë·¡±îÁö ´Ù¸¥ È­ÀÚÀÇ ¸ñ¼Ò¸®·Î Àü´ÞÇÑ´Ù. Àΰ£ÀÇ ¸ñ¼Ò¸®°¡ °ð ¾Ç±â¶ó´Â ¾ÆÀ̵ð¾î¿¡ ¿µ°¨À» ¾òÀº RAD-TTS ÀÎÅÍÆäÀ̽º´Â ÇÕ¼ºµÈ ¸ñ¼Ò¸®ÀÇ À½Á¤°ú ±æÀÌ, ºÐÀ§±â Àü¹ÝÀ» ÇÁ·¹ÀÓ ´ÜÀ§·Î ¼¼¹ÐÈ÷ Á¦¾îÇϵµ·Ï µ½´Â´Ù.

¾ÆÀÌ¿¥ AIÀÇ ÇÁ·Îµà¼­´Â RAD-TTS ÀÎÅÍÆäÀ̽º¸¦ »ç¿ëÇØ ´ëº» ³»¿ëÀ» Á÷Á¢ ³ìÀ½ÇÑ ´ÙÀ½, ÀÚ½ÅÀÇ À½¼ºÀ» ¿©¼º ³»·¹ÀÌÅÍÀÇ ¸ñ¼Ò¸®·Î º¯È¯Çß´Ù. ÀÌ ±âº» ³»·¹À̼ÇÀ» ¹ÙÅÁÀ¸·Î AIÀÇ À½¼ºÀÌ ¼º¿ìÀÇ À°¼ºÃ³·³ µé¸®°Ô ¿¬ÃâÇß´Ù. Áï, ÇÕ¼º À½¼ºÀ» ¼öÁ¤ÇØ Æ¯Á¤ ´Ü¾î¸¦ °­Á¶ÇÏ°í ¿µ»óÀÇ ºÐÀ§±â¸¦ ´õ¿í ¿Ïº®È÷ Ç¥ÇöÇϵµ·Ï ³»·¹À̼ÇÀÇ ¼Óµµ¸¦ º¯°æÇß´Ù.

RAD-TTS ¸ðµ¨ÀÇ ±â´ÉÀº ³»·¹À̼ÇÀ» µ¡ÀÔÈ÷´Â ¼öÁØÀ» ³Ñ¾î¼±´Ù. ¹®ÀÚ À½¼º º¯È¯ ÇÁ·Î±×·¥Àº °ÔÀ̹Ö, ¹ß¼º Àå¾Ö¸¦ °¡Áø °³ÀÎÀÇ Áö¿ø, »ç¿ëÀÚÀÇ ¸ñ¼Ò¸®·Î ¾ð¾î »çÀ̸¦ ¿À°¡´Â ¹ø¿ª µî¿¡ È°¿ëµÈ´Ù. ´õ ³ª¾Æ°¡ À¯¸í °¡¼öÀÇ °ø¿¬µµ ÀçÇöÇÒ ¼ö ÀÖ´Ù. °îÀÇ ¸á·Îµð »Ó ¾Æ´Ï¶ó ³ë·¡ ³Ê¸ÓÀÇ °¨Á¤µµ Ç¥Çö °¡´ÉÇÏ´Ù.

 

¿£ºñµð¾Æ NeMo´Â GPU °¡¼Ó ´ëÈ­Çü AI¸¦ À§ÇÑ ¿ÀǼҽº ÆÄÀ̽ã(Python) ÅøŶÀÌ´Ù. ¿¬±¸ÀÚ¿Í °³¹ßÀÚ, Å©¸®¿¡ÀÌÅÍÀÇ ¾ÖÇø®ÄÉÀ̼ǿ¡ ÀûÇÕÇÑ À½¼º ¸ðµ¨ÀÇ ½Å¼ÓÇÑ ½ÇÇè°ú ¹Ì¼¼ Á¶Á¤¿¡ ±â¿©ÇÑ´Ù.

NeMoÀÇ °£ÆíÇÑ API¿Í »çÀü ÈÆ·ÃµÈ ¸ðµ¨µéÀº ¹®ÀÚ À½¼º º¯È¯°ú ÀÚ¿¬¾î ó¸®, ½Ç½Ã°£ ÀÚµ¿ À½¼º ÀÎ½Ä¿ë ¸ðµ¨ÀÇ °³¹ß°ú Ä¿½ºÅ͸¶ÀÌ¡À» Áö¿øÇÑ´Ù. ÀϺΠ¸ðµ¨Àº ¿£ºñµð¾Æ DGX ½Ã½ºÅÛ¿¡¼­ ¼ö¸¸ ½Ã°£ ºÐ·®ÀÇ ¿Àµð¿À µ¥ÀÌÅÍ·Î ÈƷõȴÙ. ¶ÇÇÑ °³¹ßÀÚµéÀº ÀÚ½ÅÀÇ È°¿ë »ç·Ê¿¡ ¸ÂÃç ¸ðµ¨ ÀÏü¸¦ ¹Ì¼¼ Á¶Á¤ÇÒ ¼ö ÀÖ´Ù. À̶§ ¿£ºñµð¾Æ ÅÙ¼­ ÄÚ¾î(Tensor Core) GPU¿¡¼­ È¥ÇÕ Á¤¹Ðµµ ÄÄÇ»ÆÃÀ» »ç¿ëÇØ ÈÆ·Ã ¼Óµµ¸¦ ³ôÀδÙ.

¿£ºñµð¾Æ NeMo´Â ¸ðÁú¶ó Ä¿¸Õ º¸À̽º(Mozilla Common Voice)·Î ÈÆ·ÃÇÑ ¸ðµ¨À» NGC Ä«Å»·Î±×¸¦ ÅëÇØ Á¦°øÇÑ´Ù. ¸ðÁú¶ó Ä¿¸Õ º¸À̽º´Â 76°³ ¾ð¾î¿Í 14,000½Ã°£ ºÐ·®ÀÇ À½¼º µ¥ÀÌÅ͸¦ Å©¶ó¿ìµå ¼Ò½Ì ¹æ½ÄÀ¸·Î ¼öÁýÇÑ µ¥ÀÌÅͼ¼Æ®´Ù. ¿£ºñµð¾Æ´Â ÇØ´ç ÇÁ·ÎÁ§Æ®¿¡ ´ëÇÑ Áö¿øÀ» ÅëÇØ ¼¼°è ÃÖ´ëÀÇ °ø°³ µ¥ÀÌÅÍ À½¼º µ¥ÀÌÅͼ¼Æ®¸¦ ±¸ÃàÇÏ°í À½¼º ±â¼úÀ» ´ëÁßÈ­ÇÒ ¹æħÀÌ´Ù.

 

ÀÎÅͽºÇÇÄ¡´Â 1,000¸í ÀÌ»óÀÇ ¿¬±¸ÀÚ°¡ Çѵ¥ ¸ð¿© À½¼º ¾ð¾î ó¸® ±â¼úÀÇ Çõ½ÅÀ» ¼±º¸ÀÌ´Â ÀÚ¸®ÀÌ´Ù. ±ÝÁÖÀÇ ÄÁÆÛ·±½º¿¡¼­ ¿£ºñµð¾Æ ¿¬±¸ÁøÀº ´ëÈ­Çü AI ¸ðµ¨ ¾ÆÅ°ÅØó¿Í ´õºÒ¾î °³¹ßÀÚ¸¦ À§ÇØ Æ÷¸ËÆÃÀ» ¿Ï·áÇÑ À½¼º µ¥ÀÌÅͼ¼Æ®¸¦ ¼Ò°³ÇÑ´Ù.

NGC Ä«Å»·Î±×¿¡¼­ ¿£ºñµð¾Æ NeMo ¸ðµ¨À» È®ÀÎÇÒ ¼ö ÀÖÀ¸¸ç, ÀÎÅͽºÇÇÄ¡¿¡¼­ ¿£ºñµð¾Æ ¿¬±¸ÁøÀÇ ¼¼¼ÇÀ» ½ÃûÇÒ ¼ö ÀÖ´Ù.

´Ð³×ÀÓ
ºñȸ¿ø

º¸µå³ª¶ó ¸¹ÀÌ º» ´º½º
º¸µå³ª¶ó ¸¹ÀÌ º» ±â»ç
·Î±×ÀÎ | ÀÌ ÆäÀÌÁöÀÇ PC¹öÀü
Copyright NexGen Research Corp. 2010