¾Ë¸®¹Ù¹Ù ±×·ìÀÇ µðÁöÅÐ ±â¼ú ¹× ÀÎÅÚ¸®Àü½º ÁßÃßÀÎ ¾Ë¸®¹Ù¹Ù Ŭ¶ó¿ìµå°¡ ÀÚ»ç Å¥¿ø(Qwen) ½Ã¸®ÁîÀÇ ÅëÇÕ ¿£µåÅõ¿£µå(end-to-end) ¸ÖƼ¸ð´Þ ¸ðµ¨ÀÎ Qwen2.5-Omni-7B¸¦ »õ·Ó°Ô °ø°³Çß´Ù.
À̹ø ¸ðµ¨Àº Á¾ÇÕÀûÀÎ ¸ÖƼ¸ð´Þ ÀνÄÀ» À§ÇØ ¼³°èµÇ¾î, ÅؽºÆ®, À̹ÌÁö, À½¼º, ¿µ»ó µî ´Ù¾çÇÑ ÇüÅÂÀÇ ÀÔ·Â Á¤º¸¸¦ ó¸®ÇÏ°í ½Ç½Ã°£ ÅؽºÆ® ¹× ÀÚ¿¬½º·¯¿î À½¼º ÀÀ´äÀ» Áö¿øÇÔÀ¸·Î½á ¸ð¹ÙÀÏ ±â±â¿Í ³ëÆ®ºÏ°ú °°Àº ¿§Áö µð¹ÙÀ̽º¿¡ ÃÖÀûÈµÈ ¸ÖƼ¸ð´Þ AI ±â¼úÀÇ »õ·Î¿î Ç¥ÁØÀ» Á¦½ÃÇÑ´Ù.
Qwen2.5-Omni-7B´Â 7B(70¾ï) ÆĶó¹ÌÅÍÀÇ ÄÄÆÑÆ®ÇÑ ¼³°è¿¡µµ ºÒ±¸ÇÏ°í ¼º´É ÀúÇÏ ¾øÀÌ °·ÂÇÑ ¸ÖƼ¸ð´Þ ó¸® ´É·ÂÀ» Á¦°øÇÑ´Ù. ÀÌ·¯ÇÑ °íÀ¯ÇÑ Á¶ÇÕÀº ƯÈ÷ Áö´ÉÇü À½¼º ¾ÖÇø®ÄÉÀ̼ǰú °°ÀÌ ½ÇÁúÀûÀÎ °¡Ä¡¸¦ Á¦°øÇÏ´Â ¹ÎøÇÏ°í ºñ¿ë È¿À²ÀûÀÎ AI ¿¡ÀÌÀüÆ® °³¹ß¿¡ ÀûÇÕÇÏ´Ù. ¿¹¸¦ µé¾î ÀÌ ¸ðµ¨Àº ½Ã°¢ Àå¾ÖÀÎÀÌ ½Ç½Ã°£ À½¼º ¼³¸íÀ» ÅëÇØ ÁÖº¯ ȯ°æÀ» ÀνÄÇÏ°í Ž»öÇÒ ¼ö ÀÖµµ·Ï Áö¿øÇϰųª, µ¿¿µ»ó ¼Ó Àç·á¸¦ ºÐ¼®ÇØ ´Ü°èº° ¿ä¸® °¡À̵带 Á¦°øÇÏ´Â µ¥ È°¿ëµÉ ¼ö ÀÖ´Ù. ¶ÇÇÑ °í°´ÀÇ ´ÏÁ Á¤È®È÷ ÀÌÇØÇÏ´Â Áö´ÉÇü °í°´ ÀÀ´ë ½Ã½ºÅÛ ±¸Çö¿¡µµ Àû¿ë °¡´ÉÇÏ´Ù.
Qwen2.5-Omni-7B´Â ÇöÀç Çã±ëÆäÀ̽º(Hugging Face)¿Í ±êÇãºê(GitHub)¸¦ ÅëÇØ ¿ÀǼҽº·Î °ø°³µÇ¾úÀ¸¸ç, Å¥¿ø ê(Qwen Chat)°ú ¾Ë¸®¹Ù¹Ù Ŭ¶ó¿ìµå ¿ÀǼҽº Ä¿¹Â´ÏƼÀÎ ¸ðµ¨½ºÄÚÇÁ(ModelScope)¸¦ ÅëÇؼµµ Á¢±ÙÇÒ ¼ö ÀÖ´Ù. ¾Ë¸®¹Ù¹Ù Ŭ¶ó¿ìµå´Â Áö³ ¸î ³â°£ ÃÑ 200°³ ÀÌ»óÀÇ »ý¼ºÇü AI ¸ðµ¨À» ¿ÀǼҽº·Î °ø°³ÇÑ ¹Ù ÀÖ´Ù.
Qwen2.5-Omni-7B´Â ¸ðµç ¸ð´Þ¸®Æ¼ Áß¿¡¼ ¶Ù¾î³ ¼º´ÉÀ» ¹ßÈÖÇϸç, À¯»çÇÑ ±Ô¸ðÀÇ ´ÜÀÏ ¸ð´Þ¸®Æ¼(single-modality) Æ¯È ¸ðµ¨°ú ºñ±³Çصµ ¼Õ»öÀÌ ¾ø´Ù. ƯÈ÷ ½Ç½Ã°£ À½¼º »óÈ£ÀÛ¿ë, ÀÚ¿¬½º·´°í ¾ÈÁ¤ÀûÀÎ À½¼º »ý¼º, ¿£µåÅõ¿£µå À½¼º ¸í·É¾î ÀÌÇà µî¿¡¼ ¾÷°è ÃÖ°í ¼öÁØÀÇ º¥Ä¡¸¶Å©¸¦ Á¦½ÃÇß´Ù.
ÇØ´ç ¸ðµ¨ÀÇ È¿À²¼º°ú °í¼º´ÉÀº Çõ½ÅÀûÀÎ ¾ÆÅ°ÅØó¿¡¼ ºñ·ÔµÈ´Ù. ´ëÇ¥ÀûÀ¸·Î ÅؽºÆ® »ý¼º(Thinker)°ú À½¼º ÇÕ¼º(Talker)À» ºÐ¸®ÇÏ¿© ¼·Î ´Ù¸¥ ¸ð´Þ °£ÀÇ °£¼·À» ÃÖ¼ÒÈÇÏ´Â Thinker-Talker ¾ÆÅ°ÅØó(Thinker-Talker Architecture); ÀÏ°üµÈ ÄÜÅÙÃ÷ »ý¼ºÀ» À§ÇØ ºñµð¿À ÀԷ°ú ¿Àµð¿À¸¦ º¸´Ù Àß µ¿±âÈÇÏ´Â À§Ä¡ ÀÓº£µù(position imbedding) ±â¼ú TMRoPE(Time-aligned Multimodal RoPE); ±×¸®°í ²÷±è¾ø´Â À½¼º »óÈ£ÀÛ¿ëÀ» À§ÇÑ ÀúÁö¿¬(low latency)¿Àµð¿À ÀÀ´äÀ» °¡´ÉÇÏ°Ô ÇÏ´Â ºí·Ï¿ÍÀÌÁî ½ºÆ®¸®¹Ö ó¸®(Block-wise Streaming Processing) µîÀÌ Àû¿ëµÇ¾ú´Ù.
Qwen2.5-Omni-7B´Â À̹ÌÁö-ÅؽºÆ®, ¿µ»ó-ÅؽºÆ®, ¿µ»ó-À½¼º, À½¼º-ÅؽºÆ®, ÅؽºÆ® µ¥ÀÌÅ͸¦ Æ÷ÇÔÇÑ ¹æ´ëÇÏ°í ´Ù¾çÇÑ µ¥ÀÌÅͼÂÀ» ±â¹ÝÀ¸·Î »çÀü ÇнÀµÇ¾î ´Ù¾çÇÑ ÀÛ¾÷¿¡¼ °·ÂÇÑ ¼º´ÉÀ» º¸ÀåÇÑ´Ù.
Çõ½ÅÀûÀÎ ¾ÆÅ°ÅØó¿Í °íÇ°Áú »çÀüÇнÀ µ¥ÀÌÅͼÂÀ» ¹ÙÅÁÀ¸·Î ÀÌ ¸ðµ¨Àº À½¼º ¸í·ÉÀ» Á¤È®È÷ ÀÌÇØÇÏ°í ¼öÇàÇÏ´Â µ¥ ¶Ù¾î³ ¼º´ÉÀ» º¸À̸ç, ÅؽºÆ® ÀԷ¸¸ »ç¿ëÇÏ´Â °æ¿ì¿Í À¯»çÇÑ ¼öÁØÀÇ ¼º´ÉÀ» ´Þ¼ºÇÑ´Ù. ƯÈ÷ ½Ã°¢, û°¢(acoustic), ÅؽºÆ® Á¤º¸¸¦ ÅëÇÕÀûÀ¸·Î ÀνÄ, Çؼ®, Ãß·ÐÇÏ´Â ´É·ÂÀ» Æò°¡ÇÏ´Â OmniBench º¥Ä¡¸¶Å©¿Í °°ÀÌ ´Ù¾çÇÑ ¸ð´Þ¸®Æ¼¸¦ ÅëÇÕÀûÀ¸·Î ó¸®ÇØ¾ß ÇÏ´Â ÀÛ¾÷¿¡¼µµ Qwen2.5-Omni´Â ÃÖ°í ¼öÁØÀÇ ¼º´ÉÀ» ±â·ÏÇß´Ù.
Qwen2.5-Omni-7B´Â ÀÎÄÁÅؽºÆ® ·¯´×(in-context learning, ICL)À» ÅëÇØ »óȲ°ú¸Æ¶ô¿¡ µû¸¥ À½¼º ÀÌÇØ ¹× »ý¼º ´É·ÂÀ» Çâ»ó½ÃÄ×´Ù. ¶Ç, °ÈÇнÀ (Reinforcement Learning, RL) ±â¹Ý ÃÖÀûȸ¦ ÅëÇØ »ý¼º ¾ÈÁ¤¼º¿¡¼ »ó´çÇÑ Çâ»óÀ» º¸¿´À¸¸ç, À½¼º ÀÀ´ä ½Ã ÁÖÀÇ·Â ºÐ»ê, ¹ßÀ½ ¿À·ù, ºÎÀÚ¿¬½º·¯¿î Á¤Áö Çö»ó µîÀÌ ÇöÀúÈ÷ °¨¼ÒµÇ¾ú´Ù.
ÇÑÆí, ¾Ë¸®¹Ù¹Ù Ŭ¶ó¿ìµå´Â Áö³ÇØ 9¿ù Qwen2.5¸¦ óÀ½ °ø°³ÇÑ µ¥ À̾î, ¿ÃÇØ 1¿ù¿¡´Â Qwen2.5-Max¸¦ Ãâ½ÃÇØ Chatbot Arena¿¡¼ 7À§¸¦ ±â·Ï, ´ëµîÇÑ ÁÖ¿ä »ó¿ë ¸ðµ¨µé ´ëºñ¶Ù¾î³ ¼º´ÉÀ» ÀÔÁõÇÑ ¹Ù ÀÖ´Ù. ¶ÇÇÑ ½Ã°¢ ÀÌÇØ¿Í Àå¹® ÀԷ ó¸®¸¦ À§ÇÑ ¸ðµ¨ÀÎ Qwen2.5-VL°ú Qwen2.5-1M µîÀ» ¿ÀǼҽº·Î °ø°³Çß´Ù.
|