MS (¸¶ÀÌÅ©·Î¼ÒÇÁÆ®)°¡ ¿ÃÇØ ÃÊ ÀμöÇÑ AI (ÀΰøÁö´É) Àü¹® ±â¾÷ ¸Ö·ç¹Ù(Maluuba)°¡ °íÀü °ÔÀÓ ÆÑ¸Ç ÃÖ°í Á¡¼ö¸¦ ¾ò±â À§ÇØ AI ±â¹Ý ½Ã½ºÅÛÀ» °³¹ßÇÏ¿´´Ù.
¸Ö·ç¹ÙÀÇ ¿¬±¸ÀÚµéÀº ÆÑ¸Ç(Pac-Man) ¾ÆÅ¸¸® 2600 ¹öÀüÀÇ À̷лó ÃÖ°í Á¡¼ö 999,990Á¡À» ¾ò±â À§ÇØ °ÈÇнÀ(Reinforcement Learning)À̶ó°í ºÎ¸£´Â AI¸¦ »ç¿ëÇÏ¿´´Ù. À̹ø AI´Â 150°³ ÀÌ»óÀÇ ¿¡ÀÌÀüÆ®µéÀÌ ¼·Î º´·Ä ÀÛ¾÷ÇÏ´Â ÇÏÀ̺긮µå ¸®¿öµå ¾ÆÅ°ÅØÃ³(Hybrid Reward Architecture)¸¦ »ç¿ëÇÑ´Ù.
°¢°¢ÀÇ ¿¡ÀÌÀüÆ®´Â ÆÑ¸ÇÀÌ ¸Ô¾î¾ß ÇÏ´Â °øÀ» ã´Â Àϰú ÆÑ¸ÇÀÇ ÀûÀÎ À¯·ÉÀ» ÁÖ½ÃÇÏ´Â ÀÏÀ» ºÐ´ãÇÑ´Ù. ¿¡ÀÌÀüÆ®µéÀº ½´ÆÛ ¿¡ÀÌÀüÆ®¿¡°Ô º¸°íÇÏ°í ±×°ÍÀ» Åä´ë·Î ÆÑ¸ÇÀÇ À̵¿ À§Ä¡°¡ °áÁ¤ µÈ´Ù.
¸Ö·ç¹Ù ÇÁ·Î±×·¥ °ü¸®ÀÚ ¶ó¿ï ¸Þ·ÎŸ(Rahul Mehrotra)´Â ÆÑ¸ÇÀ» ¼±Á¤ÇÑ ÀÌÀ¯¿¡ ´ëÇØ¼ "¼ö¸¹Àº ±â¾÷µéÀÌ AI ¾Ë°í¸®ÁòÀ» ±¸ÃàÇÒ ¶§ °ÔÀÓÀ» »ç¿ëÇÑ´Ù", "°ÔÀÓ¿¡¼ À̱â±â À§ÇØ Àΰ£°ú À¯»çÇÑ Á¤º¸ ´É·ÂÀ» ÇÊ¿ä·Î Çϱ⠶§¹®ÀÌ´Ù"¶ó°í ¼³¸íÇÏ¿´´Ù.
¶ÇÇÑ ±×´Â À̹ø AI ±â¼úÀÌ ¾ÕÀ¸·Î ±â¾÷ÀÇ ¿µ¾÷ ºÎ¼¿¡¼ °í°´µéÀ» »ó´ë·Î ÇÏ¿© °Å·¡¸¦ ¼º»ç ½ÃŰ´Â °¡´É¼ºÀ» ±Ø´ëÈ ½ÃŰ´Â µ¥ ±â¿©ÇÒ ¼ö ÀÖ´Ù°í ÇÏ¿´´Ù. |