OpenAI展示高級語音視覺功能：ChatGPT可識別物件並指導操作，擴展智能應用前景

OpenAI在為期12天的直播發布會的第6天，展示其高級語音視覺功能。簡而言之，ChatGPT Plus、Team或Pro的訂閱用戶只需打開ChatGPT應用程式，將相機對準物體，就可以理解圖像或視頻的內容。在直播中，一位主持人準備沖咖啡，當鏡頭對準他時，人工智能識別出畫面中的用具，從而理解他正在準備沖咖啡。當主持人進一步詢問時，ChatGPT透過鏡頭了解他的動作，並以近乎真人的語音和語氣，適時提供意見和指導，逐步引導他完成沖咖啡的過程。

這次示範展現出，在高級語音視覺功能下，ChatGPT不僅能識別鏡頭前的物件，還能指導用戶完成不同動作，以達成目標。這種結合視覺和語音功能的新技術效果，如果應用於智能眼鏡上，可能對市場發展和普及帶來重大影響。

此外，高級語音模式已能模擬人類日常對話。在聖誕節期間，OpenAI特別推出了模仿聖誕老人聲音的功能，用戶只需點擊界面上的雪花圖標即可激活，可以在節日期間與聖誕老人進行對話。