OpenAI发布 GPT-4o 用户可直接跟ChatGPT谈话！

美国OpenAI全新人工智能模型GPT-4o面世，它能进行逼真语音对话，让用户直接同ChatGPT交谈，计划未来几周内会逐步在其各种产品中推出！

这项新功能可以让用户直接同ChatGPT交谈，并获得及时回应，还能在ChatGPT说话时打断它，这两项逼真的对话特点，在聊天机器人上简直就是前所未见。

OpenAI首席技术官米拉慕拉迪说，GPT-4o在保持GPT-4级别智能同时，对文本、视觉和音频功能都有大改进，所有用户均可免费使用，而付费用户容量限制是免费用户的5倍。

OpenAI研究人员在直播活动上，展示了新的音频功能。ChatGPT利用视觉和语音功能同研究人员对话，解开印在纸张上的数学方程式。此外，研究团队也演示了型GPT-4o的实时语言翻译能力。

米拉说，GPT-4o跨越了语音、文本和视觉多个领域，而OpenAI将推出桌面版ChatGPT及全新用户界面。

GPT-4是OpenAI之前领先模型，它集成图像和文本功能，能够分析图像和文本，完成从提取图像中的文本到描述图像内容等任务，而GPT-4o在此基础上增加了语音功能。

GPT-4o所增强的视觉功能，在通过照片或屏幕截图，ChatGPT可迅速回答相关问题，从：“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

OpenAI表示，计划在下月左右为Plus用户推出改良后的GPT-4o语音体验。

用户只需发出简单的“嘿，ChatGPT”语音提示，即可获得代理口语回应。然后，用户可以用口语提交查询，并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

在音频输入方面，人工智能的平均响应时间为320毫秒，与人类的对话响应时间类似。

目前，GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险，OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

另一方面，OpenAI还表示，未来几周内也会开始向免费版ChatGPT推出更多智能和高级工具，在使用GPT-4o时，ChatGPT免费用户，也可访问相关功能，包括：体验GPT-4级智能、获取来自模型和网络回复、分析数据并创建图表、上传文件寻求帮助总结写作或分析等。

（新闻综合整理自《新浪科技》《8视界》）