OpenAI发布 GPT-4o 用户可直接跟ChatGPT谈话!
美国OpenAI全新人工智能模型GPT-4o面世,它能进行逼真语音对话,让用户直接同ChatGPT交谈,计划未来几周内会逐步在其各种产品中推出!
这项新功能可以让用户直接同ChatGPT交谈,并获得及时回应,还能在ChatGPT说话时打断它,这两项逼真的对话特点,在聊天机器人上简直就是前所未见。
OpenAI首席技术官米拉慕拉迪说,GPT-4o在保持GPT-4级别智能同时,对文本、视觉和音频功能都有大改进,所有用户均可免费使用,而付费用户容量限制是免费用户的5倍。
OpenAI研究人员在直播活动上,展示了新的音频功能。ChatGPT利用视觉和语音功能同研究人员对话,解开印在纸张上的数学方程式。此外,研究团队也演示了型GPT-4o的实时语言翻译能力。
米拉说,GPT-4o跨越了语音、文本和视觉多个领域,而OpenAI将推出桌面版ChatGPT及全新用户界面。
GPT-4是OpenAI之前领先模型,它集成图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务,而GPT-4o在此基础上增加了语音功能。
GPT-4o所增强的视觉功能,在通过照片或屏幕截图,ChatGPT可迅速回答相关问题,从:“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。
OpenAI表示,计划在下月左右为Plus用户推出改良后的GPT-4o语音体验。
用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。
Say hello to GPT-4o, our new flagship model which can reason across
audio, vision, and text in real time: https://t.co/MYHZB79UqNText and
image input rolling out today in API and ChatGPT with voice and video
in the coming weeks. pic.twitter.com/uuthKZyzYx— OpenAI (@OpenAI)
May 13, 2024
在音频输入方面,人工智能的平均响应时间为320毫秒,与人类的对话响应时间类似。
目前,GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。
另一方面,OpenAI还表示,未来几周内也会开始向免费版ChatGPT推出更多智能和高级工具,在使用GPT-4o时,ChatGPT免费用户,也可访问相关功能,包括:体验GPT-4级智能、获取来自模型和网络回复、分析数据并创建图表、上传文件寻求帮助总结写作或分析等。
(新闻综合整理自《新浪科技》《8视界》)