免费用户没有被抛弃,我刚刚获得了 GPT-4o ,快登录你的免费帐号看看

2024-05-14 分类：Linux技术作者：Linux网站管理员阅读（383）

GNhz3slaAAAs2lz

OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”)，它可以同时处理文本、音频、视频，让你与 AI 的交流变得和人一样，你可以和它面对面视频，它会在很短的时间内做出响应。那个电影里的贾维斯，大概就这来了。

主要特点

GPT-4o 能接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。

它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应，这类似于对话中的人类响应时间。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

以前为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。

而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

它在英语和代码文本上的性能与 GPT-4 Turbo 相当，在非英语语言文本上的性能也有显著提高，同时在应用程序接口（API）上的速度更快，价格便宜 50%。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

如何使用

GPT-4o 的文本和图像（无视频）功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制，免费版本可用 GPT-4o。

未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员（API 用户）现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。

未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

GPT-4o的o”代表omni”。该词意为全能”，源自拉丁语omnis”，在英语中omni”常被用作词根，用来表示全部”或所有”的概念。

GPT-4o可以实时对音频、视觉和文本进行推理，能处理超过50种不同的语言，并且速度和质量大大提升。

此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，无法识别笑声、歌唱声和情感表达等。

而GPT-4o可以在232毫秒内对音频输入做出反应，甚至还能随意打断，与人类在对话中的反应时间相近，彻底颠覆了以往的语音助手”。

GPT-4o在现场充当实时翻译也是相当的丝滑，意大利语和英语即听即翻。

最重要的是，GPT-4o还可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，人机交互更加自然、全面了。

GPT-4o的能力还会向免费用户开放，不过会限制数量，免费用户达到数量之后，会自动跳回GPT-3.5。

GPT-4o还将开放相应API给GPT的开发者，价格是GPT-4-turbo的一半，速度却是GPT-4-turbo的两倍，速率限制也高5倍。

官方表示，GPT-4o将会在未来几周内陆续开放。

此外，OpenAI还推出了ChatGPT的桌面版应用，不过目前只有MacOS版本，Windows版要稍晚一些亮相。

OpenAI首席技术官米拉·穆拉蒂（Muri Murati）在发布会上表示：“通过语音、文本和视觉进行推理非常重要，因为我们正在研究与机器交互的未来。”

官网显示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户，Plus用户的消息数量使用上限是免费版的5倍（使用上限后会切换回GPT-3.5版本）。而新版语音模式将在未来几周向Plus用户推出，同时也将会在API（应用接口）中向小范围推出对GPT-4o的新音频和视频功能的支持。

479

穆拉蒂在OpenAI春季更新发布会上介绍GPT-4o

在发布会现场演示中，GPT-4o可以像人工智能助手一样，实现用户与ChatGPT的实时交互，不再是一问一答，也不需要其他按键操作。

比如，用户可以说“Hi，ChatGPT”并提出问题，也可以在ChatGPT回答时打断它，它还可以识别用户声音中展现的情感，甚至实时根据用户的需求来使用不同情感风格的声音。

据介绍，GPT-4o的音频输入平均反应时间为0.32秒，与人类对话中的反应时间相似。

OpenAI表示，在GPT-4o之前，使用语音模式与ChatGPT对话的平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模式由三个独立模型组成：一个简单模型将音频转为文本，GPT-4接收文本并输出文本，第三个简单模型将文本转回音频。这个过程也让主要的智能源GPT-4丢失了很多信息，比如不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。而GPT-4o通过在文本、视觉和音频方面训练了一个端到端新模型，所有输入和输出都由同一个神经网络处理。

不过，OpenAI也坦言，由于GPT-4o是公司首个结合了所有前述模式的模型，因此在探索模型功能及其局限性方面仍处于起步阶段，GPT-4o也开始扩大红队（测试）的访问权限。

此外，GPT-4o还提高了ChatGPT的视觉能力。在现场演示中，通过手机实时拍摄的视频或电脑桌面屏幕上的截图，ChatGPT可以快速回答相关问题，帮助解决计算、编程等问题。

演示中还出现了一段小插曲。因为“幻觉”问题，ChatGPT在还没打开摄像头看到画面时就表示理解了，在演示者提示后，她说“哎呀，我太兴奋了”，随后实时指导完成了一道数学题。

同时，OpenAI还在X（推特）上实时搜集到网友的反馈，进行了ChatGPT的情绪分析演示。通过演示者的实时摄像头画面，对表情中的开心、兴奋等情绪做出了分析。

GPT-4o的英语和代码文本性能与GPT-4 Turbo相当，在非英语语言文本方面也有显著提高，能支持50种语言。发布会上，穆拉蒂演示了让全新ChatGPT充当只会意大利语与只会英语的两人的翻译，实现了跨语种交流的无缝衔接。

499

GPT-4o速度比GPT-4 Turbo快2倍，价格则便宜了一半

发布会上，ChatGPT还发布了电脑桌面版和新UI界面。根据官方公告，目前仅适用于macOS，Windows版将在今年晚些时候推出。

“我们知道这些模型越来越复杂，但我们希望交互体验变得更加自然、轻松，并且让你根本不关注用户界面，而是专注于与GPT（交互）。”穆拉蒂表示。

OpenAI CEO山姆·奥特曼（Sam Altman）也表示：“对我来说，与电脑交谈从来没有真正自然过，而现在却很自然……我真的看到了一个令人兴奋的未来，我们可以用电脑做比以往更多的事情。”

“AI达到人类级别的响应时间和表现力是一个很大的改变，给人的感觉就像电影中的人工智能，而它的真实性仍然让我感到有些惊讶。”他表示，“最初的ChatGPT展示了语言界面的雏形，而这款新模型给人的感觉却截然不同，它快速、智能、有趣、自然而且乐于助人。”

奥特曼还发文“her”，或许也表达了他对GPT-4o的评价以及对未来的畅想（在电影《Her》中，人工智能助手Samantha主动给男主人公打了电话，告知他一些事情）。

500

山姆·奥特曼的推文

奥特曼表示，OpenAI的一项重要使命就是免费（或以优惠价格）向人们提供功能强大的人工智能工具，“我感到非常自豪的是，我们在ChatGPT中免费提供了世界上最好的模型，并且没有广告或类似的东西”。

他表示：“我们是一家企业，会找到很多可以收费的东西，这将帮助我们为数十亿人提供免费、出色的人工智能服务（希望如此）。”

此前，据外媒报道，苹果公司已接近与OpenAI达成协议，今年将后者的部分技术引入iPhone，提供由ChatGPT支持的“聊天机器人”作为iOS 18中人工智能功能的一部分。

不过，苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。而谷歌将在OpenAI此次春季更新发布会之后一天举行I/O开发者大会，谷歌在大会的官方博文中曾提到“Gemini 时代”，预计将会发布Gemini大模型的最新动态。

「梦想一旦被付诸行动，就会变得神圣，如果觉得我的文章对您有用，请帮助本站成长」

赞(0) 打赏

标签：

GPT-4o 免费用户没有被抛弃免费用户没有被抛弃，我刚刚获得了 GPT-4o 快登录你的免费帐号看看我刚刚获得了 GPT-4o

上一篇：海西州二审法院居然通过微信聊天遥控指挥,被辩护人现场抓拍并报警

下一篇：VmShell美国IPV6服务器怎么一键搭建SS,搭建Shadowsocks(R)服务器，使用一键SS搭建脚本

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务，具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: admin@linuxxword.com，我们免费帮大家发布，不收取任何费用,请提供完整测试文稿!

文章总数： 2590 篇
草稿数目： 22 篇
分类数目： 6 个
独立页面： 0 个
评论总数： 2 条
链接总数： 0 个
标签总数： 13020 个
注册用户： 139 人
访问总量： 8,656,361 次
最近更新： 2024年11月21日

免费用户没有被抛弃,我刚刚获得了 GPT-4o ,快登录你的免费帐号看看

OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

主要特点

如何使用

相关推荐

博客简介

最近更新

随机文章

热门标签

精彩评论

友情链接

站点统计