重磅！OpenAI推出新旗舰模型GPT-4o

周三, 05/15/2024 - 09:04

重磅！OpenAI推出新旗舰模型GPT-4o

重磅！当地时间5月13日，虽然没有带来备受期待的人工智能（AI）搜索引擎，但是OpenAI通过直播展示了产品更新，公司首席技术官Mira Murati向外界展现了多项与ChatGPT有关的更新。

综合媒体报道，整体来看，活动主要分为两大部分：推出新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。其中最重磅的是新的模型GPT-4o。根据OpenAI的官网解释，"o"代表“omni”。

该词意为“全能”，源自拉丁语“omnis”。在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。分析指出，这也是朝着更自然的人类与计算机交互迈出的一步。

根据OpenAI的官方新闻稿，GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

OpenAI称，“我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

OpenAI研究员Mark Chen表示，新模型具有“感知情绪”的能力，能输出笑声、歌唱或表达情感，还可以处理用户打断它的情况。在直播中，OpenAI演示了一段OpenAI员工与GPT-4o对话的视频，模型反应速度与人类相近，GPT-4o可利用手机摄像头描述其“看到”的东西。

除了在直播中重点强调的功能，在OpenAI的技术文档中，我们看到在GPT4-o的能力列表中，还包含3D能力、图像诗能力、转换卡通照片等能力。

更多工具免费解锁

ChatGPT的免费用户也能用上最新发布的GPT-4o模型（更新前只能使用GPT-3.5），来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者，将面对海量的新增用户。

当然，付费用户将会获得更高的消息限额（OpenAI说至少是5倍）。当免费用户用完消息数量后，ChatGPT将自动切换到 GPT-3.5。另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。

另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用，用户可以通过快捷键“拍摄”桌面并向ChatGP提问，OpenAI表示，Windows版本将在今年晚些时候推出。

OpenAI推出适用于macOS的ChatGPT桌面应用程序，通过简单的键盘快捷键（Option + Space）可以立即向ChatGPT提问，还可以直接在应用程序中截取屏幕截图与机器人进行讨论。

未能参加直播活动的OpenAI首席执行官山姆·奥特曼（Sam Altman）在社交平台X上发帖表示：“我们的新模型：GPT-4o是我们迄今为止最优秀的模型。它既智能又快速，并且是原生多模态模型。”

不少科技界人士发表了对OpenAI此次产品更新的看法。“我没想到GPT-4o会接近GPT-5。传闻中OpenAI的‘Arrakis’模型就采用多模态输入和输入。事实上，它可能是GPT-5的一个早期检查点（checkpoint），尚未完成训练。”英伟达高级科学家Jim Fan在社交媒体上评论称。

Jim Fan认为，在谷歌召开I/O大会前，OpenAI宁愿发布超过人们对GPT-4.5心理预期的产品，也不愿因为推出达不到人们期望的GPT-5，而让人感到失望。此外，谁先赢得苹果，谁就将大获全胜，与iOS整合有几个层次，例如抛弃Siri，OpenAI为iOS提炼出一个更小层级、设备上运行的GPT-4o。虽然此次未公开相关论文，加利福尼亚大学圣克鲁兹分校教授Xin Eric Wang还是评论认为，一个演示胜过千篇论文。

重磅！OpenAI推出新旗舰模型GPT-4o

享受激动人心的交易体验！