钱江晚报数字报纸

a0004版：潮新闻·深度

文章导航

OpenAI上新长出“眼睛”“嘴巴”的GPT-4o发布

OpenAI上新长出“眼睛”“嘴巴”的GPT-4o发布

浙大人工智能专家：未来的大模型，将是一位超级“私人助手”

本报记者朱高祥

ChatGPT为视障用户提供指引来源OpenAI官网

对同一张办公桌照片的解读，GPT-4o（下）比GPT-4更为详细全面

　　OpenAI上新

长出“眼睛”“嘴巴”的GPT-4o发布

浙大人工智能专家：未来的大模型，将是一位超级“私人助手”

　　美国当地时间5月13日22：00，OpenAI举行了名为“春季更新”的线上发布会，宣布推出GPT-4的升级款模型GPT-4o。

　　这场发布会堪称简陋，前后持续不到半个小时，也没有大屏PPT，核心环节就是由首席技术官Mira Murati带着两位员工一起在现场展示新模型。

　　但这场发布会依旧惊艳，正如GPT-4o中的“o”（omn，意为全能），GPT-4o长出了“眼睛”“嘴巴”，变得全知全能。

　　不少网友惊呼，电影照进现实，未来应用充满无限想象空间。

　　记者实测：

支持输入图片和文件

更详细更全面

　　5月14日，GPT-4o发布后，OpenAI的首席执行官Sam Altman在社交媒体上发帖，仅有一个字“her”。

　　《her》是一部科幻电影的名字，影片中，人工智能系统“萨曼莎”不仅能够帮助男主西奥多完美地处理好工作，而且还是朵“解语花”。她拥有性感的声线，细腻的情感，并且风趣幽默，她能够和西奥多进行深度交流。

　　而“her”，也是很多人看到GPT-4o演示之后的最大感受，它似乎变得跟真人一样了。

　　昨天，为了验证GPT-4o的强大，本报记者特约在美国的同行，打开ChatGPT的app进行了实测。

　　通过交流，记者注意到，GPT-4o与它的前任GPT-3.5最明显的不同在于界面，GPT-3.5仅支持文字与语音输入，但GPT-4o可以输入文字、语音、图片以及文件等。

　　当记者询问GPT-4o可以做什么？它回答称，可以“回答问题”“语言翻译”“写作和编辑”“提供建议”“数学和编程”“数据分析”“创建图像”“实时信息查询”等。

　　对于“实时信息查询”，记者分别用“杭州今日天气”向GPT-3.5、GPT-4与GPT-4o进行了询问，只有GPT-4与GPT-4o可以回答。

　　本报记者拍摄了一张办公桌照片让GPT-4与GPT-4o进行描述，这两个大模型都可以在几秒钟之内给出解读。但对比来看，GPT-4o总结得更为详细，也更为全面。

　　值得注意的是，与发布会上的演示不同，目前ChatGPT仅接入GPT-4o有限功能，尚不可以利用摄像头对现实场景分析，也不能在与其语音沟通时实时打断。

　　不过，OpenAI已经宣布推出一款适用于macOS的桌面级应用，使用键盘快捷键就可向ChatGPT提问。

　　AI专家：

印象最深的是

它能像“一个人”一样互动

　　在发布会上，OpenAI现场展示了和ChatGPT的若干互动，包括：实时对话交互、语音多样化（应用户需求使用不同情绪、语调等）、视频指导做题、视频识别环境和人（包括人的情绪）、以桌面应用形式辅助编程、实时翻译等。

　　OpenAI同时还放出了预先录制的展示样例若干，包括：两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、“毒舌”讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

　　最让人惊讶的还是视频对话：用户打开摄像头，让ChatGPT“看”到当下，并进行互动。

　　用前置镜头自拍，ChatGPT可以识别用户的情绪，如“看起来很开心”；还能从用户背后的画面判断其身处的环境，如“看起来你在一个摄影棚中，背后有一些灯光，你的胸前还别着麦克风，可能在录制视频之类的”。

　　用后置镜头，ChatGPT就可以和用户共享视角。如在语言学习的过程中，打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引，告诉用户“来了一辆计程车，现在招手吧”。

　　浙江大学人工智能研究所所长吴飞告诉钱报记者，GPT-4o可以像“一个人”一样实时互动，是最让人印象深刻的地方。

　　“自然语言交互也是OpenAI一直以来的理念，就是让人工智能像人一样能够交流。”吴飞说，在发布会上可以看到，与GPT-4o进行交流的时候，你不觉得对方是一个机器，就觉得对方是一个人，交互显得非常自然。

　　吴飞分析称，这些惊艳的产品表现，根本上源自于GPT-4o多模态大模型的技术进步，是跨文本、视觉和音频端到端地训练了一个新模型。

　　OpenAI称这是其突破深度学习界限的最新举措。目前，GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类的响应时间相似。

　　吴飞认为，快速发展的多模态大模型给未来应用带来了丰富的想象空间。比如，也许不久的将来大模型不再仅仅是一个聊天机器人，而是将成为超级私人助手。不仅在工作上，在出游、订餐等生活的方方面面，大模型都可以快速地定制化生成用户所需的答案。

　　另外，GPT-4o对周围环境的实时解读，为视障用户提供了更多方便，出行也将变得更为容易。

钱江晚报 数字报纸

文章导航

OpenAI上新 长出“眼睛”“嘴巴”的GPT-4o发布

浙大人工智能专家：未来的大模型，将是一位超级“私人助手”

本报记者 朱高祥

钱江晚报数字报纸

OpenAI上新长出“眼睛”“嘴巴”的GPT-4o发布

本报记者朱高祥