钱江晚报 数字报纸


a0004版:潮新闻·深度

OpenAI上新 长出“眼睛”“嘴巴”的GPT-4o发布

浙大人工智能专家:未来的大模型,将是一位超级“私人助手”

ChatGPT为视障用户提供指引 来源OpenAI官网
对同一张办公桌照片的解读,GPT-4o(下)比GPT-4更为详细全面

  OpenAI上新

长出“眼睛”“嘴巴”的GPT-4o发布

浙大人工智能专家:未来的大模型,将是一位超级“私人助手”

  美国当地时间5月13日22:00,OpenAI举行了名为“春季更新”的线上发布会,宣布推出GPT-4的升级款模型GPT-4o。

  这场发布会堪称简陋,前后持续不到半个小时,也没有大屏PPT,核心环节就是由首席技术官Mira Murati带着两位员工一起在现场展示新模型。

  但这场发布会依旧惊艳,正如GPT-4o中的“o”(omn,意为全能),GPT-4o长出了“眼睛”“嘴巴”,变得全知全能。

  不少网友惊呼,电影照进现实,未来应用充满无限想象空间。

  记者实测:

支持输入图片和文件

更详细更全面

  5月14日,GPT-4o发布后,OpenAI的首席执行官Sam Altman在社交媒体上发帖,仅有一个字“her”。

  《her》是一部科幻电影的名字,影片中,人工智能系统“萨曼莎”不仅能够帮助男主西奥多完美地处理好工作,而且还是朵“解语花”。她拥有性感的声线,细腻的情感,并且风趣幽默,她能够和西奥多进行深度交流。

  而“her”,也是很多人看到GPT-4o演示之后的最大感受,它似乎变得跟真人一样了。

  昨天,为了验证GPT-4o的强大,本报记者特约在美国的同行,打开ChatGPT的app进行了实测。

  通过交流,记者注意到,GPT-4o与它的前任GPT-3.5最明显的不同在于界面,GPT-3.5仅支持文字与语音输入,但GPT-4o可以输入文字、语音、图片以及文件等。

  当记者询问GPT-4o可以做什么?它回答称,可以“回答问题”“语言翻译”“写作和编辑”“提供建议”“数学和编程”“数据分析”“创建图像”“实时信息查询”等。

  对于“实时信息查询”,记者分别用“杭州今日天气”向GPT-3.5、GPT-4与GPT-4o进行了询问,只有GPT-4与GPT-4o可以回答。

  本报记者拍摄了一张办公桌照片让GPT-4与GPT-4o进行描述,这两个大模型都可以在几秒钟之内给出解读。但对比来看,GPT-4o总结得更为详细,也更为全面。

  值得注意的是,与发布会上的演示不同,目前ChatGPT仅接入GPT-4o有限功能,尚不可以利用摄像头对现实场景分析,也不能在与其语音沟通时实时打断。

  不过,OpenAI已经宣布推出一款适用于macOS的桌面级应用,使用键盘快捷键就可向ChatGPT提问。

  AI专家:

印象最深的是

它能像“一个人”一样互动

  在发布会上,OpenAI现场展示了和ChatGPT的若干互动,包括:实时对话交互、语音多样化(应用户需求使用不同情绪、语调等)、视频指导做题、视频识别环境和人(包括人的情绪)、以桌面应用形式辅助编程、实时翻译等。

  OpenAI同时还放出了预先录制的展示样例若干,包括:两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、“毒舌”讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

  最让人惊讶的还是视频对话:用户打开摄像头,让ChatGPT“看”到当下,并进行互动。

  用前置镜头自拍,ChatGPT可以识别用户的情绪,如“看起来很开心”;还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。

  用后置镜头,ChatGPT就可以和用户共享视角。如在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引,告诉用户“来了一辆计程车,现在招手吧”。

  浙江大学人工智能研究所所长吴飞告诉钱报记者,GPT-4o可以像“一个人”一样实时互动,是最让人印象深刻的地方。

  “自然语言交互也是OpenAI一直以来的理念,就是让人工智能像人一样能够交流。”吴飞说,在发布会上可以看到,与GPT-4o进行交流的时候,你不觉得对方是一个机器,就觉得对方是一个人,交互显得非常自然。

  吴飞分析称,这些惊艳的产品表现,根本上源自于GPT-4o多模态大模型的技术进步,是跨文本、视觉和音频端到端地训练了一个新模型。

  OpenAI称这是其突破深度学习界限的最新举措。目前,GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似。

  吴飞认为,快速发展的多模态大模型给未来应用带来了丰富的想象空间。比如,也许不久的将来大模型不再仅仅是一个聊天机器人,而是将成为超级私人助手。不仅在工作上,在出游、订餐等生活的方方面面,大模型都可以快速地定制化生成用户所需的答案。

  另外,GPT-4o对周围环境的实时解读,为视障用户提供了更多方便,出行也将变得更为容易。


钱江晚报 潮新闻·深度 a0004 OpenAI上新 长出“眼睛”“嘴巴”的GPT-4o发布 2024-05-15 钱江晚报2024-05-1500009;钱江晚报2024-05-1500010;钱江晚报2024-05-1500012;钱江晚报2024-05-1500014;钱江晚报2024-05-1500013;钱江晚报2024-05-1500015;钱江晚报2024-05-1500007;钱江晚报2024-05-1500016;钱江晚报2024-05-1500017 2 2024年05月15日 星期三