一个计算机专业人士看OpenAIGPT4O发布会后的感受
编辑
一个计算机专业人士看OpenAI(GPT-4O)发布会后的感受
本次发布会性质属于产品更新,新模型Gpt4O的 多模态能力
(文本、视频、音频)大幅度提升。下面我会对发布会要点、Gpt4O功能进行介绍,并且谈谈个人感受。
Gpt4O相关事项:
1. Gpt4O未来提供电脑版本应用
2. Gpt4O可以通过Api调用,价格便宜50%;
3. Gpt4O也会提供给免费用户使用,回复速度几乎实时。
4. OpenAI会继续和其他队伍深度合作以保证GPT4O的安全性
首先是产品推出的相关信息。
-
值得注意的是Gpt4O将会提供电脑版本的应用。通过与Gpt4O的应用交互,Gpt4O可以读取您电脑桌面上的信息,以及您的语音,这无疑给学习与工作提供了极大便利。
-
其次Gpt4O的响应速度也极大提升,可以在200ms左右做出回答。这意味着您与它交互时不再需要等待2-3秒,而是可以 实时 的得到回复。
-
再者Gpt4O将同时提供给 免费用户 与 付费用户 。二者的区别在于最大消息数的限制。
这里的内容最棒的还是实时的交互。和Gpt4O交互你再也不需要等待几秒。这对于个人的学习、工作效率的提高一定非常大的。Gpt4O的发展越来越靠近AGI的实现了。
Gpt4O多模态功能:
1. Gpt4O可以在文字,视频,音频之间无缝衔接
2. Gpt4O可以识别人声音中的情绪,并改变自己说话的语气
3. Gpt4O可以通过手机端实时视频解数学题
4. Gpt4O电脑桌面应用可以读取屏幕帮你改代码,分析数据
5. Gpt4O可以当同声传译
6. Gpt4O可以通过实时视频识别人脸情绪并给出拟人化反馈
在音频方面。
OpenAI 展示了使用 GPT-4o 进行语音对话的演示。演示者提问结束后,GPT-4o
几乎可以即时回应,并通过文本转语音功能进行朗读,让对话感觉更加自然逼真。
另一个演示展示了 GPT-4o 根据要求调整说话时语气,GPT-4o 可以根据指令改变声音,从夸张戏剧到冰冷机械,展现了出色的可塑性。最后,演示还展示了
GPT-4o 的唱歌功能。
在图像方面
演示视频显示,OpenAI高管启动摄像头要求实时完成一个一元方程题,GPT-4o轻松完成了任务;另外,高管还展示了GPT-4o桌面版对代码和电脑桌面(一张气温图表)进行实时解读的能力。
此外另一个演示视频,Gpt4O通过和高管视频对话,识别了高管人脸情绪并给出了拟人化反馈
此外另一个演示视频,Gpt4O通过和高管视频对话,识别了高管人脸情绪并给出了拟人化反馈
看到这里,我想谈谈个人的感受。令我印象深刻的是,
Gpt4O可以它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。并且几乎实时回复。而且你可以随时打断它。
它不再是一个机器,而是一个真人。你可以随时和他进行交流,语音亦或者视频交流,她会马上给出回答,而且他所拥有的知识几乎涵盖了世界上的所有。毋庸置疑它带来的帮助是巨大的!
在未来,可以预见它的应用场景有多广泛,ai课堂?线上的口语教学?等等
更多信息可参考官网公告:
- 0
- 0
-
分享