一个计算机专业人士看OpenAI(GPT-4O)发布会后的感受

本次发布会性质属于产品更新，新模型Gpt4O的 多模态能力
(文本、视频、音频)大幅度提升。下面我会对发布会要点、Gpt4O功能进行介绍，并且谈谈个人感受。

Gpt4O相关事项:  
  
1. Gpt4O未来提供电脑版本应用  
2. Gpt4O可以通过Api调用，价格便宜50％；  
3. Gpt4O也会提供给免费用户使用，回复速度几乎实时。  


4. OpenAI会继续和其他队伍深度合作以保证GPT4O的安全性

首先是产品推出的相关信息。

值得注意的是Gpt4O将会提供电脑版本的应用。通过与Gpt4O的应用交互，Gpt4O可以读取您电脑桌面上的信息，以及您的语音，这无疑给学习与工作提供了极大便利。
其次Gpt4O的响应速度也极大提升，可以在200ms左右做出回答。这意味着您与它交互时不再需要等待2-3秒，而是可以实时的得到回复。
再者Gpt4O将同时提供给 免费用户 与 付费用户 。二者的区别在于最大消息数的限制。

这里的内容最棒的还是实时的交互。和Gpt4O交互你再也不需要等待几秒。这对于个人的学习、工作效率的提高一定非常大的。Gpt4O的发展越来越靠近AGI的实现了。

Gpt4O多模态功能:  
  
1. Gpt4O可以在文字，视频，音频之间无缝衔接  
  
2. Gpt4O可以识别人声音中的情绪，并改变自己说话的语气  
  
3. Gpt4O可以通过手机端实时视频解数学题  
4. Gpt4O电脑桌面应用可以读取屏幕帮你改代码，分析数据  
  
5. Gpt4O可以当同声传译  
6. Gpt4O可以通过实时视频识别人脸情绪并给出拟人化反馈

在音频方面。

OpenAI 展示了使用 GPT-4o 进行语音对话的演示。演示者提问结束后，GPT-4o
几乎可以即时回应，并通过文本转语音功能进行朗读，让对话感觉更加自然逼真。

另一个演示展示了 GPT-4o 根据要求调整说话时语气，GPT-4o 可以根据指令改变声音，从夸张戏剧到冰冷机械，展现了出色的可塑性。最后，演示还展示了
GPT-4o 的唱歌功能。

在图像方面

演示视频显示，OpenAI高管启动摄像头要求实时完成一个一元方程题，GPT-4o轻松完成了任务；另外，高管还展示了GPT-4o桌面版对代码和电脑桌面（一张气温图表）进行实时解读的能力。

此外另一个演示视频，Gpt4O通过和高管视频对话，识别了高管人脸情绪并给出了拟人化反馈

看到这里，我想谈谈个人的感受。令我印象深刻的是，
Gpt4O可以它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。并且几乎实时回复。而且你可以随时打断它。

它不再是一个机器，而是一个真人。你可以随时和他进行交流，语音亦或者视频交流，她会马上给出回答，而且他所拥有的知识几乎涵盖了世界上的所有。毋庸置疑它带来的帮助是巨大的！

在未来，可以预见它的应用场景有多广泛，ai课堂？线上的口语教学？等等

更多信息可参考官网公告：

https://openai.com/index/hello-gpt-4o/

Bob Peng

Bob Peng

一个计算机专业人士看OpenAIGPT4O发布会后的感受

一个计算机专业人士看OpenAI(GPT-4O)发布会后的感受

分享