几天前 Google 推出最新 Gemini AI 模型时,可说轰动科技圈,影片中展示的演示令不少人都觉得狂胜 OpenAI 的 GPT 模型,甚至直说 Gemini AI 是目前最强的 AI 模型,只不过之後有人发现到 Gemini AI 的影片是经过後制编辑的,并不是真实的即时演示,Google 也承认确实有此事。
更尴尬的地方是,最近有国外用户展示 ChatGPT-4V 不需要靠作弊,就能做到 Gemini AI 影片中的各种演示内容,看来目前 GPT-4 依旧是最强的 AI 模型。
国外用户用 ChatGPT-4V 轻松实现 Gemini AI 作弊影片中的演示(内含影片)
近日一位 Greg Technology 在 YouTube 频道中分享一部影片,影片中演示一些在 Gemini AI 造假的实验,ChatGPT-4V 可以轻松做到。.
OpenAI 在今年 9 月就推出支援语音和视觉辨识的 ChatGPT 新 GPT-4V 模型,Greg Technology 表示,看到 Gemini AI 影片造假事件後,他觉得 GPT-4 应该可以轻松做到同样效果,不需要透过後制,所以才决定拍摄这部影片。
另外为了避免有人认为这部影片也不是真的,影片是一镜到底拍摄,没有经过任何剪辑,他也有分享程式码在 GitHub 中,另外也能注意右上角的 Mac 时间:
首先,他问 GPT 现在他的姿势是什麽,第一次 GPT 回答说用手做出类似望远镜的形状,随後他再问第二次,GPT 就正确回答是爱心形状:
接着他问 GPT 他在玩什麽游戏,他的手就做出类似玩剪刀石头布过程,这问题 GPT 虽然处理比较久,但第一次就正确回答「你在玩剪刀石头布游戏」:
再来是蛮经典的画画,他问 GPT 他画什麽东西,GPT 很快就正确辨识出是鸭子或类似鸟的动物在水上:
所以说,Gemini AI 影片能做到的事,ChatGPT-4v 也可以,而且是不用用什麽技巧,ChatGPT-4v 就能辨识正确。另外从 Greg Technology 的影片也能看出目前 ChatGPT-4v 的反应速度,虽然不能说即时,但速度已经相当快了。
Gemini AI 的影片则不一样,开头有声名「已减少延迟时间,并为了简洁化将 Gemini 的输出内容缩短」,因此是确定有後制编辑,没办法知道 Gemini AI在进行这些视觉辨识,需要花多久时间才能反应和正确辨识。
对於不清楚 Gemini AI 影片造假事件的人,可以阅读 Google 官方的这篇介绍文章,就以剪刀石头布来说,Google 是先让 Gemini AI 辨识出布、石头、剪刀三个动作,然後再问 Gemini AI「我在玩什麽游戏」。
Greg Technology影片: