重磅更新！ChatGPT 可以直接語音對話和上傳圖片了！

2023年9月26日 13:30

在昨晚，OpenAI CEO Sam Altman 在推特上發布了一條重要消息，ChatGPT 要推出新功能啦。ChatGPT 現在可以看、聽和說了！

這次 ChatGPT 推出新的語音和圖像功能提供了一種新的、更直觀的界面類型，允許用戶跟它進行語音對話，向 ChatGPT 展示說話內容。

多場景使用 ChatGPT

這一次的更新將使 ChatGPT 成為更強大的工具，適用于多種生活場景。比如，當你在旅行時，可以拍攝周圍的地標，然后與 ChatGPT 進行實時對話，了解更多有趣的信息。而當你在家時，只需拍攝你冰箱里的食物，ChatGPT 就能幫你決定今晚吃什么，甚至提供相應的食譜。如果你的孩子遇到數學難題，拍照上傳后，ChatGPT 也可以幫助他們解決問題。

例如，你可以拍一張照片，然后詢問如何調整自行車座椅的高度。這一更新使 ChatGPT 成為了一個更強大的伴侶，可以幫助你解決日常生活中的各種問題。

官方示例

官方還給出了另一個實用的使用場景思路：你打開冰箱，拍一張照片，然后問 AI 晚餐可以吃什么，ChatGPT 將生成完整的菜譜。這樣，你可以在快節奏的生活中省下時間，讓 ChatGPT 幫你規劃健康的飲食。

這次的更新將在接下來的兩周內向 ChatGPT Plus 訂閱用戶和企業版用戶推出，而且不論你使用的是 iOS 還是 Android，你都能夠輕松使用這一新功能。

ChatGPT 多模態版 GPT-4V

與此同時，多模態版 GPT-4V 模型也公開了更多細節。最令人驚訝的是，這個多模態版的 GPT 模型早在 2022 年 3 月就已經完成訓練，這意味著 OpenAI 在這方面取得了長足的進展。

現在，讓我們來看看 GPT-4V 模型的能力和局限性。

GPT-4V 的視覺能力

這個多模態版的 GPT 模型具有強大的視覺能力：

1.物體檢測： GPT-4V 能夠檢測和識別圖像中的常見物體，例如汽車、動物和家居用品等。這項能力在標準圖像數據集上進行了評估，表現出卓越的物體識別能力。

2.文本識別：模型具備光學字符識別 (OCR) 功能，可以檢測圖像中的打印或手寫文本，并將其轉錄為機器可讀文本。這一功能在處理文檔、標志、標題等圖像時表現出色。

3.人臉識別： GPT-4V 能夠定位并識別圖像中的人臉。它還具有一定的面部分析能力，能夠根據面部特征識別性別、年齡和種族屬性。這一能力經過 FairFace 和 LFW 等數據集的測量驗證。

4.驗證碼解決：在處理基于文本和圖像的驗證碼時，GPT-4V 表現出了出色的視覺推理能力，這表明模型具有高級解謎技能。

5.地理定位：模型能夠識別風景圖像中描繪的城市或地理位置，表明它吸收了關于現實世界的大量知識。然而，這也可能涉及到隱私問題，因為模型可以識別出與特定地點相關的信息。

GPT-4V 的局限性

雖然 GPT-4V 具有強大的視覺能力，但它仍然存在一些局限性：

1.空間關系：模型可能難以準確理解圖像中對象的精確空間布局和位置，有時無法正確捕捉對象之間的相對位置。

2.對象重疊：當圖像中的對象嚴重重疊時，GPT-4V 有時難以區分一個對象的結束位置和下一個對象的開始位置，可能將它們混合在一起。

3.背景/前景：模型不總是能夠準確識別圖像中的前景和背景中的對象，有時會錯誤地描述對象之間的關系。

4.遮擋：當圖像中的某些對象被其他對象部分遮擋或遮擋時，GPT-4V 可能無法識別被遮擋的對象，或者錯過了它們與周圍對象的關系。

5.細節：模型有時會忽略或誤解圖像中的微小物體、文本或復雜細節，導致錯誤的關系描述。

6.上下文推理： GPT-4V 缺乏強大的視覺推理能力，無法深入分析圖像的上下文，并描述對象之間的隱含關

7.置信度：模型有時可能錯誤地描述對象之間的關系，與圖像內容不符。這意味著它的描述可能不總是準確的。

需要注意的是，盡管 GPT-4V 具有強大的視覺能力，但目前在科學研究和醫療用途中，其性能可能不夠可靠。因此，在這些領域的應用需要更多的研究和驗證。

ChatGPT 團隊表示，為了保護用戶隱私和防止濫用，他們正在考慮是否應該允許模型識別公眾人物，以及是否應該允許模型從人物圖像中推斷性別、種族或情感等信息。這表明他們對用戶的隱私和道德問題非常重視。

總之，ChatGPT 的這一重磅更新為用戶提供了更多交互的可能性，使其成為一個更加強大和多功能的工具。語音和圖像功能的引入使 ChatGPT 變得更加直觀和便捷，為用戶提供了全新的體驗。無論是在生活中解決問題，還是與模型進行有趣的對話，ChatGPT 的潛力正在不斷擴大。如果你是 ChatGPT Plus 或企業版用戶，你將在未來兩周內率先體驗到這些令人激動的新功能，而其他用戶也將很快可以享受到這一更新帶來的便利。

所以，你已經想好了要問 ChatGPT 的第一個問題嗎？這一重大更新將為你的交互體驗帶來更多樂趣和便捷，期待 ChatGPT 在未來繼續發展，為我們帶來更多驚喜和創新。不論你是專業用戶還是普通用戶，這一更新都將使你的生活更加便利和有趣。隨著技術的不斷發展，ChatGPT 帶來的可能性也會不斷擴大，讓我們拭目以待，期待更多精彩的功能和體驗。

免責聲明:重磅更新！ChatGPT 可以直接語音對話和上傳圖片了！文章轉發自互聯網，版權歸其所有。
文章內容不代表本站立場和任何投資暗示。加密貨幣市場極其波動，風險很高，可能不適合所有投資者。在投資加密貨幣之前，請確保自己充分了解市場和投資的風險，并考慮自己的財務狀況和風險承受能力。此外，請遵循您所在國家的法律法規，以及遵守交易所和錢包提供商的規定。對于任何因使用加密貨幣所造成的投資損失或其他損失，本站不承擔任何責任。

重磅更新！ChatGPT 可以直接語音對話和上傳圖片了！

元宇宙熱門資訊