<table id="wayaw"></table>
<table id="wayaw"><option id="wayaw"></option></table>
<table id="wayaw"><source id="wayaw"></source></table>
  • <table id="wayaw"><option id="wayaw"></option></table>
    <noscript id="wayaw"><noscript id="wayaw"></noscript></noscript>
  • <td id="wayaw"></td>
    • 元宇宙:本站分享元宇宙相關資訊,資訊僅代表作者觀點與平臺立場無關,僅供參考.

    重磅更新!ChatGPT 可以直接語音對話和上傳圖片了!

    • 2023年9月26日 13:30

    在昨晚,OpenAI CEO Sam Altman 在推特上發布了一條重要消息,ChatGPT 要推出新功能啦。ChatGPT 現在可以看、聽和說了!



    這次 ChatGPT 推出新的語音和圖像功能提供了一種新的、更直觀的界面類型,允許用戶跟它進行語音對話,向 ChatGPT 展示說話內容。

    多場景使用 ChatGPT
    這一次的更新將使 ChatGPT 成為更強大的工具,適用于多種生活場景。比如,當你在旅行時,可以拍攝周圍的地標,然后與 ChatGPT 進行實時對話,了解更多有趣的信息。而當你在家時,只需拍攝你冰箱里的食物,ChatGPT 就能幫你決定今晚吃什么,甚至提供相應的食譜。如果你的孩子遇到數學難題,拍照上傳后,ChatGPT 也可以幫助他們解決問題。

    例如,你可以拍一張照片,然后詢問如何調整自行車座椅的高度。這一更新使 ChatGPT 成為了一個更強大的伴侶,可以幫助你解決日常生活中的各種問題。

    官方示例
    官方還給出了另一個實用的使用場景思路:你打開冰箱,拍一張照片,然后問 AI 晚餐可以吃什么,ChatGPT 將生成完整的菜譜。這樣,你可以在快節奏的生活中省下時間,讓 ChatGPT 幫你規劃健康的飲食。

    這次的更新將在接下來的兩周內向 ChatGPT Plus 訂閱用戶和企業版用戶推出,而且不論你使用的是 iOS 還是 Android,你都能夠輕松使用這一新功能。

    ChatGPT 多模態版 GPT-4V
    與此同時,多模態版 GPT-4V 模型也公開了更多細節。最令人驚訝的是,這個多模態版的 GPT 模型早在 2022 年 3 月就已經完成訓練,這意味著 OpenAI 在這方面取得了長足的進展。

    現在,讓我們來看看 GPT-4V 模型的能力和局限性。

    GPT-4V 的視覺能力
    這個多模態版的 GPT 模型具有強大的視覺能力:

    1.物體檢測: GPT-4V 能夠檢測和識別圖像中的常見物體,例如汽車、動物和家居用品等。這項能力在標準圖像數據集上進行了評估,表現出卓越的物體識別能力。

    2.文本識別: 模型具備光學字符識別 (OCR) 功能,可以檢測圖像中的打印或手寫文本,并將其轉錄為機器可讀文本。這一功能在處理文檔、標志、標題等圖像時表現出色。

    3.人臉識別: GPT-4V 能夠定位并識別圖像中的人臉。它還具有一定的面部分析能力,能夠根據面部特征識別性別、年齡和種族屬性。這一能力經過 FairFace 和 LFW 等數據集的測量驗證。

    4.驗證碼解決: 在處理基于文本和圖像的驗證碼時,GPT-4V 表現出了出色的視覺推理能力,這表明模型具有高級解謎技能。

    5.地理定位: 模型能夠識別風景圖像中描繪的城市或地理位置,表明它吸收了關于現實世界的大量知識。然而,這也可能涉及到隱私問題,因為模型可以識別出與特定地點相關的信息。

    GPT-4V 的局限性
    雖然 GPT-4V 具有強大的視覺能力,但它仍然存在一些局限性:

    1.空間關系: 模型可能難以準確理解圖像中對象的精確空間布局和位置,有時無法正確捕捉對象之間的相對位置。

    2.對象重疊: 當圖像中的對象嚴重重疊時,GPT-4V 有時難以區分一個對象的結束位置和下一個對象的開始位置,可能將它們混合在一起。

    3.背景/前景: 模型不總是能夠準確識別圖像中的前景和背景中的對象,有時會錯誤地描述對象之間的關系。

    4.遮擋: 當圖像中的某些對象被其他對象部分遮擋或遮擋時,GPT-4V 可能無法識別被遮擋的對象,或者錯過了它們與周圍對象的關系。

    5.細節: 模型有時會忽略或誤解圖像中的微小物體、文本或復雜細節,導致錯誤的關系描述。

    6.上下文推理: GPT-4V 缺乏強大的視覺推理能力,無法深入分析圖像的上下文,并描述對象之間的隱含關

    7.置信度: 模型有時可能錯誤地描述對象之間的關系,與圖像內容不符。這意味著它的描述可能不總是準確的。
    需要注意的是,盡管 GPT-4V 具有強大的視覺能力,但目前在科學研究和醫療用途中,其性能可能不夠可靠。因此,在這些領域的應用需要更多的研究和驗證。

    ChatGPT 團隊表示,為了保護用戶隱私和防止濫用,他們正在考慮是否應該允許模型識別公眾人物,以及是否應該允許模型從人物圖像中推斷性別、種族或情感等信息。這表明他們對用戶的隱私和道德問題非常重視。

    總之,ChatGPT 的這一重磅更新為用戶提供了更多交互的可能性,使其成為一個更加強大和多功能的工具。語音和圖像功能的引入使 ChatGPT 變得更加直觀和便捷,為用戶提供了全新的體驗。無論是在生活中解決問題,還是與模型進行有趣的對話,ChatGPT 的潛力正在不斷擴大。如果你是 ChatGPT Plus 或企業版用戶,你將在未來兩周內率先體驗到這些令人激動的新功能,而其他用戶也將很快可以享受到這一更新帶來的便利。

    所以,你已經想好了要問 ChatGPT 的第一個問題嗎?這一重大更新將為你的交互體驗帶來更多樂趣和便捷,期待 ChatGPT 在未來繼續發展,為我們帶來更多驚喜和創新。不論你是專業用戶還是普通用戶,這一更新都將使你的生活更加便利和有趣。隨著技術的不斷發展,ChatGPT 帶來的可能性也會不斷擴大,讓我們拭目以待,期待更多精彩的功能和體驗。

    Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

    <table id="wayaw"></table>
    <table id="wayaw"><option id="wayaw"></option></table>
    <table id="wayaw"><source id="wayaw"></source></table>
  • <table id="wayaw"><option id="wayaw"></option></table>
    <noscript id="wayaw"><noscript id="wayaw"></noscript></noscript>
  • <td id="wayaw"></td>
  • 日韩在线视频