開拓人工智能視覺知識的“北大荒”

        《中國科學報》 2021-06-08 10:00:06

        潘云鶴

        ■記者 韓揚眉

        近年來,圖像識別水平的快速提升推動了人工智能熱潮。圖像識別技術的突破不僅提高了計算機對人臉、文字、指紋及生物特征、醫學圖片等識別的準確率,而且進一步推動了安全監控、智能交通、無人機、智能制造等多領域的發展,但其進一步發展也遇到了諸如可解釋、可分析綜合、可設計仿真等方面的挑戰。

        對此,在《信息與電子工程前沿》上,中國工程院院士、浙江大學教授潘云鶴提出了“視覺知識”概念。他認為,實現視覺知識表達、推理、學習和應用技術將是人工智能2.0取得突破的關鍵所在。近日,潘云鶴在接受《中國科學報》專訪時,詳細闡述了視覺知識發展面臨的5個基本問題。

        “認知心理學早已指出,心象是人類知識記憶的重要部分,被用來進行形象思維。視覺知識就是計算機對心象的模擬?!迸嗽弃Q指出。

        潘云鶴認為,視覺知識表達是第一大問題。與當今人工智能所用的知識表達方式不同,視覺知識概念具有典型與范疇結構、層次結構與動作結構等要素。視覺概念能構成視覺命題,包括場景結構與動態結構;視覺命題能構成視覺敘事,例如無聲電影就是視覺敘事的顯示形式。

        不同于言語知識,視覺知識的特征是能表達對象的大小、色彩、紋理、空間形狀及關系;能表達對象的動作、速度及時間關系;能進行對象的時空變換、操作與推理等。事實上,人類記憶中儲存的視覺知識遠多于言語知識。

        視覺識別是第二個問題。“從人工智能早期開始,模式識別便是最重要的研究領域,其中圖象和視頻識別是發展最快的方向?!迸嗽弃Q表示,近年來,深度學習提供的方法是,用大量標識的圖像訓練出深度神經網絡模型用于圖像識別,顯著提高了正確率,已獲廣泛應用。

        但與深度神經網絡模型方法不盡相同,人類在工作記憶中進行視覺識別時,不僅分析視網膜即時感知后傳入短期記憶中的數據,而且激活了長期記憶中過去學到的并記住的相關心象,即視覺知識。因此,人類在完成視覺識別任務時往往只需少量數據,而且可解釋也可推理。

        潘云鶴說,在視覺識別中,協同使用數據和視覺知識,形成數據驅動和視覺知識指導的協同計算范式是視覺識別的重要研究方向。

        第三、四個問題分別是視覺形象思維模擬、視覺知識學習。潘云鶴指出,視覺形象思維模擬在計算機輔助設計和仿真、計算機動畫、游戲、兒童教育和數字媒體創意等領域應用十分廣泛,計算機圖形學已儲備很多基礎技術,但有待與人工智能打通。

        “視覺知識學習則要將目標從三維(3D)形狀的重建提升到視覺知識概念和命題的重建。”潘云鶴指出,這就需要對現有計算機視覺技術做進一步研究——不僅要重建3D形狀,而且要重構3D形狀的概念結構與層次結構。在此基礎上,有望發展出視覺知識的自動學習手段?!爱斍暗膱鼍皥D研究是向視覺知識自動學習前進的一個合適的中間方法。當今,特別需要人工智能、計算機圖形學和計算機視覺3個領域的研究者聯手研究。”

        多重知識表達是第五大問題。潘云鶴認為,人腦中的知識往往通過多重表達來描述,因此,人工智能2.0的知識應有多種表達方式,包括知識的言語表達、深度神經網絡表達、形象表達等,多重知識表達將形成跨媒體智能和大數據智能新的技術理論和模型。

        “視覺知識和多重知識表達的研究是發展新的視覺智能的關鍵,也是促進人工智能2.0取得重要突破的關鍵理論與技術。”潘云鶴表示,視覺知識的獨特優點是具有形象的綜合生成能力、時空演化能力和形象顯示能力。人工智能與計算機視覺、計算機輔助設計、計算機圖形學技術聯合,將為人工智能在創造、預測和人機融合等方面的新發展提供重要的新基礎、新動力。

        “視覺知識是一塊寒濕而肥沃的人工智能的‘北大荒’,也是一塊充滿希望、值得多學科合作勇探的‘無人區’。”潘云鶴呼吁道。

        免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

        最新推薦