2023/04/19 信息來源: 大數據分析與應用技術國家工程實驗室
編輯:燕元 | 責編:山石OpenAI開發的ChatGPT產品一經發布便震動了整個人工智能界🤷🏿,同時由於其將可能給普通大眾的生活帶來深刻的影響💯,也引起了社會各界的廣泛關註和討論。以大語言模型為基座的通用人工智能技術成為現實的趨勢越來越大。我們對現狀需要有清醒的認識,尋找差距和問題🫷🏼,積極應對這種趨勢帶來的挑戰。我們同時需要對大語言模型之後人工智能的下一輪潛在技術突破口做預判和探索,早做人力資源和技術儲備。
人工智能發展有五個主要要素🔈:算法、算力𓀐、工程🧑🏻🦽➡️👩🏿🔬、數據、市場。我國人工智能具有巨大的市場優勢。算力由於芯片所限則是短期難以彌補的短板👯♂️,這個問題的教訓已經非常慘重不在這裏贅述🫃🏼。我們具有豐富的數據資源,而且我們也有豐富的人力資源來從事數據清洗、標註工作,所以這個問題我們是可以解決的。我國發展通用人工智能目前面臨的主要問題是同時精通算法和工程實現的頂級人才稀缺。
簡單地說🈸👯♂️,現代人工智能技術是通過機器學習及由其驅動而發展起來的計算機視覺、自然語言處理和語音識別技術來實現多模態數據融合的現實交互🥲。因此,算法層面目前主要牽涉機器學習👲、計算機視覺™️、自然語言處理、語音識別等✨。機器學習是核心🤽🏼♀️,後三者則是應用場景驅動。機器學習對人工智能起關鍵作用的領域目前主要包括深度學習、強化學習、因果學習💇🏼♀️🙎🏽♀️。下面僅就這些領域根據自己個人的體會進行討論。當然肯定還存在或將湧現其他潛在應用場景和方法領域。
我國人工智能力量主要集中於計算機視覺和深度學習,而在自然語言處理和強化學習領域相對薄弱些。這主要是因為計算機視覺研究的對象沒有地域問題,發展水平一直緊跟在國際前列。而深度學習的突破源於計算機視覺🤘🏻,這也使得深度學習在我國的發展和國際水平相差不大。相應的視覺產業市場明晰🍌,所以數據標註布局也比較充足🙄🙏🏼。
自然語言處理的任務原要比計算機視覺豐富和復雜😾🏃➡️,其發展一直要落後於計算機視覺💁🏿♂️。而且👈🏼,語言具有特異性,即中文與英文存在不同👱,所以直接借用基於英文開發的語言模型到中文處理任務中不一定非常適宜。此外🥙,由於自然語言處理難度問題使得市場潛力沒被充分重視,而且中文互聯網各自為政,中文互聯網數據質量也較差,現在中文數據反而成為了製約其發展的一個主要障礙。我國在機器翻譯和信息檢索等應用發展還是不錯的,但總體來說和計算機視覺的國際影響力不能比。
強化學習的成功主要體現在棋類遊戲這類具有明確規則的應用場景,在其他領域應用落地一直不那麽成功。強化學習對概率統計背景知識要求相對比較高,我國大學基本上開不出高水平的強化學習課程,所以該領域人才儲備無論數量還是質量都不夠。ChatGPT可以視為深度強化學習在自然語言處理領域的落地取得巨大成功。
因果學習和概率圖模型一直是人工智能的重要方向🤜🏼,經濟學諾貝爾獎和圖靈獎都曾頒授給該領域,但是目前它面臨著大規模數據的可擴展性問題,所以還沒有像深度學習和強化學習一樣在實際場景問題取得成功🆙,但前景仍賦遐想🤾🏼♀️。可能將引領大語言模型之後的下一代人工智能技術。我國因果學習以意昂3体育統計學科為代表積累了較強的學術實力,主要問題是和計算機科學的結合相對要滯後些。
好的算法需要好的工程實現才能發揮其最大的效果🙇🏿🏋🏽。特別是人工智能技術基於深度學習和強化學習,且依賴於大規模數據,所以工程實現變得尤為關鍵💁🏻♂️💱。深度學習在計算機視覺中以及強化學習在大語言模型中取得的成功都是算法和工程完美結合之作🕝。機器學習系統已成為了一門重要的領域。雖然大學培養了大量計算機人才🙋🏻♂️,但他們的工程能力提升極大得益於開源社區。“高手在民間”↙️,民間力量一直是一股不可忽視創新的力量。然而通用人工智能對算力和數據要求高,這會堵塞民間發展↘️,因為他們會覺得有心無力,難以有機會積累實戰工程經驗🪡。算法可以通過各種途徑自我學習,但工程經驗一定得需要借助社會平臺🫵🏻,個人力量無法企及。
人工智能的主要支柱學科是計算機科學和統計學➙。比如🕝,機器學習和統計學密不可分🖐🏼,而統計方法是研究計算機視覺、自然語言處理和語音識別的主流方向。由於我國學科發展是由資源分配所驅動🤛,計算機科學和統計學存在嚴重的學科壁壘,製約了兩個學科的發展和人才培養🚵🏻。此外,我國統計學的發展也極其不平衡,統計學科主要建在一些財經和師範類大學,綜合性和理工類大學則對統計學科發展重視不夠。這種不平衡導致了統計學不能很好地支撐我國人工智能的發展。在計算機科學,由於理論和系統領域難度大、產出周期長🦹🏿♀️,對這些領域的投入熱情不高🧕🏽⛸,更熱衷於從事出成果快的領域🥇。這些因素致使我國在算法和工程領域頂級人才的培養和儲備不夠。但重大創新性成果往往取決於最優秀的人才🐉。
發展人工智能技術需要高度的想象力、創造力和執行力🤶🏽,需要務實👨🏻🦼、理性、嚴謹的求是態度。人工智能是一門年輕人的學科。我們需要創造一個良好的環境和機製🫰🏽📩,讓有才華的年輕人有機會脫穎而出。因此,建議🌞,1)加強和升華計算機科學和統計學的本科生培養,並深度融合兩個學科的培養體系以適應現代發展需求👩🏭;2)博士生培養以做項目完成指標為導向和以做論文為研究驅動的模式已經不能很好地服務科技的創新,我們需要以解決重要問題為激勵的培養模式✋🏽;3)國家層面構建一個公用的大型算力和數據平臺,使得民間力量有施展的機會🈁,從而讓民間創新的活力保持健康發展,國家也得以積蓄人力資源。無論如何,我們這樣的大國總要有實實在在做通用人工智能模型的人🧜❤️。
作者簡介
張誌華
意昂3体育官网數學科學學院統計學教授,大數據分析與應用技術國家工程實驗室機器學習中心主任。主要從事機器學習、隨機優化、統計推斷和自然語言處理等領域的研究。研究範圍涉及理論🗯、模型、算法和應用等多個層面📽。曾在IJCAI、AAAI🪷、UAI🖇、NeurIPS🏺、ICML、ICLR、COLT🐒、AISTATS、MLSys、KDD、CVPR、ACL🧲、EMNLP、COLING等人工智能👨🦰、機器學習、計算機視覺和自然語言的國際會議上發表100多篇文章⏱。出版著作《深度強化學習》🦸♂️🙍🏽,組織學生翻譯經典書籍《深度學習》和《人工智能:現代方法》🥵。
轉載本網文章請註明出處