
2022年7月16日-18日,第十一屆吳文俊人工智能科學技術獎暨2021中國人工智能產業年會在北京和蘇州同期圓滿舉辦。深圳云天勵飛技術股份有限公司首席科學家王孝宇受邀在2021中國人工智能產業年會主論壇上發表主旨報告《Towards Automated Artificial Intelligence》。
人工智能在過去十年得到了長足的發展。人工智能加速發展的這十年,也是人工智能研究及產業技術不斷走向開源、開放、自動化的十年。報告通過梳理人工智能研發不斷邁向自動化的努力,闡述其下一階段大規模行業化的關鍵方向。報告亦會介紹與各國際高校學者聯合發布的YMIR開源自動化AI研發平臺。此平臺賦能的項目獲此次吳文俊人工智能科技進步一等獎。
以下為王孝宇博士的現場演講內容:
我今天主要是根據我們在美國的十年和在中國五年創業的經驗談一談我們對自動化機器學習和自動化人工智能的認識,并且同步介紹一下我們在這方面的成果。

其實深度學習最標志性的事件是在2012年的時候,多倫多大學有一位教授Geoffrey Hinton,帶著兩個學生拿了國際比賽的第一名,并且比第二名高出很多,那個比賽叫ImageNet。后來這三個人就組建了一個科技公司賣給了Google。再后來這三個人也在人工智能的領域大展拳腳,Geoffrey Hinton是圖靈獎的得主,Ilya后來成為Opne AI的首席科學家,Alex后來去了Google做研究。
Alex對業界的貢獻非常大。為什么2012年之前有這么大的發展,其實這是一個逐步累積的過程,一方面互聯網的數據達到了一定的程度,另外一方面顯卡、GPU算力達到一定的程度,但是很多時候忽視了第三方面就是GPU當時的編程很復雜,尤其是把深度學習、神經網絡編寫到一個并行計算的框架里面,并不是簡單的任務,Alex就把這個GPU實現了,并且得到了很好的結果,把這個結果release就分享給全社會了,所有學者都可以用,當時叫Cuda-convnet。其實我們在2011、2012年做深度學習研究的時候,用的全是這個深度學習的框架。
在這之后,又有一個學生叫賈揚清(阿里巴巴副總裁),他release一個深度學習的框架叫Decaf,其實跟Alex的那個有點像,但是稍微比Alex那個框架又好用一點,這個得到了非常大的傳播。

由于Decaf本身存在一些工程上的問題,2014年伯克利又release了Decaf的第二版,我們叫Caffe。Caffe后來變成廣泛流傳的深度學習神經網絡的訓練框架,這是2014年。

在這之后,各大公司就投入做深度學習的框架,這是一個營造科技生態非常重要的環節,包括Google的TensorFlow,亞馬遜的Mxnet,Meta的Pytorch,包括中國百度的PaddlePaddle。現在流行的主要是兩個,就是Google的TensorFlow、Meta的Pytorch。
這個領域你會發現變得越來越開放,第一步開放是研究學者之間的開放。我2008年在美國讀博士的時候,那個時候做研究就是你做你的,我做我的,我把我的方法做出來之后,你要實現,可能要花半年的時間先去實現別人的方法,現在不用了,現在幾個小時的時間就實現別人的方法,大家把代碼開源了,并且用了統一的研究框架,開源統一的研發框架極大程度上研究了相互之間的參照,或者成果的自動化分享。
這是一方面,在研發架構上以及研發方法上的自動化分享越來越便捷,另外一方面學者也注意到,現在很多優秀的人才,所聚焦的研發或者工業界聚焦的研發更多的是在調參數。這些實際上本不應該成為研究的核心內容,所以大家開始探索,有沒有自動化的方法,讓我們深度學習神經網絡的網絡架構可以自動化設計,可以面對一個問題的時候,自動化的選擇一個方法解決我現在的問題。

所有的學者在2022年的時候,也是最近,發起了一個會議叫做International Conference on Automated Machine Learning。大家發現這個東西可以自動化的完成,自動化有哪些內容去做呢?這是他們所包含的領域,這里面有Neural Architecture Search,就是神經網絡的結構能不能自動化尋找和設計。Hyperparameter Optimization,就是自動化神經網絡訓練時候的哪一個參數好一點,哪一個參數差一點,這個事情也別去想,你可以預測,也可以去尋找,但沒有必要讓研究學者拿這么高的工資調這個參數。
包括CASH(Combined Algorithm Selection and Hyperparameter Optimization),這個是什么呢?當你要解決一個具體問題的時候,你用哪些混合的方法幫你實現,幫你做這些東西,而不需要你自己手動設計,這是更難的問題,因為這要解決具體的問題。
我想說的是在第一波結果的自動化分享的基礎之上,大家開始慢慢地看能不能自動化做技術的設計,把我之前所做設計的工作負擔降低一點,這是大家努力的方向。
這個是算法設計的自動化,之前研究成果的是第一階段,第二階段是算法設計能不能自動化,自動化的好處是什么呢?減少了大量不具備科學價值的模型調參,這樣我們的核心人才就可以投入到更高級的人工技術的研發。

在這個基礎上,事情正在起變化,什么在起變化呢?去年在NIPS(Conference and Workshop on Neural Information Processing Systems)上,知名的科學家吳恩達,舉辦了一個workshop,主要是談模型和數據到底哪一個更重要。
他一個觀點就是,以模型為中心的技術研發轉化成以數據為中心的技術研發。我怎么類比這個問題呢?這是我個人的理解,不代表大家的看法,模型和數據之間的對比,你可以簡單的類比為一個人的IQ和知識儲備的對比。這個人很聰明,如果從小就放在家里面,永遠不跟社會打交道,也不讓他學習新的知識,還是一個很笨的人。但即使這個人資質平平,但是他見過全世界各地的東西,去美國留學過,去歐洲留學過,在中國做過實際工業化的生產,看過很多設計的案例,他可能比這個IQ高的人更厲害,如果這樣理解,模型就有點像IQ,數據就有點像知識,knowledge,兩個同等重要,而且越到后面你會發現knowledge越來越重要。
工業化大規模發展里面,大家慢慢地轉化為從模型為中心的生產轉化為以數據為中心生產的轉變,這是做的一些實驗的對比,我們可以看到有一個基礎算法之后,我們以兩個維度提高基礎算法的perfomance,一個是Model-centric,就是想盡各種辦法提高模型設計的復雜度、技術含量。另外就是Data-centric,加數據,看數據有沒有問題,當然加數據里面也有一些科學方法的,并不是加數據一定會提高。會發現Data-centric的方法比Model-centric的方法提高很多,這是我們自己做模型生產時候發現一個結論,越到后面你數據的迭代越來越重要,所有模型的服務實際上是針對某一個特定場景,有特定的數據解決它。

在過去我們實踐的八年時間中,我們就會發現算法的迭代事實上變成了數據的迭代,另外一個維度看,我們研發到現在為止幾百個算法的模型,從來沒有一個模型說我搜集了一次數據,調整一次參數就不用變它了,我們很多模型都迭代了5-6年,主要迭代是什么?是數據的迭代。因為我們解決不同的需求,不同場景的時候,我們會受到不同場景泛化性的問題,我們碰到的問題越來越不一樣,不是因為算法的不一樣,是因為場景的不一樣,所以要處理的數據不一樣,我們要不停地更新迭代數據,才能夠滿足不同場景應用的需求。
算法迭代變成了數據迭代,有沒有辦法把數據的迭代也自動化呢?我們后面會講。算法設計可以自動化,數據迭代也可以自動化,我們就可以端到端的完成自動化的AI模型的生產,就逐漸地成為可能,最起碼理論上是這樣。
算法設計的自動化,學者陸陸續續意識到這個問題是可以做的,有專門的學術會議討論設計這方面的新的算法,讓設計可以自動化,數據迭代的自動化也需要技術的支持,同時需要系統層級的支持。
為什么要做這件事情?為什么要做AI模型生產的平臺化?過去,只有科技巨頭,比如谷歌、IBM、微軟、蘋果等等公司會去投入AI,因為他們有大量的數據需要處理,所以他們需要智能化的算法。但現在不一樣了。我了解到很多房地產公司在投入AI,這代表他們也有對AI人才的需求。我們發現地產公司、物業公司等等傳統行業的公司都慢慢引入AI解決實際問題。為什么會這樣呢,有一句話概括得很貼切,就是AI就像電一樣,是一個非常基礎的能力,讓你所做的事情效率高一點,它不改變行業,但是可以提升你生產的效率,所以影響是全方位的。現在慢慢地波及到房地產公司了。更不用現在這么多廣泛的制造業,制造過程中有很多AI的能力去構建,如果想提高自己的國際競爭力,提高自己的生產質量、效率,就需要AI的能力去賦能生產。
但問題又來了,我們沒有這么多AI人才。這種形勢下AI人才薪資待遇非常高,一個高質量的AI博士工作三四年就要花三四百萬、四五百萬成本,但問題是很多企業一年的利潤都沒有這么多。從這個角度考慮,我們就做了這樣一個東西——YMIR自動化模型生產系統,我們先看一段VCR。

視頻里面這四位研發人員,除了我自己之外,另外一位硅谷的科技公司的創始人,另外兩位都是前Google的員工。

大家可以看到這是一個國際化的項目,這是我們和國際知名高校和科技公司一起聯合發起的開源的、公益性的AI模型生產平臺。我們邀請了多家美國科技巨頭公司的首席AI官擔任項目顧問,已經在GitHub上面開源。
接下來我詳細介紹一下這個平臺,為什么它能夠去解決實際應用中的問題。

工業化模型生產主要流程,主要分成這幾個部分。第一需求的定義;第二是技術方案,技術方案就是什么樣的技術可以解決問題,或者用怎么樣的組合的技術解決這個問題;第三開始做數據收集,用AI方法解決問題。數據收集之后進入迭代的階段,迭代就包括數據的標注、模型的訓練、數據的挖掘。
在整個迭代化的大系統里面,也有一些技術需要power,包括數據預標注技術。數據預標注就是在數據沒有標注之前,打一個可能的標簽,可以極大提升數據標注的速度。預訓練大模型可以提高模型訓練的performance。當模型performance比較高的時候,你做數據挖掘的效率就會比較高,需要標注的數據就會比較少,有效標注就會比較高。當你有了初始模型,需要高效的找數據訓練模型的時候,就需要主動學習技術。主動學習就是海量的幾億、上百億的數據里面找到你想要的數據,而不是把100億的數據標注一遍。主動學習可以降低數據標注的成本,提高標注的效率。

這是一個簡單的技術,我不做技術細節的敘述,預訓練大模型在實際生產中產生了一些效率,這里講了城市治理的例子,包括垃圾暴露、廣告牌的識別、垃圾桶滿溢的識別,這都是在日常城市治理中所需要的算法,我們發現加入了預訓練大模型之后,再在小模型上訓練模型,至少提高10個點的performance,10個百分點的performance很多時候就意味著只標注一半數據,就節省了一半的成本,實際上我們企業做事情,每一個事情都是對應成本核算的,大模型可以幫助我們減少一半的成本,它極大提升算法的泛化性能,同時加速樣本收集,就是我說的數據的效率。
再看看主動學習。主動學習要解決的就是數據自動化的關鍵技術,以前我們都是閉著眼睛標數據,這兒有一批數據拿過來標一下,模型訓練到一定程度之后,不是所有數據都對模型訓練有幫助,你需要找到能提升模型精度的數據,這個技術就叫主動學習,我們主動學習的框架也把它開源了。
有了這些技術的power之后,我們打造了一套工程化的系統,就是YMIR。它能夠覆蓋模型生產全流程,與現有的模型生產系統不一樣,在正常使用過程當中都不太能夠滿足真實在工業界場景迭代的需求,所以這個自動化平臺就聚焦在模型的快速迭代,不是訓練出一個模型這個事情就結束了,主要是解決現實場景的需求,可以一直迭代。
這是整個技術的框架,左邊是一次性的過程,數據的準備、數據的標注、模型的訓練,右邊是迭代的過程,包括挖掘數據準備、數據挖掘、數據標注、更新訓練集、模型訓練。
這是我們實際正在使用一套系統實際的UI的界面,每一步都有提示,告訴你導入數據之后,要繼續做訓練了,訓練之后做數據挖掘,數據挖掘之后做標注,然后再訓練,這是一個輪回的過程。

這是我們導入數據集的界面,你點擊可以選擇一個數據的鏈接,也可以建立一個文件把數據放到我們系統里面去。導入數據之后可以可視化,看看有哪些沒有標注好的,或者有數據標簽有偏差的,不同的任務數據不均衡的,都可以通過可視化的方式呈現在你的面前,發掘數據里面的問題。

在這基礎之上有一排按鈕,有的按鈕打了藍色背景,有藍色背景就是你現在可以執行的操作,現在執行的就是準備數據。后面我們看到數據挖掘、數據標注都沒有點亮,是可以通過人機交互來看怎么做,數據準備完之后看數據挖掘,第二個按鈕就會亮起來。挖掘數據是沒有被標注的數據,挖掘過程是在海量的數據里面找到可以讓你使用的數據,你可以標注它,標注完之后,你可以和以前有的數據合在一起,更新數據集,然后再訓練。這步走完了之后又回到最初始的第一步,而且你會發現整個過程中,完全不需要算法人員,不需要寫代碼,甚至連軟件的基本操作都不需要,通過點擊按鈕就完成研發過程。
研發過程中這個模型到底好不好呢?我們有一個可視化的界面,讓你診斷模型到底好不好,這個功能叫模型的診斷。這個里面可以看到專業化的詞匯,叫FN、FP,我不展開講,FN實際上就是這個是一個正樣本,但是沒有檢測到,FP就是“假陽性”,就是你檢測到了,但是實際上不是。你的錯誤到底是FN產生的還是FP產生的,還是其他方式產生的,通過可視化產生的方式告訴你這個模型產生的問題,當你發現存在問題的時候,要么就把數據打回去重新標注,也有可能數據偏差出現了問題,需要更多的數據標簽,通過可視化的方式就可以知道實際應用中知道模型到底還有哪些問題,以及下一步用什么方式解決它。

除了這個之外,還有一個很好的地方,就是購買了足夠的算力,這一套系統可以供很多人一起開發,而不是只有一個人開發,這里面有很多project,每一個project都是算法模型的任務,你可以很多人同時進行算法研發,這些人員只要高中生畢業就可以,不需要花幾百萬招聘算法人員去做。
我們做了很多實驗,在自己公司里面,我們做了大概6個月長期的跟蹤實驗,我們投入的標注人員是10個,要么是高中生,要么是職業院校畢業的學生,算法人員也有投入。為什么不能完全脫離算法人員,當你面對一個問題的時候,怎么分解成技術實現,還需要算法人員介入,同時需要給標注人員做一些簡單的系統的培訓,算法人員投入0.3左右,就是一天中花30%的時間做這個事,其他時間的還要做算法研發,當然還要做標志文檔的審核,模型迭代情況的查看以及發現模型的問題,帶著大家去做。

我們標注圖片的總數是100萬,標注人員的工作內容,90%用在標注上,就是要把檢測的物體標注出來,有10%的時間是放在操作YMIR系統上。我們在三個月時間里面生產了50個算法,算法大部分滿足實際應用的需求,有的算法都達到97%,相對來說比較簡單,很多問題不是單純的靠技術可以解決,天生就不能得到很高的精度。在三個月里面我們用10個標注人員,0.3個算法人員就可以完成了50個算法的研發,并且可以實際應用在城市治理的場景里面,包括應急里面的滅火器檢測、消防栓檢測和城市治理的需求。
這是投入時間,我們有這一套系統和沒有系統的對比,周期都是三個月左右,沒有這套系統的時候,算法人力的投入大概是36人/天,我們標注人員的投入是240/天,我們模型生產了六個算法。投入了這一套系統之后,我們可以生產51個算法,時間周期差不多,生產效率大概是17個算法/月,以前是3個算法/月。我們使用自動化平臺后算法生產效率提升6倍,但是算法人員需求降為原來1/10。
這是一個開源的系統,已經有260家公司/個人試用,YMIR遵循Apache2.0授權,自用商用均免費。

這是GitHub的界面,大家有興趣可以去GitHub了上下載代碼,去運行這套系統,看看在實際運用中用這套系統能不能解決實際問題。
今天我想表達的是什么呢?隨著AI的發展越來越廣泛波及到各行各業,我們相信自動化的生產模型系統會發展起來,作為生產力工具快速發展起來。因為在這個發展過程當中就極大降低AI研發成本,加速普及,這樣AI整個研發才會進入到下一個階段,我們跟投資人聊,很多人都說AI平臺公司什么時候會出現,當每一個公司都要用到AI的時候,AI平臺公司就會出現,我相信這一天很快就會到來。
這就是我今天演講的內容,謝謝大家!