作者:董 雪 許東遠
2024年的諾貝爾物理學獎垂青的成果,令物理學界無不意外,居然是“為推動利用人工神經(jīng)網(wǎng)絡(luò)進行機器學習作出的基礎(chǔ)性發(fā)現(xiàn)和發(fā)明”。人工神經(jīng)網(wǎng)絡(luò)到底是什么?它的潛力,真的可以與基礎(chǔ)物理科學相提并論嗎?
讓我們從數(shù)十年前說起……
從數(shù)學說起
1943年,神經(jīng)學家沃倫·麥卡洛克和數(shù)學家沃倫·皮茨提出一種以數(shù)學建模模擬人腦神經(jīng)元處理信息的系統(tǒng),稱為“多層感知機”。
上海交通大學自然科學研究院和數(shù)學科學學院副教授王宇光介紹,“多層感知機”可視為人工神經(jīng)網(wǎng)絡(luò)的一個簡化版本,它可以有很多層,每一層含有眾多神經(jīng)元,每個神經(jīng)元都是一個信息處理器。這一系統(tǒng)的原理頗近于數(shù)學中的復(fù)合函數(shù),不同的層可以看作不同的函數(shù)。
王宇光展示團隊研發(fā)的人工智能模型 許東遠 攝
當年,多層感知機已經(jīng)可以學習比較常見的映射。比如人看到一張圖片會分辨其類別,多層感知機大體能建立這種從圖片到類別的映射,前提是層數(shù)和神經(jīng)元足夠多,并且數(shù)據(jù)量充足,訓練得比較好。
不過,早期人工神經(jīng)網(wǎng)絡(luò)的訓練其實頗具挑戰(zhàn)性,系統(tǒng)參數(shù)量大幅增加,難免左支右絀。直到杰弗里·辛頓取法微積分的鏈式法則設(shè)計了反向傳播算法,人工神經(jīng)網(wǎng)絡(luò)得以自動調(diào)整輸入的海量數(shù)據(jù)的權(quán)重,科學家才看到了重大升級的曙光。
不過,前方的路會一直是坦途嗎?
走向深度學習
上世紀末,受制于算力稀缺等現(xiàn)實因素,人工神經(jīng)網(wǎng)絡(luò)一度陷于沉寂。直到21世紀初,這一領(lǐng)域才風云再起。英偉達研發(fā)的GPU極大提升了計算機的并行計算能力,互聯(lián)網(wǎng)的普及更令人工神經(jīng)網(wǎng)絡(luò)的訓練如虎添翼。
一個標志性的轉(zhuǎn)機發(fā)生在2007年,斯坦福大學教授李飛飛帶領(lǐng)團隊整理并構(gòu)建了名為ImageNet的大規(guī)模圖像數(shù)據(jù)集,包含約1000萬張圖片,覆蓋1000個不同的類別,這一基礎(chǔ)工作為接下來的圖像識別研究樹立了驗證算法是否有效的標準。為了帶動更多人投入驗證,ImageNet挑戰(zhàn)賽應(yīng)運而生。
這一挑戰(zhàn)賽可謂是人工神經(jīng)網(wǎng)絡(luò)革命的催化劑,多層感知機在比賽中表現(xiàn)不佳,一步步淡出歷史舞臺,接力棒交給了AlexNet,時間在2012年。這一年,也就是我們今天耳熟能詳?shù)摹吧疃葘W習”閃亮登場的時刻。
AlexNet最重要的革新,就是引入卷積層,由此構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)能較好緩解梯度消失問題。誤差梯度逐層減小乃至消失,以致無法獲得足夠梯度信息用以學習,是上一代人工神經(jīng)網(wǎng)絡(luò)頗覺為難的事。卷積神經(jīng)網(wǎng)絡(luò)的勝利,讓更有效率的深度學習成為可能。
模型百花齊放
過去10余年,神經(jīng)網(wǎng)絡(luò)模型可謂百花齊放。最具知名度的,可能是戰(zhàn)勝圍棋大師的AlphaGo、預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold,二者均出自DeepMind。DeepMind總部位于英國倫敦,那里是劍橋大學和牛津大學畢業(yè)生的聚集地,多學科人才通力合作,激發(fā)了許多創(chuàng)新火花。目前,劍橋大學的科學家已嘗試開發(fā)基于圖神經(jīng)網(wǎng)絡(luò)的擴散模型,用于蛋白質(zhì)序列設(shè)計。中國科學家也參與其中。
值得一提的是,AlphaFold斬獲2024年諾貝爾化學獎,DeepMind于11月11日宣布AlphaFold3開源,科學家可以免費下載軟件代碼,并將AlphaFold3用于非商業(yè)用途。
自然語言大模型是備受矚目的另一條路線。自然語言處理脫胎于計算語言學,與人工神經(jīng)網(wǎng)絡(luò)“合體”后,進展日新月異,尤其是Transformer架構(gòu)的提出,為一系列新模型探索奠定了基礎(chǔ),你我都不陌生的,就是OpenAI的ChatGPT了,可謂人工智能應(yīng)用的一座里程碑。
編輯:范鐘秀