自(zi)從現代(dai)神經(jing)網絡(luo)(luo)被(bei)證明能(neng)解(jie)(jie)決復(fu)雜問題(ti)并開始蓬勃(bo)發展以來,如何(he)理解(jie)(jie)這些網絡(luo)(luo)就一直是(shi)一個未解(jie)(jie)之謎。網絡(luo)(luo)中少則數(shu)千、多則數(shu)萬的(de)連接和權重都分別如何(he)影響網絡(luo)(luo)的(de)表現、如何(he)理解(jie)(jie)對抗性樣本之類的(de)意外行為,有許(xu)多問題(ti)目前都還沒有完整的(de)理論可以說清。
自從現代神(shen)經網絡被證明能解(jie)決復(fu)雜問題并開始蓬勃(bo)發展以(yi)來,如何(he)(he)理(li)解(jie)這(zhe)些網絡就一直是一個未解(jie)之謎。網絡中少則(ze)數千、多(duo)則(ze)數萬的(de)(de)連(lian)接和權重都分別如何(he)(he)影響網絡的(de)(de)表(biao)現、如何(he)(he)理(li)解(jie)對(dui)抗性樣本之類的(de)(de)意外(wai)行(xing)為(wei),有許(xu)多(duo)問題目前都還沒有完整的(de)(de)理(li)論可以(yi)說(shuo)清。
從這個(ge)意義上說,我(wo)們(men)對網絡(luo)的結構和其中的運算都(dou)有(you)了解。但我(wo)們(men)真正希望獲(huo)得(de)的是一種(zhong)介于人類思維語(yu)(yu)(yu)(yu)言(yan)(yan)以及(ji)計算機運算細節之間的中轉語(yu)(yu)(yu)(yu)言(yan)(yan),我(wo)們(men)可以借助這種(zhong)語(yu)(yu)(yu)(yu)言(yan)(yan)直(zhi)接構建可以分類 ImageNet 圖(tu)像或(huo)者能夠下圍棋的神經(jing)(jing)(jing)網絡(luo),而不(bu)需要(yao)經(jing)(jing)(jing)過(guo)(guo)繁瑣(suo)、消(xiao)耗資源的迭代學(xue)習(xi)過(guo)(guo)程;可以借助這種(zhong)語(yu)(yu)(yu)(yu)言(yan)(yan)直(zhi)接獲(huo)得(de)網絡(luo)表現(xian)的清晰完整(zheng)的描述(shu),而不(bu)需要(yao)通過(guo)(guo)反復的測試進(jin)行經(jing)(jing)(jing)驗總結。目前我(wo)們(men)還沒有(you)找到這樣(yang)的中轉語(yu)(yu)(yu)(yu)言(yan)(yan),甚至(zhi)都(dou)不(bu)確(que)定是否存在(zai)這樣(yang)的語(yu)(yu)(yu)(yu)言(yan)(yan)。
對(dui)于(yu)我(wo)們廣(guang)大的(de)機器學習科研和應用人員來說(shuo),這種緊湊的(de)表達(da)顯然能幫助我(wo)們獲(huo)得一些(xie)有價(jia)值的(de)理解(jie)。這樣(yang)的(de)緊湊表達(da)也給我(wo)們提供了(le)許多(duo)便(bian)利:我(wo)們可以(yi)為(wei)同(tong)一個想法創造許許多(duo)多(duo)的(de)不同(tong)變(bian)體(ti),然后用它們解(jie)決一大批問題。
既然學(xue)習規則(ze)可(ke)以被(bei)緊湊(cou)(cou)地(di)表(biao)達,那么神經(jing)網絡(luo)(luo)(luo)本身可(ke)以被(bei)緊湊(cou)(cou)地(di)表(biao)達嗎?不見得。近(jin)幾年隨(sui)著知識蒸餾(liu)和計算復雜度的(de)(de)研究增(zeng)多,我(wo)們對數據和網絡(luo)(luo)(luo)的(de)(de)可(ke)壓(ya)縮性(xing)的(de)(de)理解也在(zai)增(zeng)加。我(wo)們已經(jing)知道,在(zai) ImageNet 上訓練完畢的(de)(de)網絡(luo)(luo)(luo)是無法(fa)被(bei)壓(ya)縮到 10 萬個(ge)(ge)獨立參數之內的(de)(de);即便是用來識別 MNIST 數字(zi)的(de)(de)網絡(luo)(luo)(luo)也無法(fa)被(bei)壓(ya)縮為(wei)人(ren)類(lei)(lei)可(ke)以理解的(de)(de)格式。但同(tong)時,能存(cun)儲超過三萬個(ge)(ge)類(lei)(lei)別的(de)(de)知識并進(jin)行分辨的(de)(de)人(ren)類(lei)(lei)大(da)腦,作為(wei)一類(lei)(lei)十分神經(jing)網絡(luo)(luo)(luo),想要在(zai)其中(zhong)找到,或(huo)者想要壓(ya)縮為(wei)某種緊湊(cou)(cou)的(de)(de)表(biao)征,也是幾乎不可(ke)能的(de)(de)事情。
跳出壓縮(suo)技(ji)巧之(zhi)外,我們其實(shi)可以問(wen)這樣一個(ge)問(wen)題:在任務中表現出了人類水(shui)準的網絡(luo),應當是(shi)容易(yi)壓縮(suo)的嗎?不難(nan)得(de)到答案:越是(shi)處理復雜任務、能存儲并處理越多信息的網絡(luo),就越難(nan)以壓縮(suo)。
更(geng)重(zhong)(zhong)要(yao)、也更(geng)長(chang)遠(yuan)的(de)一件事是(shi),掌(zhang)握某一個(ge)可以正常(chang)工作的(de) AI 系統的(de)網絡(luo)架構和權(quan)重(zhong)(zhong)、但不(bu)了解(jie)學習規則和執行(xing)技巧,對(dui)(dui)于(yu)解(jie)決其(qi)它的(de)任務就起不(bu)到任何幫助。也就是(shi)說,了解(jie)訓練系統用到的(de)學習規則、網絡(luo)架構、損失函數,對(dui)(dui)于(yu)后續的(de)更(geng)改(gai)和拓(tuo)展要(yao)遠(yuan)比了解(jie)直接存在于(yu)網絡(luo)之中的(de)連(lian)接權(quan)重(zhong)(zhong)重(zhong)(zhong)要(yao)。