時(shí)間:2018-07-08 編輯整理:早檢測(cè)網(wǎng) 來(lái)源:早檢測(cè)網(wǎng)
函數(shù)近似是機(jī)器學(xué)習(xí)眾多問(wèn)題的核心,而過(guò)去深度神經(jīng)網(wǎng)絡(luò)憑借其「萬(wàn)能近似」的屬性在函數(shù)近似方面無(wú)與倫比。在高級(jí)層面,神經(jīng)網(wǎng)絡(luò)可以構(gòu)成黑箱函數(shù)近似器,它會(huì)學(xué)習(xí)如何根據(jù)大量訓(xùn)練數(shù)據(jù)點(diǎn)來(lái)參數(shù)化單個(gè)函數(shù)。
除了使用神經(jīng)網(wǎng)絡(luò)這種參數(shù)化的方法逼近一個(gè)函數(shù),我們還可以根據(jù)隨機(jī)過(guò)程執(zhí)行推斷以進(jìn)行函數(shù)回歸。隨機(jī)過(guò)程會(huì)從概率的角度選擇目標(biāo)函數(shù)的可能分布,因而也能通過(guò)樣本采樣逼近真實(shí)的目標(biāo)函數(shù),隨機(jī)過(guò)程在強(qiáng)化學(xué)習(xí)與超參數(shù)搜索方面比較常用。隨機(jī)過(guò)程中最常見(jiàn)的實(shí)例就是高斯過(guò)程(GP),這種模型與神經(jīng)網(wǎng)絡(luò)有著互補(bǔ)的屬性:高斯過(guò)程不需要昂貴的訓(xùn)練階段,并且可以直接根據(jù)一些觀察值對(duì)潛在的真實(shí)函數(shù)進(jìn)行推斷,這使得這種方法在測(cè)試階段有非常靈活的屬性。
但是高斯過(guò)程也有著很多局限性,首先 GP 在計(jì)算上是非常昂貴的。在原始方程中,計(jì)算復(fù)雜度隨數(shù)據(jù)點(diǎn)的數(shù)量增加成立方地增加,即使在當(dāng)前最優(yōu)的近似方法中,那也是成平方地增加。此外,可用的核函數(shù)通常在函數(shù)形式上受到很大的限制,并且需要額外的優(yōu)化過(guò)程來(lái)確定最合適的核函數(shù),其可以看作高斯過(guò)程的超參數(shù)。
而最近 DeepMind 連發(fā)兩篇論文探討結(jié)合神經(jīng)網(wǎng)絡(luò)與高斯過(guò)程的方法,他們首先在論文《Neural Processes》中探討了使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)逼近隨機(jī)過(guò)程的方法,隨后又在論文《Conditional Neural Processes》討論了結(jié)合神經(jīng)網(wǎng)絡(luò)與高斯過(guò)程解決監(jiān)督學(xué)習(xí)問(wèn)題的端到端的方法。
在論文《Neural Processes》中,DeepMind 介紹了基于神經(jīng)網(wǎng)絡(luò)的形式化方法,以學(xué)習(xí)隨機(jī)過(guò)程的近似,他們將這種方法稱之為神經(jīng)過(guò)程(NP)。NP 能展示 GP 的一些基本屬性,即學(xué)習(xí)目標(biāo)函數(shù)的一個(gè)分布以逼近真實(shí)函數(shù),NP 能根據(jù)上下文觀察值估計(jì)其預(yù)測(cè)的不確定性,并將一些工作負(fù)載從訓(xùn)練轉(zhuǎn)移到測(cè)試的過(guò)程中,這使得模型擁有更高的靈活性。更重要的是,NP 以高效計(jì)算的方式生成預(yù)測(cè)。給定 n 個(gè)上下文點(diǎn)和 m 個(gè)目標(biāo)點(diǎn),使用已訓(xùn)練 NP 進(jìn)行推斷對(duì)應(yīng)著深度網(wǎng)絡(luò)中的前向傳播過(guò)程,它的時(shí)間復(fù)雜度為 O(n+m) 而不是經(jīng)典高斯過(guò)程所需要的 O((n+m)^3)。此外,模型可以直接通過(guò)數(shù)據(jù)學(xué)習(xí)隱式的核函數(shù),從而克服很多函數(shù)設(shè)計(jì)上的限制。
在論文《Conditional Neural Processes》中,DeepMind 提出了一族模型,可用于解決監(jiān)督學(xué)習(xí)問(wèn)題,并提供了端到端的訓(xùn)練方法,其結(jié)合了神經(jīng)網(wǎng)絡(luò)和類(lèi)似高斯過(guò)程的特征。DeepMind 稱這族神經(jīng)網(wǎng)絡(luò)為條件神經(jīng)過(guò)程(CNP),以表明它們?cè)诮o定一系列觀察數(shù)據(jù)時(shí)定義函數(shù)的條件分布。CNP 對(duì)觀察數(shù)據(jù)的依賴由一個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)化,其在輸入的置換排列下保持不變。該架構(gòu)的測(cè)試時(shí)間復(fù)雜度為 O(n+m),其中 n、m 分別是觀察樣本數(shù)和目標(biāo)數(shù)。
摘要:神經(jīng)網(wǎng)絡(luò)是一類(lèi)參數(shù)化函數(shù),可以通過(guò)梯度下降來(lái)高精度地逼近標(biāo)記數(shù)據(jù)集。另一方面,高斯過(guò)程(GP)是一種概率模型,其定義了可能函數(shù)的分布,并通過(guò)概率推理規(guī)則和數(shù)據(jù)來(lái)更新。GP 是概率性、數(shù)據(jù)高效和靈活的,然而它們的計(jì)算很昂貴,因而應(yīng)用受限。我們引入了一類(lèi)神經(jīng)隱變量模型,稱為神經(jīng)過(guò)程(NP),其結(jié)合了兩者的優(yōu)點(diǎn)。和 GP 類(lèi)似,NP 定義了函數(shù)的分布,可以快速適應(yīng)新的觀察數(shù)據(jù),并可以評(píng)估預(yù)測(cè)的不確定性。類(lèi)似神經(jīng)網(wǎng)絡(luò),NP 在訓(xùn)練和評(píng)估過(guò)程中的計(jì)算是高效的,并且能學(xué)習(xí)將先驗(yàn)概率引入到數(shù)據(jù)中。我們?cè)谝幌盗袑W(xué)習(xí)任務(wù)上展示了 NP 的性能,包括回歸和優(yōu)化,并和相關(guān)文獻(xiàn)的模型進(jìn)行對(duì)比。
圖 1:神經(jīng)過(guò)程模型。(a)神經(jīng)過(guò)程的圖模型。x 和 y 對(duì)應(yīng)著 y = f(x) 的數(shù)據(jù),C 和 T 分別是上下文點(diǎn)和目標(biāo)點(diǎn)的數(shù)量,而 z 表示全局隱變量。此外,灰色背景表示變量是已經(jīng)觀察到的。(b)為實(shí)現(xiàn)神經(jīng)過(guò)程的計(jì)算圖。圓圈里面的變量對(duì)應(yīng)著這(a)中圖模型的變量,方框里面的變量為 NP 的中間表征。而沒(méi)有框的加粗字母分別表示以下計(jì)算模塊:h 為編碼器、a 為匯集器(aggregator)、g 為解碼器。在該實(shí)現(xiàn)中,h 和 g 分別對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò),而 a 對(duì)應(yīng)均值函數(shù)。最后,實(shí)線描述了生成過(guò)程,而虛線描述了推斷過(guò)程。
圖 2:相關(guān)模型(a-c)和神經(jīng)過(guò)程(d)的圖模型?;疑幱氨硎咀兞恳驯挥^察。C 代表上下文變量,T 代表目標(biāo)變量(即給定 C 的預(yù)測(cè)變量)。
圖 5:在 1-D 目標(biāo)函數(shù)利用神經(jīng)過(guò)程的 Thompson sampling。圖中展示了五次迭代的優(yōu)化過(guò)程。每個(gè)預(yù)測(cè)函數(shù)(藍(lán)色)通過(guò)采樣一個(gè)隱變量進(jìn)行繪制,以上下文點(diǎn)數(shù)的增加為條件(黑色圓)。真實(shí)函數(shù)由一個(gè)黑色點(diǎn)線表示。紅色三角形對(duì)應(yīng)采樣 NP 曲線的最小值的下一個(gè)評(píng)估點(diǎn)。下一次迭代中的紅色圓對(duì)應(yīng)該評(píng)估點(diǎn)及其真值,作為 NP 的下一個(gè)上下文點(diǎn)。