Categories
程式開發

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言


編者按:本文節選自圖靈程序設計叢書 《深度學習的數學》一書中的部分章節。

上一節我們通過惡魔講解了神經網絡的結構。本節我們將惡魔的工作用神經網絡的語言來描述。

惡魔之間的“交情”表示權重

上一節考察了惡魔組織識別手寫數字 0、1 的結構。將這個組織替換為神經網絡,我們就能理解神經單元發揮良好的團隊精神進行模式識別的結構。

首先,將惡魔看作神經單元。隱藏層住著 3 個隱藏惡魔 A、B、C,可以解釋為隱藏層有 3 個神經單元 A、B、C。輸出層住著 2 個輸出惡魔 0、1,可以解釋為輸出層有 2 個神經單元 0、1。此外,輸入層住著 12 個惡魔的手下,可以解釋為輸入層有 12 個神經單元(下圖)。

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 1

接下來,將惡魔的“交情”看作神經單元的權重。隱藏惡魔 A 與手下④、⑦性情相投,這樣的關係可以認為是從輸入層神經單元④、⑦指向隱藏層神經單元 A 的箭頭的權重較大。同樣地,隱藏惡魔 B 與手下⑤、⑧性情相投,可以認為是從輸入層神經單元⑤、⑧指向隱藏層神經單元 B 的箭頭的權重較大。隱藏惡魔 C 與手下⑥、⑨性情相投,可以認為是從輸入層神經單元⑥、⑨指向隱藏層神經單元 C 的箭頭的權重較大。

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 2

注:關於權重,請參考 1-2 節、1-3 節。

隱藏惡魔 A、C 與上層的輸出惡魔 0 性情相投,這個關係表示從隱藏層神經單元 A、C 指向輸出層神經單元 0 的箭頭的權重較大。同樣地,隱藏惡魔 B 與輸出惡魔 1 性情相投,這個關係表示從隱藏層神經單元 B 指向輸出層神經單元 1 的箭頭的權重較大。

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 3

這樣解釋的話,神經網絡讀入手寫數字 0 時,神經單元 A 和 C 的輸出值較大,輸出層神經單元 0 的輸出值較大。於是,根據神經網絡整體的關係,最終識別出數字 0。

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 4

在像這個神經網絡那樣前一層與下一層全連接的情況下,在輸入0 的圖像時,原本不希望做出反應的隱藏層神經單元B 以及輸出層神經單元1 也有信號傳遞,因此需要禁止這樣的信號並使信號變清晰,這樣的功能就是偏置,在惡魔組織中表現為“心的偏置”。

如上所述,權重和偏置的協力合作使得圖像識別成為可能。這就是“由神經網絡中的關係得出答案”的思想。

模型的合理性

如上所述,我們將上一節考察過的惡魔的工作翻譯為了神經網絡的權重與偏置,但不要認為這樣就萬事大吉了。即使將惡魔的活動轉換為了神經網絡,也無法保證可以求出能夠實現惡魔的工作的權重和偏置。而如果能夠實際建立基於這個想法的神經網絡,並能夠充分地解釋所給出的數據,就能夠驗證以上話題的合理性。這需要數學計算,必須將語言描述轉換為數學式。為此,我們會在第 2 章進行一些準備工作,並從第 3 章開始進行實際的計算。

惡魔的人數

住在輸出層的輸出惡魔的人數是 2 人。為了判斷圖像中的數字是 0 還是 1,2 人是合適的。

住在隱藏層的隱藏惡魔的人數是 3 人。為什麼是 3 人呢?如本節開頭所講的那樣,這是由於存在某種預估,如下圖所示。

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 5

根據該圖可以預估數字 0 包含了圖中的模式 A 和 C,數字 1 包含了模式 B。因此,只要準備好對上圖的模式 A、B、C 做出反應的神經單元,就能夠判斷圖像中的數字是 0 還是 1。這 3 個神經單元正是隱藏惡魔 A、B、C 的本來面目。

上一節中為隱藏惡魔 A、B、C 設定分別喜歡模式 A、B、C 的特徵,也是出於這個原因。

以上是在隱藏層部署 3 個神經單元的理由。通過讓這個神經網絡實際讀取圖像數據並得出令人信服的結論,可以確認這個預估的正確性。

關於具體的確認方法,我們將在第 3 章考察。

神經網絡與生物的類比

讓我們從生物的觀點來看神經網絡。

請想像一下生物看東西時的情形。可以認為,輸入層神經單元相當於視細胞,隱藏層神經單元相當於視神經細胞,輸出層神經單元相當於負責判斷的大腦神經細胞群。

不過,相當於隱藏層神經單元的視神經細胞實際上存在嗎?例如,第一個神經單元對前面圖中的模式 A 做出反應,像這樣的視神經細胞存在嗎?

實際上,1958 年美國生理學家大衛· 休伯爾(David Hunter Hubel)和托斯坦· 威澤爾(Torsten Wiesel)發現存在這種細胞,這種細胞被命名為特徵提取細胞。對某種模式做出強烈反應的視神經細胞有助於動物的模式識別。想到本節考察的“惡魔”在大腦中實際存在,這真是非常有意思的事情。

備註 人工智能研究中的幾次熱潮

人工智能的研究大約是從 20 世紀 50 年代開始的,其發展史與計算機的發展史有所重合,可以劃分為以下 3 次熱潮。

世代 年代 關鍵 主要應用領域
第1代 20 世紀 50 ~ 60 年代 邏輯為主 智力遊戲等
第2代 20 世紀 80 年代 知識為主 機器人、機器翻譯
第3代 2010 年至今 數據為主 模式識別、語音識別

圖書簡介http://www.ituring.com.cn/book/2593

深度學習的數學(五):將惡魔的工作翻譯為神經網絡的語言 6

相關閱讀

深度學習的數學(一):神經網絡和深度學習

深度學習的數學(二):神經元工作的數學表示

深度學習的數學(三):神經元工作的數學表示

深度學習的數學(四):用惡魔來講解神經網絡的結構