立場新聞 Stand News

與其說是讀心,倒不如說是模仿視覺神經系統

2018/1/12 — 19:02

黑框內的為原圖,三個灰框內的則是由 3 位參加者腦部活動重組的圖片/ Kamitani et al. (2017)

黑框內的為原圖,三個灰框內的則是由 3 位參加者腦部活動重組的圖片/ Kamitani et al. (2017)

有沒有想過,科學家有朝一日可以透過電腦,「看」得到我們所見的事物。這不一定是可怕科幻故事情節,反而有助科學家更深入了解人類,或者動物怎樣「看」到周邊事物,甚至怎樣理解事物本義。

讓程式「看見」我們所見的事物

平日我們所見的影像都是由光線照射到物件,再反射到眼球視網膜光感細胞後轉化為神經訊息。這類神經訊息隨即沿著視覺神經線,傳送到大腦中的側膝狀核 (LGN, lateral geniculate nucleus) ,轉送到不同視覺區域處理。經一輪處理後,才可令我們「看」到外來影像。

科學家在過去 10 年,開始將磁力共振成象 (fMRI) 收集的人腦活動,以機器學習解碼 (decode),並重新建構為簡單圖片或影片。然而,機器學習一般都未能將未見過、未經訓練的圖像重新建構。

廣告

要解決這個問題,日本運算神經科學家神谷之康的研究隊伍認為可參考我們的視覺神經系統。在人體視覺系統中,光感細胞轉化而成的神經訊息,會傳送到不同視覺區域逐層處理。視覺區會分別處理代表光暗、線條、深淺的神經訊號。訊息組會再合成為「主觀影像」,令我們看到外來事物。

模仿人類視覺視覺系統

他們這個研究方向初見成效。在 2017 年 5 月,神谷之康研究隊伍成功利用機器學習將 fMRI 訊號解碼成深度神經網絡 (deep neural networks, DNNs) 。也就是說,科學家可以以程式模仿人類視覺視覺系統,逐層處理外來的視覺資訊。去年 12 月 30 日,他們再在 bioRxiv 刊出新報告。新報告雖未經同濟評核,但已引起不少人注意——因為神谷之康等人似乎成功由 3 位參加者的腦海中,以機器學習重新建構出他們所見的影像。

廣告

經圖片訓練後,解碼程式可將 fMRI 訊號轉化為 DNNs 特性,由此再建構出新圖。為了令圖片更「似樣」,研究人員可選擇在製圖過程中加入 DGN 運算。/ Kamitani et al (2017).

經圖片訓練後,解碼程式可將 fMRI 訊號轉化為 DNNs 特性,由此再建構出新圖。為了令圖片更「似樣」,研究人員可選擇在製圖過程中加入 DGN 運算。/ Kamitani et al (2017).

神谷之康和研究人員首先讓參加者觀看一系列圖片,包括自然圖片(Natural Image, 例如山景、動物、建築物等)、幾何圖形和字母等(即是 A、C、U 之類)。觀看圖片同時以 fMRI 收集參加者腦部活動數據,包括視覺區域 V1–V4、負責辨識臉孔的梭狀臉區 (Fusiform Face Area) 等區域。

收集 fMRI 數據後,研究人員再根據 5 月研究作藍本。他們先訓練程式分析和學習參加者觀看其中一組自然圖片時的 fMRI 數據。程式在訓練後,能分辨到大腦出現 A 活動所代表的相應圖片特性,例如線條粗幼、長度、光暗等資訊。

但這樣只會讓程式學到特定腦部活動所代表的圖片特性,未足以令程式重組圖像。因此,研究人員會同時以另一套深度神經網絡,從實驗圖片資料庫中找出每一張圖片的特性。

要重建圖像,研究人員就先輸入參加者在觀看其他自然圖片 fMRI 訊號,並將 fMRI 訊號以第一組深度神經網路「解碼」。然後,程式再將這類特性與第二組神經網路作對比。除了從這兩套神經網路直接輸出的圖片外,他們也利用另一研究隊伍所編出的機器學習程式—— Deep Generator Networks 套取圖片最獨別的特性,加入到運算中,由此重組出另一批與原圖更相似的「新圖」。

成功重新建構影像

為測試解碼成功與否,研究人員先以程式比較圖片相似度。每幅數碼圖片都是由一粒粒點陣組成;每顆點陣都會儲存相應的顏色數據。只要比較整幅圖片的點陣顏色數目是否相若,就可由此知道原圖和重製圖在顏色比例上是否相似。他們發現經 DGN 處理的圖片顏色比例相似度為 76.1%,未經處理的則為 79.7%。

然而,此方法卻未可知圖片在意義上實際是否「相同」。兩幅圖片可能有相若的顏色點陣數量,但一幅可以是貓,另一幅可能是一個木箱。為此,他們再以肉眼比較圖片相似度。肉眼判斷的結果則發現,經 DGN 處理的相似度為 99.1%,沒有的相似度為 96.5%。

結果相當理想,但研究人員希望知道程式解碼功能,可否應用於重新建構幾何圖形和字母圖片。這測試比重組自然圖片更難,因為程式本身是以「自然圖片」學習,未有任何經驗處理其他種類的圖片。結果,程式解碼能力一樣好。就以幾何圖形為例,顏色相似度為 69.4%,肉眼判斷則有 92.3%。也就更令研究人員肯定程式能真真正正將 fMRI 訊號解碼為圖像。

讀取想像中的影像

看得見的圖片可以重造,程式同樣可「勉強」重新畫出參加者想像中的圖案。研究人員要求參加者嘗試記起之前見得的影像。顏色對比結果就只有 51.9%,跟斷估分別不大。但如果以肉眼判斷,圖片相似度仍然有 83.2% 。研究人員認為相似度較低,是因為圖片一般較難想像。同時他們也發現,如果要求肉眼只判斷顏色或形狀是否相似的話,後者的相似度會較高,達 87.0%;前者則只有 64.8%。

當然,此研究只有 3 位參加者作樣本,未知是否可讀取和將所有人腦部活動數據「解碼」。得出的圖片也非與原圖完全一樣。也就是說,與科幻故事中,可準確讀取每一個人腦海想法的瘋狂念頭尚有一段距離。與其說程式成功「讀心」,倒不如說是程式成功模仿到人類視覺系統的運作方式。神經科學家神谷之康等人就認為今次研究的發現,或以新方法,幫助我們更深入了解內心世界怎樣運作。 

報告:
Shen, G., Horikawa, T., Majima, K., & Kamitani, Y. (2017). Deep image reconstruction from human brain activity. bioRxiv, 240317. DOI: 10.1101/240317

參考資料:

  1. Nikhil Buduma, Deep Learning in a Nutshell, 29 December 2014
  2. Horikawa, T., & Kamitani, Y. (2017). Generic decoding of seen and imagined objects using hierarchical visual features. Nature Communications, 8, 15037. DOI: 10.1038/ncomms15037
  3. Nishimoto, S., Vu, A. T., Naselaris, T., Benjamini, Y., Yu, B., & Gallant, J. L. (2011). Reconstructing visual experiences from brain activity evoked by natural movies. Current Biology, 21(19), 1641-1646. DOI: 10.1016/j.cub.2011.08.031

作者 Facebook 專頁

發表意見