立場新聞 Stand News

以頻譜回應《頻譜分析:究竟警察說的是「自由」還是「豬」?》

2019/6/24 — 15:13

網絡片段截圖

網絡片段截圖

先說立場,我基本上和朱孝文《頻譜分析:究竟警察說的是「自由」還是「豬」?》(下稱原文)一樣:以觀察聲音的時頻譜 (Spectrogram) 作分析,為 2019 年 6 月 12 日一名警察挑釁商場內的市民所用字句的討論,作出「是『豬』的可能性比『自由』大」的推斷;文章結尾亦以神經元解說這種「視覺影響聽覺」現像的原因。

我認為原文順理成章,惟對聲音頻譜的可有更準確的解讀,所以以這篇文章補充原文的觀點。

聲音與時頻譜

若怕麻煩太多資訊可直接跳「『自由』和『豬』」聽例子。 

廣告

我們聽聲音時其實是在聆聽許多(二萬個)頻率合成的結果,這些頻率各自影響著我們聽覺的質感。愈高頻的聲音愈尖銳、聲音的音高愈高(愈高音);愈低頻的聲音愈沈厚、聲音的音高愈低(愈低音)。頻率之間的強度差別令到不同的音色產生,例如即使奏著同一個音,小提琴的音色會比鋼琴大不同。 由於聲音具時間性,時頻譜能幫助我們以圖像平面地閱讀聲音,了解聲音不同時間點的頻率分佈,以方便了解聲音的內容。本文內此點以下的時頻譜之 X 軸為時間 (s),Y軸為頻率 (Hz) 顏色的愈淺代表信號愈強烈 (dB)。

Y軸的比例

其實聲音處理中頻率常的比例是 Log (對數)計算的,而非原文 Y 軸用到的 Linear (線性)比例。因為大部分日常聽到的聲音的基本頻率 (fundamental frequency) 都在大約 100Hz–1,000Hz 內,人聲則大約在 100–400Hz 。再者 100Hz 與 400Hz 聽覺上的分別遠遠大過於 18,100Hz 與 18,400Hz ,但為簡化我不在此延伸下去。用 Log 比例看時頻譜可令我們看得更多、更清楚。

廣告

以下是一段清楚收音的說話的時頻譜,首先是原文所用的 Linear 比例:

線性比例時頻譜,如原文一樣只顯示 0–10kHz。

線性比例時頻譜,如原文一樣只顯示 0–10kHz。

而下圖則是採用 Log 比例:

下圖則顯示 0–20kHz

下圖則顯示 0–20kHz

上圖,即是 Linear 的那張,聲音集中在底部;而下圖,即Log的那張,聲音集中在中間,重要的資訊被放大,包括說話的基本頻率,我們可更仔細的閱讀聲音的內容。

「自由」和「豬」

再嘗試用更多圖片和聲音幫助說明上部份。 「自」zi6 和「豬」zyu1 字廣東話讀上來都是分為兩部份,前半部份兩字共通的 z 音,讀上來有「擦」音,音質上會較多高頻;後半部份的 i 和 yu 則不同,i 音不強烈加上 6 聲變得短促, yu 音則實在,加上 1 聲有拖長的感覺。「由」 jau4 的聲母 j 讀上來似英文的 y 音,輕而快, au 則沈而促, 4 聲有一個降調的感覺。

「自由」

我們以林鄭月蛾 6 月 15 日暫緩修例的記者會中提到的「自由」為例,看看「自」字在時頻譜上是怎樣?

取自 08:53

我們可以見到,「自」和圖中其他宇不同,有明顯的兩部份,前部份較多高頻,後半部份比其他未弱,但存在;「由」則著重在低音部份,其降調使在圖上有向右下斜的特點。 我再舉多兩個「自由」的例子,一個來自上屆特首梁振英,一個來自《海闊天空》中的黃家駒。 梁振英「2015年香港最佳新聞獎」頒獎典禮的致辭:

(取自 01:19)

 《海闊天空》中的黃家駒,因為本身存在樂器部份,所以我過濾了樂器聲:

即使由三把口說出來,「自」在時頻譜上仍然有一樣的特性:有明顯的兩部份,前部份較多高頻,後半部份比其他較弱,但仍存在;「由」則著重在低音部份,其降調使在圖上有向右下斜的特點。(如覺得奇怪可按此看看註 1 的音樂版本)  

「豬」

我們再看看「豬」在時頻譜上是怎樣?我用了有線新聞報導非洲豬瘟的片段作例子。

「豬」字兩部份分明,前半的「切」音和後半的「於」音份量差不多,不像「自」的重前弱後。

主菜

學議員陳醫生說,「主菜來了」。哪麼原片內的警員說的是「自由」還是「豬」呢?我們先聽聽,為了更專心分析警員的說話,我過濾了部分雜音。

由於現場很嘈吵,警員也戴著防毒面具,這個時頻譜沒以上的那麼清晰易讀,但我們仍能看到基本頻率(低音部份的 M 形狀)。

你看到/聽到甚麼?

我的解讀: 清楚可見時頻譜中「?閪」是兩個字,非三個字,就算很快讀出也會有兩個字的分開點,但不見。令人聽到「自由」的疑點來自他說「豬」後的短暫停頓。其長度也符合「豬」的 1 音。最後:我對住時頻譜真係聽到個「豬」字(如覺得奇怪可看註 2 的未過濾版本) 。

「視覺影響聽覺」的假像

說了半天,其實答案早就存在。要對抗視覺的影響,關上眼睛就可以了。假像的成因可以參考原文,如果你對這現像有興趣,我也介紹以下兩個聲音錯覺 (sound illusion) 你看看。

首先是 McGurk Effect。真實的視覺影響聽覺,看片就可以了。

另外是 Diana Deutsch's Phantom Words:請坐在一對雙聲道 (Stereo) 喇叭正中間,用心聆聽錄音,用字一路寫低聽到的詞語。

這個錯覺的解說在此:link  

註:
[1] 原來的音樂版本:

[2] 警察聲音未過濾版本:

原文刊於作者博客

發表意見