記《7.21 尋源》:用大數據追溯可疑文宣的嘗試與局限

前言:

立場新聞調查報道《7.21 尋源》其中一個重要元素,是利用公眾社交媒體內大數據追本溯源,查證核實監警會報告中引用、聲稱來自連登討論區的「得元朗得天下」圖,指「網上開始呼籲人們參加 7 月 21 日在元朗舉行的公眾集會,以抗議 7 月 16 日的放映會遭人滋擾。」這說法是否有根據?

調查報道播出後兩日的 7 月 21 日晚上,個別媒體包括《東網》報道指翻查資料,「得元朗得天下」圖片是於「2019 年 7 月 18 日 12 時左右,在 Telegram 一個名為『公海總谷 2.0』求助、討論、情報交流區中已經出現,由一個叫『戰無不勝』的 TG 用家所發布」,該報道未有載述資料來源。

《巴士的報》也於同晚的博客文章,指「從權威渠道」翻查當日社交媒體數據,得出相似資料,文章又附上一幅載有「得元朗得天下」圖片 (右下角有 12:09 字眼)  的「公海總谷 2.0」Telegram 截圖。《文匯報》 22 日亦有相似報道,並引述這是「警方調查」的發現。

我們在 Telegram 群組未能找到名字完全相同的群組,而名字相近的「公海總谷 2.0」屬私人通訊的 Telegram 群組,而非用於發布消息的 Telegram 頻道,一般非群组成員必須先加入群组,才能閲讀群组内的内容,並不屬一般人可接觸的公眾社交媒體的一部份,其內容因此不涵蓋在我們調查所使用的公眾社交媒體數據資料庫中。至於傳媒引述資料的內容及截圖真偽,由於「公海總谷 2.0」群組目前只存有最近一年的討論、並未載有 2019 年 7 月時份的內容,《立場新聞》目前並無更多資料查證核實,及追蹤該時段在私人群組內的消息傳播過程。

在我們能掌握的公眾社交媒體數據資料中,「得元朗得天下」文宣最先出現在微博大 V 「風中微塵」的帖文,傳播的時間比連登早約一小時,最新的截圖若然屬實,意味「風中微塵」並非第一個發布「得元朗得天下」圖,該圖再早約一小時出現於「公海總谷 2.0」Telegram 群組。「風中微塵」22 日凌晨出帖指「這兩天香港所有的黃媒都在造謠我故意發布假消息引黑衣人到元朗」,21 日晚上引用昨東網報道截圖指「感謝東網還我清白!」報道播出後八天,「風中微塵」在微博上回覆我們查詢,表示「圖片是我在網上看到然後轉發到微博上的,你們冤枉我了。」她又表示,由於「私信超多」,才剛看到我們的查詢。

此後記旨在補充調查構思和方法,記錄在索閱公開資訊愈趨困難和步步為營的年代,公民能如何創造工具、運用網絡數據追尋線索,當中又有什麼局限。

 

追查方向源起

「示威者帶人入元朗」的說法不是始自今日,回帶到 2019 年 7.21 襲擊事件發生翌日,記者重返雞地現場找尋閉路電視,和商戶閒聊時,就有路過的元朗街坊氣忿地指摘:「唔係黃之鋒帶 500 人嚟,佢哋會郁手?你唔知呀,佢哋帶好多人嚟搞亂元朗!」

7.21 幾日後,流傳的版本演變成林卓廷帶人去搞亂元朗;直至今次報道出街後的留言中,仍有網民堅持是朱凱廸、鄺俊宇、黃之鋒等帶人「光復元朗」。但公開資料並沒見三人有任何動員,亦沒見他們當晚在元朗出現。

當年記者已抱有疑問,究竟這些假消息是誤傳抑或是有組織的散播?如屬後者,又與白衣人的有組織襲擊有無關聯?

然後在 2019 年 10 月中,7.21 襲擊事件發生後 3 個月,我們在 Matters 看到一篇文章,循訊息的傳播過程分析事件。在《香港羅生門(π) - 721元朗事件的「真相」與「後真相」》一文中,作者 goodwill 開宗明義指出「721 是整個香港羅生門的核心」,意指各方對事件真相各執一詞,甚至編織謊言終至是非曲直難辨。

作者 goodwill 指:「網上(主要應該是一些親建制自媒體以及 whatsapp/telegram 群組)忽然流傳兩張來歷不明,聲稱要「721 光復元朗」的圖片,一張冒稱了組織學生動源的名義,另一張則是一張甚麼『得元朗得天下』,後來一些媒體和人士便以這兩張為「黑衣人」首先發起挑釁的依據。」

根據資料,Telegram 群組曾於 7 月 19 日流傳聲稱是「學生動源」名義發出的 7.21 遊行圖片,呼籲市民到中環、深水埗和元朗「遍地開花」,同日黃昏「學生動源」出聲明澄清絕無有關呼籲,有關圖片全屬虛假資訊。至於「得元朗得天下」圖,亦未知來歷。

作者 goodwill 在文中羅列、分析討論區和微博帖文內容。我們去年和今年曾嘗試聯絡作者,希望進一步訪問或了解其看法,可惜終究未能聯絡得上。


大數據追蹤方法

2020 年 5 月,監警會發表專題報告,裡面引用聲稱來自連登討論區的「得元朗得天下」圖,指「網上開始呼籲人們參加 7 月 21 日在元朗舉行的公眾集會,以抗議 7 月 16 日的放映會遭人滋擾。」

為此,我們聯絡上一直研究中港社交平台資訊的香港大學新聞及傳媒研究中心副教授傅景華,希望較全面地搜集和研究有關「7.21 入元朗」在社交媒體平台上的歷史痕跡,以追蹤「得元朗得天下」圖的來源。

傅教授自 2011 年創立 Weiboscope 研究項目,透過軟件程式不間斷地下載微博用戶的發帖內容和轉發,以及恢復被刪除的微博內容。自 2019 年反修例運動以來,他又開始從 Telegram 頻道收集文字、相片、影片等訊息,再配合其他社交媒體的數據進行研究。

直至現在,由他和團隊匯聚整合的社交媒體數據資料,可搜尋連登、高登等多個討論區,超過十萬個微博帳戶,數以千計的 Facebook 專頁、IG 帳戶、Telegram 頻道發布的內容,涵蓋行動群組、輿論意見領袖、政治人物、主流傳媒、建制陣營經營的頻道。

 

研究方法的限制

誠然,任何研究方法都有可完善之處,這次的調查也不例外。我們與傅景華教授討論過研究目標後,認同用這個方法追蹤有其限制,但大體上不至於影響調查結果及分析:

第一個限制,是今次的研究範圍只限於出現在公眾領域的討論,即各大社交媒體平台的公開群組、專頁以至帖文內容。一些私人傳訊工具如 WhatsApp 或 Signal 的數據、Telegram 群組的討論,不在搜集分析之列。(註:研究的公眾社交媒體數據資料,涵蓋主要用於發布訊息的 Telegram 頻道,但不包括 Telegram 群組,後者屬可設定為公開或私人的聊天區,容許成員發表言論及分享文件等。)

不過,考慮到反修例運動其作為公共事件的性質,以及自運動以來網民多透過公開討論區、以及 Telegram 頻道作動員的模式,我們相信此方法已包羅重要的公眾社交媒體平台,所找到的訊息源起及其傳播過程相當具代表性。

第二,社交平台的數據有可能被刪除,導致訊息傳播過程部分細節會出現盲點。但基於社交媒體轉發和互動的特性,假設一個訊息曾被轉發或引起討論,即使在被刻意刪除下也會留下痕跡。

第三,礙於資源和技術所限,難以把所有帳戶及其內容全部下載,在搜集數據來源上,必須設定簡單的過濾。例如集中在影響力較大、有較多轉發和粉絲流量的微博帳戶、較常轉發或討論公共議題的 Facebook 專頁、以及一般用作發布訊息組織行動的 Telegram 頻道等。

 

軟件不能代勞的質性分析

軟件在搜集原材料時會記錄每則資料的來源、發佈日期和時間,以確保原始資料的真確性。在這樣的基礎下,我們以「元朗」作關鍵字搜尋由 7 月初至 7.21 曾出現過的社交媒體帖文內容,再作質性的研讀;而惟恐有相關討論沒有用上「元朗」字眼,我們也用監警會附圖作逆向搜尋,透過軟件辨析圖片以及相關討論。

有從事數據新聞經驗的人必定了解,搜集和儲存數據只是調查的第一步,最艱巨的過程必定是如何梳理和詮釋數據。我們從各大討論區和社交媒體上,搜集得近千項曾出現「元朗」字眼或「得元朗得天下」圖的帖文。

所有帖文內容的質性分析,是電腦和軟件不能代勞,要靠記者用人力細讀和過濾。而為防有所遺漏,除了原帖文外,還要看網民留言,部分在討論區和 Facebook 的帖文少則涉及幾十個留言討論,多則可達一千多個留言;微博和 IG 的內容更是包羅萬有,由元朗樓盤開售到地區著名餐廳、手信都有……記者最後花了逾一星期爬梳所有內容,得出主流意見認為「得元朗得天下」圖是謠傳,以及沒有一個 7.21 元朗集會的真實動員。

我們發現在 7.16 放映會衝突後,有網民在連登討論區提出「光復元朗」,但並沒有提出在 7.21 進行、亦沒有相關文宣,主流聲音更強調要先集中 7.21 的港島區遊行。

在我們所掌握的公眾社交媒體數據資料中,較連登討論區更早公開發布 721 元朗集會消息及監警會報告引用的「得元朗得天下」圖,是一個叫「風中微塵」的微博帳戶。而在微博發帖後不夠 30 分鐘,有關消息開始在 Facebook 建制公開群組出現,有建制網民附加「元朗一眾鄉紳恭候你們」的圖片。

連登討論區第一次出現「得元朗得天下圖」是在「風中微塵」發帖後約一小時,內容是澄清有關消息屬謠言,之後出現的內容大部分也屬澄清性質。至於在 Telegram 頻道,則是再一小時之後才出現該幅圖片,但已加上「假消息」字眼。

調查結果與監警會報告指,連登討論區用此圖呼籲人參加元朗集會,並不相符。調查完成後,我們發現「風中微塵」在資料中是第一個發帖,從資料流傳的過程中,相信「風中微塵」是較早發帖者,尚要追溯,所以我們曾向「風中微塵」查詢,希望了解她從甚麼渠道獲得有關集會訊息和圖片,但她一直未有回覆。我們也向監警會查詢報告會否涉及錯誤資料,監警會僅以口頭回覆,指報告是根據當時的資料撰寫而成,他們沒有補充。

傅景華教授強調研究方法有其限制,今次的調查不能排除有個別帳戶在更早時間,透過屬私人性質的社交媒體平台傳送有關訊息或圖片。但集會遊行等活動具有公共性,若傳播不是在公眾的社交媒體進行,難以視作是一種「動員」。

他也形容監警會報告的內容「不夠全面」,包括沒有清楚列出連登討論區有關 7.21 入元朗的消息大多屬澄清性質、而非呼籲人們參與,也有很多網民質疑動員是「假消息」。他認為情況令人憂慮,由官方流傳的錯誤資訊,或造成「滑坡效應」,影響更多人對事件的判斷。

事實上,監警會指在 7.16 放映會後,網民呼籲 7.21 入元朗的論述已一度出現在 7.21 白衣人暴動案的開案陳詞中,在法官質疑無關聯下才被刪除。

 

結語

今次的調查更像是一套組合拳,整個調查脈絡並不依賴單一工具,是由不同人士努力建構而成的調查,包括遇襲傷者蘇先生不放棄在討論區追尋真相,找到有關李璧而和「守護香港」糾察牌的線索;網民 goodwill 早在2019 年 10 月撰寫的文章和記錄;傅景華教授團隊建立的社交平台研究項目等等。

在接近真相愈需步步為營的年代,我們並不孤單。在最黑暗之處,仍有人同行。

 

文/蔡玉玲、鄭思思

(本文於 27/7 更新,新加上「風中微塵」的回應。)

編輯推介

    發表意見