立場新聞 Stand News

ASI 大數據:以《健康.旦》許冠傑、郭富城演唱會探討 YouTube 演算法ㅤ何謂大數據廣播

2020/5/21 — 8:29

郭富城 2020《鼓舞.動起來》網上演唱會(圖片來源:郭富城 Facebook)

郭富城 2020《鼓舞.動起來》網上演唱會(圖片來源:郭富城 Facebook)

導讀

「Any sufficiently advanced technology is indistinguishable from magic.」英國著名科幻小說作家亞瑟.克拉克(Arthur C. Clarke)為世人留下三大定律(Clarke’s three laws),最後一條亦是最重要的一條說明,任何「魔法」背後其實涉及複雜的科技操作,沒有意外也不是巧合。對云云 YouTuber 而言,要在全球每分鐘上傳影片超過 400 小時的平台突圍而出,難度堪比施展魔法。本文將 ASI 大數據協助管理的其中兩條 YouTube 頻道作為實例,闡述 YouTube 魔法的「奧祕」,包括大數據廣播(Big Data Broadcasting)的部份操作原理。

什麼是 YouTube 演算法?

日本歌手竹內瑪莉亞 1984 的單曲〈Plastic Love〉在 35 年後意外爆紅,甚至獲官方機構日本華納音樂製作專屬 MV,連串意外其實與 YouTube 的演算法有關。

廣告

事源一位化名「Plastic Lover」的用戶最早在 2017 年,將 7 分鐘版本的單曲配上黑白照片上載到 YouTube,〈Plastic Love〉一曲輾轉獲另一位網民在 Reddit 上發帖大讚:「Taeko Ohnuki gets posted here and elsewhere on Reddit a lot - she’s amazing, and I found Maria Takeuchi through a YouTube suggestion. This song is so killer! Make sure you listen all the way through the to English at the end - just slays me.」

正正是 Reddit 這則大讚的帖文開始引起大眾關注並紛紛走到搜索引擎輸入「Plastic Love」,結果在 YouTube 演算法(Algorithm)下單曲開始爆紅,令那條有 7 分鐘影片最終錄得逾 3,000 萬次瀏覽(影片因為侵權已被下架)。問題是究竟 YouTube 的演算法是什麼、有關演算法如何運作?

廣告

作為全球最大的影片搜尋及分享平台,YouTube 有點像你我認知的電影院院線,只是影片來自世界各地,早在 2017 年時 YouTube 每分鐘「上映」的新影片已超過 400 小時,而受眾每日觀看影片的時間則超過 10 億小時。

上載 YouTuber 的影片能否成功「送到」受眾眼球,取決於 YouTube 的分發機制,等於電影院院線會否將你的影片送到一線影院放映,荷里活一級猛片如《復仇者聯盟:終局之戰》再配上一級的院線,可以保證票房火爆,反之爛蕃茄電影配上地位位置放播時間欠佳的院線自然無人問津,事倍功半。

問題又來了,無論內容是入廚教學抑或古董車復修,每一位上載影片的 YouTuber 都認為自己的影片可媲美《復仇者聯盟》,應該可以吸引到大批觀眾,但最後卻淪為電視廣播(511)之流,YouTube 頻道擁有 65 萬訂閱戶但線上觀看人數只有 57 人(往後會再探討訂閱戶多寡等因素)。

電影是否賣座以及應該放在那些院線上映,可能由院線一隊專業電影人決定。基於片量太大的關係,YouTube 不會亦不可能仔細琢磨研究每條上載影片是否《復仇者聯盟》,她會將影片收集得來的大量影片數據進行運算,再得出是否應該將影片放在 YouTube 的首頁又或者推到你的眼眸。所以 YouTube 不會因為你是容祖兒楊千嬅或是古天樂,而將你的直播推送到觀眾眼前。

TVB 的 YouTube 頻道坐擁 65 萬訂閱戶,但直播只有 57 人觀看

TVB 的 YouTube 頻道坐擁 65 萬訂閱戶,但直播只有 57 人觀看

YouTube 會以推薦(recommended)、建議(suggested)以及相關影片(related)等方式,將影片推送到你的眼球前,即是每次打開 YouTube 首頁均有大量不知名短片放在螢幕前,又或者觀看影片右欄總會有大堆大堆看似相關的影片等著你點閱。至於為什麼會出現這些影片,你永遠搞不清楚。

你搞不清楚是正常不過,因為 YouTube 利用她的一套演算法,將收集所得的影片大數據,再分析你的足跡喜好後才決定如何派發影片,只是 YouTube 如何演算既是黑箱作業、從不公開,又幾乎每天都會換轉。雖然 YouTube 如何分發影片的演算法從不公開,但她公開了會參考那些大數據,結果大家惟有利用每條影片的最終觀看次數或獲分發的廣告收益,倒推那些因素她比較看重、那些她相對看輕。

我們已知、YouTube 已公布會參考的影片數據包括:平均觀看時間;平均觀看時間比例;曝光點閱率(即是觀眾看到縮圖後點開影片的頻率);不重複觀眾人數;觀看次數;觀看時間;等等。YouTube 參考這些數據後會決定如何按推薦、建議及相關影片方式分發。

YouTube 會參考大量數據再進行演算

YouTube 會參考大量數據再進行演算

以 ASI 大數據管理《健康.旦》作為例子

以已知的影片數據作為例子,若觀眾平均觀看時間比例愈高,YouTube 派送影片的機會愈高,所以不少 YouTuber 會想盡辦法吸引觀眾多留一會,例如先預告重點吊胃口等等。不過這些都是你知我知的參考因素,更重要的要利用大數據技術去掌握每天都在變化的她在想什麼,以下會以《健康.旦》以及一家電視台 YouTube 頻道的成功例子講講,特別是前者先後進行了 24 小時總觀看次數逾 100 萬次的許冠傑及郭富城演唱會。

由於實例分享涉及內部資料,有必要進一步申報或說明,為什麼會以《健康.旦》及該條電視台 YouTube 頻道作為實例分享。作為 ASI 大數據數據分析及策略總監,ASI 大數據共同擁有及管理《健康.旦》YouTube 頻道,至於另一家電視台 YouTube 頻道我們則負責管理。ASI 大數據其他管理層包括行政總裁羅燦、人工智能總設計師梁元邦以及首席研究總監黎國亨等。

目前《健康.旦》的訂閱人數超過 11 萬人,但其實有關頻道在今年 2 月才成立,羅燦、黎國亨、我與鄭丹瑞及蕭潮順等人在大年初三聚首跑馬地一家咖啡店,商討著要為疫情注入點正能量及分享專業知識下而成立。《健康.旦》廣為人知的直播影片分別是 4 月 12 日及 5 月 9 日,為許冠傑及郭富城主辦的兩場 YouTube 直播,從下表的數據可以簡單看到,頻道訂閱人數的多寡雖然與直播觀看次數密不可分,但並不存在訂閱人數多等於觀看直播人數多的必然關係,因為不少觀眾並非透過頻道訂閱而觀看節目。

以許冠傑及郭富城演唱會作為例子,首 24 小時影片的觀看次數分別達到 180 萬次及 130 萬次(若以某免費電視台每 6 萬人作為 1 點收視的話,可以高達 30 點及 21 點收視),而郭富城演唱會的影片在 11 日後累積觀看次數已達到 300 萬次。究竟這些觀眾透過什麼渠道收看兩場演唱會?(此外,許冠傑演唱會也有 Facebook 直播,觀看人數逾 10 萬)

YouTube 演算法決定你影片的觀看次數

YouTube 演算法決定你影片的觀看次數

以許冠傑演唱會頭 24 小時獲 180 萬次觀看為例,主要流量分別來自外部、瀏覽功能、YouTube 搜尋以及其他 YouTube 功能,分別佔 30.9%、29.5%、18.1% 及 9.4%,單是這幾個種來源已佔整體來源 87.9%。這裡所指的外部即是來自 Facebook、WhatsApp、Google Search及其他網站等,而瀏覽功能則包括YouTube首頁、訂閱內容及觀看紀錄等等。至於郭富城演唱會頭24小時則獲得130萬次觀看,主要流量則分別來自YouTube搜尋、瀏覽功能、外部及其他YouTube功能,分別佔30.4%、27.5%、22.9%及7.4%,合共88.2%。

ASI 大數據亦會分析大量數據

ASI 大數據亦會分析大量數據

作為頻道的管理公司,ASI 大數據最重要的工作是在演唱會直播前,讓 YouTube 學習及認識什麼是「許冠傑」及「郭富城」,要讓她知道「許冠傑」及「郭富城」是屬於《復仇者聯盟》級數的一級製作,這樣她才會願意將影片推薦、建議或相關影片模式,將影片派送到一線院線及在一流時段播映,只是如何讓她學習及知道,過程涉及與 YouTube 演算法互相博奕、繁複大數據分析及商業操作,包括以大數據系統分析刻下的趨勢、「許冠傑」及「郭富城」以往數千甚至數萬條影片數據及全球不同地區的搜尋量等等,具體操作涉及大量商業秘密,暫且略過。不過,兩次演唱會均透過 ASI 大數據管理的《健康.旦》頻道進行直播,ASI 大數據的成功已重複印證:「Repeated again and again.」

某電視台 YouTube 頻道的成功

ASI 大數據提供不同的業務,除了大家常看到的民情分析及選舉預測外,大數據廣播(Big Data Broadcasting)是其中一項核心業務,除了參與成立、管理《健康.旦》頻道外,我們同時以相似技巧協助管理某電視台的 YouTube 頻道,且分享一些簡單指標。ASI 大數據在 2019 年 4 月正式成為該頻道的管理公司,進行初步審核後並在 6 月正式管理,該頻道的訂閱人數由最初約 1 萬,在不足 12 個月增加超過 20 倍。

除了訂閱人數外,我嘗試公開幾個重要指標,讓大家知道頻道在 ASI 大數據管理前後的變化,指標包括:

  1. 平均每人觀看短片數目(Average views pre viewer by video);
  2. 估計營利播放次數(Estimated monetized playbacks by video);
  3. 您的預估收益(Your estimated revenue by video);

頻道其中一項最重要的考慮因素是觀眾對頻道的忠誠度,這個指標可以以平均每人觀看短片數目(Average views pre viewer by video)參考。該頻道 2010 年 2 月設立,2017 年開始有具體數據,截至 2018 年 8 月時平均每人觀看短片數目約 1.5 條,但到了 2020 年 4 月已升至接近 6 條。

另一個重要的指標是估計營利播放次數(Estimated monetized playbacks by video),這指標反映頻道的營利能力,主要考慮觀眾觀看影片時,影片最少有一次廣告曝光,另外亦會考慮觀眾在廣告播放期間會否即時停止觀看影片等。2018 年 8 月時每月估計營利播放次數是 0,但到了 2020 年 4 月已提升至接近 1,000 萬次。

您的預估收益(Your estimated revenue by video)主要反映 ASI 大數據如何透過大數據系統,避免該電視台 YouTube 頻道受到「黃標事件」所影響。

我在〈大數據廣播成新趨勢 東華三院 YouTube 籌款 Show 失敗沒有告訴你的真相〉中說過,今天「人人都去拍 YouTube,唔通人人都識拍 YouTube?」我應該修正,的確人人都可以拍 YouTube,但不代表人人都懂得經營或管理 YouTube 頻道,每天上載一條 10 分鐘的影片可能可以應付,但每小時上載一條影片呢?舉辦觀看次數超過 100 萬的演唱會呢?如何避過黃標事件又或者處理版權問題呢?這些都不是一兩個人可以做到的。

話說回來,將克拉克定律直譯的話,「Any sufficiently advanced technology is indistinguishable from magic.」說的是任何足夠先進的科技均無異於魔法,可惜不諳科技不懂大數據的往往會視成功為巧合,但我們不相信重複又重複的成功是巧合的一種,正如美國職業籃球(NBA)公牛隊在 90 年代的重複勝利,沒有人認為是巧合或幸運。

發表意見