1997年美國《華爾街日報》記者 Michael Drosnin寫了一本轟動一時的著作《聖經密碼(Bible Code)》,向普羅大眾介紹了利用聖經的組合排列有序地重新解讀,便可以從中得知未來的方法。或簡單一點說,聖經就是一本未來書。當時作者參考了一些數學的方法,重新在原典的經文中找出具預言性的訊息。
結果有不少數學家和專家發現,沒錯,聖經確是滿佈所謂的「密碼」,但同樣在《大英百科全書》也是滿佈可以揭示未來的「訊息」。與其說是訊息,那更可能是胡說八道的噪音。不少的專家就是抨擊《聖經密碼》的作者誤將噪音當作訊息,亂扯一通。為什麼要提及此書?因為這事件讓我連繫到今天的「大數據(big data)」趨勢可能會引起的問題。
大數據年代的來臨,讓 Facebook 這間接有十億以上用戶的公司顯得很值錢,因為他們可以將十億個用戶的個人資料拆解再拆解、排列再排列、分析再分析,便可以得出大量對商戶很感興趣知道的消費行為。這個圖像是何等的壯濶,是何等的野心,但同時,Facebook可能沒有告訴你的是,有很多分析完之後的資料,看似是有另一種新意義,但往往不過是另一種噪音而已。
若以資訊量來說,今天資訊量遠比《聖經密碼》的年代增長了很多倍。我們認為若然有更多資料的獲取,同時電腦有更驚人的運算力,我們便可以看到數據分析背後,有不同而又之前沒有發掘過的新模式(patterns)。透過這些模式,有助我們更準確的進行預測(例如顧客的口味)。這也是今天所流行的「大數據(Big Data)」浪潮中的核心主張:給我更多多資料,我便可以從中解讀到更多你想也沒有想過的趨勢。這一切都是關於我們如何可以有更好的預測能力;這也製造了另一股稱之為「微趨勢(micro-trends)」的浪潮
但正所謂垃圾輸入,就只能有垃圾輸出。我們也很可能從大數據的資料得出一大堆垃圾(Big Garbage),但由於是我們是對「模式」敏感度高的動物(這固然是人類一大好處),但同時他們也很自然地會進行很多過度解讀,找出大量不知所謂的「聖經密碼(bible code)」。當電腦還沒有那麼大威力的時候,反而看不到那麼多「隱藏模式(hidden patterns)」。但現在資訊多了,我們也多了不少噪音。資料與資訊,在某程度來說,就是噪音。
那我們該怎麼辦?美國的新掘起的才俊 Nate Silver 可以提供不少值得參考的想法。
此君因能在2008年準確地預測了美國全國50個州中其49個州的戰果,而且能完全正確無誤地預測了所有得選者的名字,然後於 2012 年大選完美地準確預測了所有 50 個州份的選舉結果。必須說這樣的戰果就是在香港小小的立法局選舉都未必能做到,更枉論在如此的規模下要做到幾乎完美的預測,實在是太驚人了。很多人當然想知道,他是如何做到的。剛巧在不久之後,他便出了一本書,名為《訊號與噪音(The Signal and The Noise)》。這本書,可能是2012年更中一本年度佳作,更重要的是,這本書改變了不少人對未來的看法。其中最重要的就是學習「狐狸」的思考方法。下回待續。