Sunday, December 14, 2014

大數據

大數據 (big data) 這個課題近年炒得很熱,但在香港像不太熱烈似的,哈哈,或許,因為這個暫不是能令股票市場興波作浪的概念吧。

這個概念在台灣看來熱得多。在書局,會見到數本台灣出版的書籍,書名均有「大數據」三個字。某日在圖書館翻閱台灣的舊雜誌,也是以此為題。原來鴻海科技集團 (Foxconn,富士康的母公司) 董士長郭台銘先生在數月前甚至誇口,要出三倍人工與 Google 搶員工呢!很熱鬧啊!

簡單來說,大數據就是從大量數據中找出事件之間的關聯,這種關聯是指統計上的關聯 (statistical correlation),而並非事情發生的因果關係 (causal relation)。兩者有甚麼分別?例如早上鬧鐘響起起床的時候,我常會聽見小鳥的叫聲。因為鳥聲而出現鬧鐘聲?這是因果關係,但此情況下這個因果關係並不成立,因為鬧鐘之所以會響很明顯是因為我調校了鬧鐘,而不是因為有鳥聲。那麼是否因為有閙鐘聲而出現鳥聲,這果也是因果關係,我不知道是否成立。但是,鬧鐘聲與鳥聲在我起床時很多時會同時出現,兩者便算得上有一個統計上的關聯,當中可以存在或不存在因果關係。

看該雜誌,見到一個厲的例子,應該是引述自某本講大數據的著作。話說美國有關當局欲了解流感爆發的情況,但當等到醫療機構的匯報、醫生的判斷,以及種種原因,實在須時太久而且也不準確。而 Google 則想出一個方法,利用它自身搜尋引擎的優勢,用一些方法找出了搜尋字眼與流感暴發的關聯,有效且準確地預測到流感爆發!

關鍵在於,如何有效處理大量數據。以前,受時間、金錢以及種種資源所限,要收集大量數據很困難,就算收集到大量數據,要對其進行分析及研究亦十分困難的。於是往往只從母體 (population) 抽取樣本作研究 (sample) ,亦發展了相關的數學理論。

隨著電腦的功能日益強勁,以前不可能的事在今天亦變成有可能。Google 在這個年代,可以說掌握著絕對的優勢,它的業務可以說掌握著收集、處理以及分析大量數據的技術。預測流感暴發,是就特定目的來作出預測,如果沒有明確特定目的,便是預測未來吧!或許它日大家進入 google.com 進行搜尋,除了會看到 web, image, map 等數個範圍,還會有 prophecy 吧?實會準過黃大仙!

哈哈,真的嗎?我當然不會知道。但是近十年這世界產生的數據日益增加,當中九成九可能都是垃圾數據。科技日益進步,我越覺得真正有貢獻有意義的科技是越來越少的,不同的高科技產品使人目不暇接,我們會看到哇一聲,驚訝著這些以前看似不可能的技術,腦袋被一剎那的刺激所蒙騙,乖乖地付出花碌碌的銀紙,浪費了不少光陰。

預測未來?更重要,這個技術能夠分辨出垃圾與非垃圾!

No comments: