出差的時候,看不懂當地電視,又有時差睡不著的時候,所以帶了韓劇和幾本書。想想要介紹韓劇觀後感,大概沒這個能力,就跟大家介紹一本讀後有重要概念啟發的書,大數據。
這本書顛覆了我原來根深蒂固的一些觀念,雖然不是完全被說服,但提供了很多未來可深入思考檢驗的重要邏輯。原以為大數據就是統計概念的延伸,只是分析更大量的資料,沒想到基本出發點頗不一樣。
統計著重抽樣樣本相對母體的隨機性和代表性,大數據因應電腦和網路科技的發展,進入樣本就是母體的分析時代。當樣本等於母體時,再加上電腦當前的運算能力,就能夠作出許多過去無法分析的模型。
大數據分析和統計還有幾個重要的本質上差異:統計希望找出因果關係的推論、大數據著重關連性。統計蒐集資料重視精準度、大數據有空間容忍不精確。這些差別引導出完全不同的思維模式和應用。
有兩個大家熟悉的例子,讓我們見識到其運用。第一個是亞馬遜的線上購書服務。一開始是從客戶個人喜好來建議書籍,所以從客戶端的購買紀錄、瀏覽歷史等資料裡,透過樣本分析找出客戶間的相似性去推薦。這會造成買了一本育嬰書後,就會推薦更多的類似育嬰書,其實幫助不大。後來他們把關連性的主體從客戶轉移到產品。將不同產品之間的關聯性先作出篩選,不只推薦書,還可以擴充到其他產品。這個系統用的是全體商品的母體資料,而非客戶的抽樣樣本資料,其推薦產品的銷售效果非常好,後來還讓亞馬遜原來的人工書評團隊因而解散。模型運算找出了兩本書之間的關聯性,讓產品被推薦時的效果良好,但經常沒有人能夠合理解釋為何買了A書的人會想買B書,但這也不是企業家關心的問題。這就是前面說的,重視關連性而非因果關係。
另外一個印象深刻的例子則是Google翻譯,一個我目前工作上非常需要的軟體。一開始使用時,將義大利文翻譯成中文來閱讀,發現真是天書,完全看不懂。後來將義大利文翻譯成英文,發現意思完全可以正確無誤地理解。本來直覺以為這是因為西方語系互通性較強,後來看了大數據的介紹,才發現自己想偏了。早期的電腦翻譯確實是用文法規則,但是因為語言的例外太多,效果並不理想。後來IBM開始用數百萬個句對的雙語文件輸入電腦,用機率去計算不同語言間如何對應。Google用的就是這個邏輯,差別在於其相對不精準但龐大且每天成長的資料庫,打敗了過去相對精準但小量的做法。這就是量大時可以容忍不精確的空間。
大數據的運用才剛剛開始,但一定會以等比級數的速度成長。未來各種不同資料庫的建立以及靈活運用的能力,將會決定企業甚至國家的勝敗。例如Walmart超市發現颶風前小甜點總是暢銷,就固定在颶風來之前將小甜點大量進貨放在明顯處。從信用卡資料發現下午四點左右去加油的人,接下來很可能到附近的雜貨店或餐廳消費,就可以進行加油站和附近商店合作促銷的活動。開放政府的資料,更可能被運用在過去無法想像到的領域,例如疾病預防和安全維護等等。
過去許多成功的大數據建立和運用,都是來自於有靈活點子的局外人,例如最成功的網路書店和拍賣網站創始者,過去都毫無書店和拍賣背景。這一場即將改變商業模式的浪潮,人人都有機會,端看我們如何投入。
(作者為雲朗觀光集團總經理)