名人堂電子報

★ 無法正常瀏覽圖片，請按這裡看說明

★ 無法正常瀏覽內容，請按這裡線上閱讀

新聞健康財經追星 NBA台灣 udn部落格 udnTV 讀書吧

2015/04/08 第642期 | 訂閱／退訂 | 看歷史報份

盛治仁／大數據浪潮人人有機會
聯合報／盛治仁
出差的時候，看不懂當地電視，又有時差睡不著的時候，所以帶了韓劇和幾本書。想想要介紹韓劇觀後感，大概沒這個能力，就跟大家介紹一本讀後有重要概念啟發的書，大數據。這本書顛覆了我原來根深蒂固的一些觀念，雖然不是完全被說服，但提供了很多未來可深入思考檢驗的重要邏輯。原以為大數據就是統計概念的延伸，只是分析更大量的資料，沒想到基本出發點頗不一樣。統計著重抽樣樣本相對母體的隨機性和代表性，大數據因應電腦和網路科技的發展，進入樣本就是母體的分析時代。當樣本等於母體時，再加上電腦當前的運算能力，就能夠作出許多過去無法分析的模型。大數據分析和統計還有幾個重要的本質上差異：統計希望找出因果關係的推論、大數據著重關連性。統計蒐集資料重視精準度、大數據有空間容忍不精確。這些差別引導出完全不同的思維模式和應用。有兩個大家熟悉的例子，讓我們見識到其運用。第一個是亞馬遜的線上購書服務。一開始是從客戶個人喜好來建議書籍，所以從客戶端的購買紀錄、瀏覽歷史等資料裡，透過樣本分析找出客戶間的相似性去推薦。這會造成買了一本育嬰書後，就會推薦更多的類似育嬰書，其實幫助不大。後來他們把關連性的主體從客戶轉移到產品。將不同產品之間的關聯性先作出篩選，不只推薦書，還可以擴充到其他產品。這個系統用的是全體商品的母體資料，而非客戶的抽樣樣本資料，其推薦產品的銷售效果非常好，後來還讓亞馬遜原來的人工書評團隊因而解散。模型運算找出了兩本書之間的關聯性，讓產品被推薦時的效果良好，但經常沒有人能夠合理解釋為何買了Ａ書的人會想買Ｂ書，但這也不是企業家關心的問題。這就是前面說的，重視關連性而非因果關係。另外一個印象深刻的例子則是Google翻譯，一個我目前工作上非常需要的軟體。一開始使用時，將義大利文翻譯成中文來閱讀，發現真是天書，完全看不懂。後來將義大利文翻譯成英文，發現意思完全可以正確無誤地理解。本來直覺以為這是因為西方語系互通性較強，後來看了大數據的介紹，才發現自己想偏了。早期的電腦翻譯確實是用文法規則，但是因為語言的例外太多，效果並不理想。後來ＩＢＭ開始用數百萬個句對的雙語文件輸入電腦，用機率去計算不同語言間如何對應。Google用的就是這個邏輯，差別在於其相對不精準但龐大且每天成長的資料庫，打敗了過去相對精準但小量的做法。這就是量大時可以容忍不精確的空間。大數據的運用才剛剛開始，但一定會以等比級數的速度成長。未來各種不同資料庫的建立以及靈活運用的能力，將會決定企業甚至國家的勝敗。例如Walmart超市發現颶風前小甜點總是暢銷，就固定在颶風來之前將小甜點大量進貨放在明顯處。從信用卡資料發現下午四點左右去加油的人，接下來很可能到附近的雜貨店或餐廳消費，就可以進行加油站和附近商店合作促銷的活動。開放政府的資料，更可能被運用在過去無法想像到的領域，例如疾病預防和安全維護等等。過去許多成功的大數據建立和運用，都是來自於有靈活點子的局外人，例如最成功的網路書店和拍賣網站創始者，過去都毫無書店和拍賣背景。這一場即將改變商業模式的浪潮，人人都有機會，端看我們如何投入。（作者為雲朗觀光集團總經理）

‧活動》【東寫西讀電子報】慶改版！百份好禮大方送！
最實用的滿分寫作技巧、閱讀理解練習通通在這！寫作名師獨授寫作祕訣，精選全球時事文章，每周一期讓孩子天天進步，讀來有想法、寫出自信心！訂閱即送百份大獎！

‧快來看！日本輻射食品你吃下肚了嗎
食藥署2011年起，暫停日本福島等五縣食品進口台灣，清查發現283件產品更改產地標示進口國內，不乏知名食品。

本電子報著作權均屬「聯合線上公司」或授權「聯合線上公司」使用之合法權利人所有，
禁止未經授權轉載或節錄。若對電子報內容有任何疑問或要求轉載授權，請【聯絡我們】。