無法正常瀏覽圖片,請按這裡看說明   無法正常瀏覽內容,請按這裡線上閱讀
新聞  健康  財經  追星  NBA台灣  udn部落格  udnTV  讀書吧  
名人堂電子報
2015/04/08 第642期 | 訂閱/退訂 | 看歷史報份
 
名人觀點
盛治仁/大數據浪潮 人人有機會
聯合報/盛治仁
出差的時候,看不懂當地電視,又有時差睡不著的時候,所以帶了韓劇和幾本書。想想要介紹韓劇觀後感,大概沒這個能力,就跟大家介紹一本讀後有重要概念啟發的書,大數據。

這本書顛覆了我原來根深蒂固的一些觀念,雖然不是完全被說服,但提供了很多未來可深入思考檢驗的重要邏輯。原以為大數據就是統計概念的延伸,只是分析更大量的資料,沒想到基本出發點頗不一樣。

統計著重抽樣樣本相對母體的隨機性和代表性,大數據因應電腦和網路科技的發展,進入樣本就是母體的分析時代。當樣本等於母體時,再加上電腦當前的運算能力,就能夠作出許多過去無法分析的模型。

大數據分析和統計還有幾個重要的本質上差異:統計希望找出因果關係的推論、大數據著重關連性。統計蒐集資料重視精準度、大數據有空間容忍不精確。這些差別引導出完全不同的思維模式和應用。

有兩個大家熟悉的例子,讓我們見識到其運用。第一個是亞馬遜的線上購書服務。一開始是從客戶個人喜好來建議書籍,所以從客戶端的購買紀錄、瀏覽歷史等資料裡,透過樣本分析找出客戶間的相似性去推薦。這會造成買了一本育嬰書後,就會推薦更多的類似育嬰書,其實幫助不大。後來他們把關連性的主體從客戶轉移到產品。將不同產品之間的關聯性先作出篩選,不只推薦書,還可以擴充到其他產品。這個系統用的是全體商品的母體資料,而非客戶的抽樣樣本資料,其推薦產品的銷售效果非常好,後來還讓亞馬遜原來的人工書評團隊因而解散。模型運算找出了兩本書之間的關聯性,讓產品被推薦時的效果良好,但經常沒有人能夠合理解釋為何買了A書的人會想買B書,但這也不是企業家關心的問題。這就是前面說的,重視關連性而非因果關係。

另外一個印象深刻的例子則是Google翻譯,一個我目前工作上非常需要的軟體。一開始使用時,將義大利文翻譯成中文來閱讀,發現真是天書,完全看不懂。後來將義大利文翻譯成英文,發現意思完全可以正確無誤地理解。本來直覺以為這是因為西方語系互通性較強,後來看了大數據的介紹,才發現自己想偏了。早期的電腦翻譯確實是用文法規則,但是因為語言的例外太多,效果並不理想。後來IBM開始用數百萬個句對的雙語文件輸入電腦,用機率去計算不同語言間如何對應。Google用的就是這個邏輯,差別在於其相對不精準但龐大且每天成長的資料庫,打敗了過去相對精準但小量的做法。這就是量大時可以容忍不精確的空間。

大數據的運用才剛剛開始,但一定會以等比級數的速度成長。未來各種不同資料庫的建立以及靈活運用的能力,將會決定企業甚至國家的勝敗。例如Walmart超市發現颶風前小甜點總是暢銷,就固定在颶風來之前將小甜點大量進貨放在明顯處。從信用卡資料發現下午四點左右去加油的人,接下來很可能到附近的雜貨店或餐廳消費,就可以進行加油站和附近商店合作促銷的活動。開放政府的資料,更可能被運用在過去無法想像到的領域,例如疾病預防和安全維護等等。

過去許多成功的大數據建立和運用,都是來自於有靈活點子的局外人,例如最成功的網路書店和拍賣網站創始者,過去都毫無書店和拍賣背景。這一場即將改變商業模式的浪潮,人人都有機會,端看我們如何投入。

(作者為雲朗觀光集團總經理)

活動》【東寫西讀電子報】慶改版!百份好禮大方送!
最實用的滿分寫作技巧、閱讀理解練習通通在這!寫作名師獨授寫作祕訣,精選全球時事文章,每周一期讓孩子天天進步,讀來有想法、寫出自信心!訂閱即送百份大獎!

快來看!日本輻射食品你吃下肚了嗎
食藥署2011年起,暫停日本福島等五縣食品進口台灣,清查發現283件產品更改產地標示進口國內,不乏知名食品。
 
本電子報著作權均屬「聯合線上公司」或授權「聯合線上公司」使用之合法權利人所有,
禁止未經授權轉載或節錄。若對電子報內容有任何疑問或要求轉載授權,請【
聯絡我們】。
  免費電子報 | 著作權聲明 | 隱私權聲明 | 聯絡我們
udnfamily : news | video | money | stars | health | reading | mobile | data | NBA TAIWAN | blog | shopping