【田思怡譯】
大衛.索洛夫正在招募一支「超數據(hyperdata)」的蒐集大軍。
他參與創辦的Premise公司設計了一款智慧型手機的應用軟體,目前在25個開發中國家供700人使用。這批人主要是大學生和家庭主婦,在市場上拍攝食物和日用品的照片。
藉由分析這些產品,像是番茄和洗髮精的價格和陳列地點的照片,再與其他資料比對,Premise正建立一種即時的通貨膨脹指數,賣給對這些深入資料需求若渴的公司和交易員。
Premise執行長索洛夫說:「我希望在五年內能有三、四千人來做這件事。它可有效監測全球通貨膨脹,檢視糧食供給安全的狀況,或是讓製造商判斷他可占到什麼樣的貨架空間。」
從各種奇特的地方蒐集資料,並快速分析,已成為科技產業最炙手可熱的領域之一。構想本身很簡單:藉由強大的處理能力和少許的創造力,研究人員應能在不同種類資訊之間找出新的模式和關聯性。
過去幾年業界稱這類分析為「巨量(或海量)資料(或數據)」。現在「巨量資料」正在演進,成為更加「超大量」,包含各種資料來源。像Premise 和ClearStory Data這樣的新創公司,以及奇異這樣的大公司,也加入行動。
標準的統計數字也許能預測下個夏天冰淇淋的銷量。更新的「巨量資料」系統從業人員的目標,則為蒐集看似不相關的資料,如今天的氣溫和雲層,以及地主球隊周末的勝利,與過去的天氣和運動比賽結果比較,計算出媽媽們今天會買多少薄荷巧克力脆片冰淇淋。初步跡象顯示此計可行。Premise宣稱藉由檢視印度幾個市場的洋蔥價格,比印度政府早數月得知廣泛的全國通膨率。
為Premise拍照的攝影師,每張最高可獲10美分酬勞。Premise也透過手機照片蒐集到時間和地點的資料,以及市場是否擁擠之類的註記。
Premise把從照片得到的價格資料與三萬個網站上的價格資料綜合起來,再建立全國的通膨指數,以及上海、里約熱內盧等等地方的市場價格地圖。
Premise的訂戶包括華爾街的避險基金和寶鹼公司。月費從1500美元到1萬5000美元以上,不過也有一種版本提供學校和非營利組織免費資料。
可取得的公共資料量愈來愈大,對新的「巨量資料」連結也有益。根據麥肯錫全球研究所的研究,現在有40個國家政府提供人口和土地使用之類資料。
政府的資料可與智慧型手機、噴射引擎,甚至自行車站上的感應器比對,這些感應器將資料上傳到雲端運算系統的超級電腦。
直到幾年前,資料的取得一直很昂貴,也難以下載到電腦裡。隨著感應器價格下滑,以及Wi-Fi之類科技使得連結變為可能,情況已經改觀變。
在電腦的硬體世界裡,記憶體內的運算──讓大量資料不需另存他處即可予以處理的先進技術──已使電腦運算速度加快,得以即時處理大量資料。
例如,奇異公司在單一一個噴射引擎上就有200多個感應器,與埃森哲諮詢公司合作做起一門生意,在噴射機降落的那一刻分析飛機的性能。
傳統的資料分析建立在檢視可下載到試算表的資訊,如薪資單。而在網路高度發達後,Google、臉書和雅虎之類公司面臨空前大量的「非結構化」資料,像是人們如何在網路上巡弋,或是他們的評論。新的硬體和軟體能縮減分析這種資料所需的時間。
總公司設在加州帕羅奧圖的新創公司ClearStory Data已推出一種產品,可從不同的來源檢視即時的資料。例如,電影票銷售的資料,也許能與有關天氣和推特訊息的資訊混合,視顧客的需求,用長條圖或地圖來呈現。
ClearStory的共同創辦人兼執行長夏米拉.夏哈尼─穆里根說,訣竅在於發展一種能快速準確找到資料來源的方法,並想出如何以有用的方式呈現資料。
她說:「這麼一來,咖啡店就能知道客人要喝紅牛還是熱巧克力。」
【2013-12-03/聯合報/G9版/UNITEDDAILYNEWS】