說過的、寫過的會留下痕跡沒有人質疑,但想過的會留下痕跡嗎?大部分人回答NO。
美國有個大數據新秀史提芬斯.大衛道維茲,他雖然沒有發明可以偵探「想過」的科學儀器,但他卻查得出那些事「想的和說的」不一樣。德國語言學家魏斯格貝爾認為語言塑造世界觀,相同觀點的人說同樣的話。大衛道維茲使用大數據的方法對魏氏理論進行實證,他利用Google的「趨勢」工具追蹤歧視語言,發現Google的大數據其實是窺探內心活動的無形窗口。
美國種族衝突激烈,但社會學家窮盡問卷調查、深度訪談的各種工具,也無法了解白人種族主義的比例和分布,尤其是歐巴馬當選總統之後,因為面對訪談和問卷大家都在說假話。幾年前大衛道維茲寫博士論文利用Google的「趨勢探索」搜尋歧視語言「nigger(黑鬼)」,結果得到一張地圖,這張地圖和後來川普的選票地圖完全重疊。原來很多人對調查說假話,只有面對具有隱私性的網上搜尋吐露真言。
筆者如法炮製頗有收穫。挖掘藍綠陣營互相叫罵的髒話庫後,筆者發現常用的髒話計有:死阿陸、426、外省豬、支那、支那賤畜、皇民等等。叫人大吃一驚的是「支那」的網路聲量竟高過「見鬼」,而與「他X的」同等。歧視語「支那」與「黑鬼」同出一轍,在美國罵「黑鬼」的可視為白人種族主義者,在台灣罵「支那」的可歸納為政治光譜綠色的一群。
筆者將「支那」填在Google Trends的關鍵詞比較欄目中,得到一張「支那」的搜尋熱度曲線。重要發現如下:
一、最近五年來「支那」的搜尋熱度平均為廿四%,「他X的」廿五%,「見鬼」十五%,有多少人在罵「他X的」,大概就有多少人也在罵「支那」,全台灣估計在幾萬到幾十萬之間,這就是大數據。
二、在地理分布上叫人意外的是北部的搜尋熱度高於南部,最近搜尋熱度最高的是桃園,其次為新北、台北、高雄、台中和台南。桃園居首與二二八潑漆事件有關,根據媒體報導,肇事者不僅潑漆又大罵「支那」。
三,網民在搜尋「支那」的同時,最相關的另一條搜尋是什麼,叫人出冷汗,它是更為惡毒的「支那賤畜」,可見「支那」的政治跨度有多大。
如果以時間做軸線,筆者發現「支那」搜尋熱度曲線(與網路聲量相似)逐年下降:二○一三年五月至一四年五月平均為廿七%,二○一七年五月至今平均數已下降到廿一%。就短期而言「支那」的搜尋峰值大幅下降,這可能意味著網上搜尋者由分散到收斂及搜尋的隊伍回歸到基本盤。
我們可以大膽的預測隨著執政黨的各種錯誤,綠色光譜的消退還會持久且加劇!
過去缺少判斷方法,來分析基本盤有沒有移動和怎樣移動。Google搜尋使得「人在做天在看」的信條變成可以透明的數位檔案,想過的、說過的必留下痕跡。相信在現有分析基礎上可以得到更多的關鍵詞地圖,為各類研究、尤其是選舉提供有價值的參考資料,這是大數據帶來的社會學新勝利。