4/13/2016

(閱讀) 大數據 Big DATA -上篇 "子非魚,安知魚之樂?" Google: "I am matrix."

How does Google Search Work?
What you are you do not seewhat you see is your shadow. ~泰戈爾, 飄鳥集

莊子曰:「鯈魚出游從容,是魚之樂也。」 惠子曰︰「子非魚,安知魚之樂?」 莊子曰:「子非我,安知我不知魚之樂?」~ <濠梁之辯>

當我們可以預測機票的波動, 就不用提早或苦候機票特價的時候搶機票了. 當從前統計中最理想最難辦到的隨機抽樣模型不再耗時費工,所有的誤差都已消失,「樣本數=母體」的時代到來。隨機抽樣=雜亂但完整,如果我們要識別某種病兆,我們抽樣的對象就不再只有病患,而可能還需要透過昆蟲的特徵,移動中的人物,或是風馬牛不相及的"隨機"來接近母體真實的面貌。現今的Google 透過所有現今的資料,官方文件,圖書掃描計劃等句子,與總數有數十億個網頁的資料來源,打拼成現今我們所使用的Google翻譯。

"如果資料太多,那麼夠好就夠了"(If You Have Too Much Data, then 'Good Enough' is Good Enough' )~Pat Helland, Microsoft

大數據工具:

  1. Google Trends與 2009發表在Nature期刊

在大數據分析的時代[資料夠多夠隨機(雜亂)],對於一切事物,我們不一定需要找出原因,而是找出相關性來行動。 美國的零售商Target早已如何透過顧客的購買行為預測何時懷孕故事(REF. <為什麼我們這樣生活,那樣工作?> ; UPS如何透過預測方式準備貨車零件備料; 早產兒生命跡象穩定,反而是導致嚴重併發症的前兆~Dr. McGregor。這類的預測無法提供原因,但是可以給予正確的時間點該做什麼的建議。

<The End of Theory: The Data Deluge Makes the Scientific Method Obsolete>~Chris Anderson
資訊讓科學方法的終結  (備受爭議的一篇數據戰勝上帝與科學的文章),儘管如此科技人或是資訊應用人員仍可以思索什麼樣的轉變可以讓這些趨勢或現象的背後的關聯性顯露,而更高速的晶片、更有效率的軟體真的對於我們理解背後的意義有顯著的幫助嘛?還是亂槍打鳥的隨機抽樣更能讓事實呈現。
這些人...怎麼感覺跟大數據.....
我們或許仍無可避免的要對於未知的恐懼,不過在這個時代裡我們可以更容易找到更清楚的驗證方式(回測、Farecast、洋蔥實驗、A/B test等)來面對。同時所有留下的都將成為這個數據的一部份而讓人更清楚的回顧與發現思考的脈絡與最可行的解決方法。不知道為什麼,但是你總能找到答案的時代,你活在母體(matrix)的時代,不過是統計的母體XD....
 A revolution that will transform How We Live, Work, and Think 。取自天下文化

沒有留言:

張貼留言

謝謝您的留言, 我會在收到通知後盡快回覆您的.
Thanks for your comment. l may reply once I got notification.