7/25/2015

(閱讀) 宅男真的是高風險族群嗎? <統計學, 最強的商業武器:201507#05)> 在數據時代應有的驗證素養


照片取自TechOrange

"I keep saying the sexy job in the next ten years will be statisticians."
[在未來的十年內最具吸引力的職業, 將會是統計學家.] 
Hal Varian (the chief economist at Google)

 
        任何領域的爭議, 都能透過數據的收集與分析來找出最佳答案. 而[經驗] 往往都是錯的.

        流行病學是在最近的一百年中建立起來的, 其中最重要的概念在於EBM(Evidence-Based Medicine)-- 以合理的方法取得統計數據,以及分析該數據後得到的結果. 19世紀的統計貢獻在於匯整, John Snow在霍亂流行的期間做了調查動作, 並將結果推導出霍亂可能的路徑 (西元1849).

        早期的醫學也有迷信經驗的歷史, 像是喬治. 華盛頓死於放血治療(西元1799), 而近代流行病學發展才讓我們免於以往經驗累積下的荼毒.

統計分析必須要能夠回答以下三個問題才有意義(無法從數據判斷下, 常識與直覺才有效):
  1. 哪個因素的變化能提高收益?
  2. 採用可引發這種變化的行動可行性?
  3. 若可引發該變化的行動是可行, 其成本會高於所增加的收益嗎?
 
    誤差與因果關係是統計學的重點, 標準差 讓現象在已知的誤差範圍中反應現況. 而最小的有效抽樣遠比於增加抽樣樣本來的有效.正確的判斷需要的是各種不同的分析方法,交互修正後,得到初步分析的概況, 而非最小誤差的抽樣與檢驗最終分析結果的Validity.

        分析本身並無任何價值, 價值是從分析結果所採取的行動到底可以帶來多少價值而決定. 即便現今社會, 世界到處都是沒有考慮因果關係的統計分析, 像是我們為什麼需要大數據? 因為我們會要產生更多的資料(透過FB或是Instgram等等....)為什麼需要更好的效能?因為我們要處理更快更多的數據(Seth's Blog) 或許也是為甚麼IBM即便在2009收購了SPSS, Cognos後, 近幾年也是持續虧損的主因.分析本身並無任何價值....

        統計在不考慮誤差的情況下試算都不切實際. 可以透過A/B測試後, 接著透過卡方檢定(Chi-Square Test)確定其誤差而產生的資料差距.(<5%越小越好)

因果問題  

       在比較與包含p的分析後, 可以找出有意義的數據偏差, 但即便如此有時也可得到相反的解釋, 像是打電動與青少年的犯罪有無實質關係?或是宅男是安全破網? 建立在不公平的比較下(母體條件不一致:家庭背景與生活環境, 家長管教影響, 還有青少年心理狀況各不相同), 取得的資料中來驗證假設有無意義. 所以即便社會上有發生問題, 也無法在排除這些因子下做出公平的評斷. 可以客觀的解決方法:

  1. 所有想得到的[相關條件]進行持續的追蹤調查(2,4,6,8..年), 並運用統計學的方法, 盡可能讓所有已測條件一致下作公平的比較. 
  2. 另一種方法是在取得資料點就達成[條件公平且一致], 像是找同卵雙胞胎, 在維持基因一致下進行實驗, 但也無法完全排除所有因子都一致.

隨機對照實驗 (wiki)

       費雪(Sir Ronald A. Fisher)在著作<The Design of Experiments,1925>首度將隨機對照實驗系統化提出.(沒錯...... 就是世界上第一步的DOE) . 當時要驗證的問題是在1920年的午後下午茶中一位女士表示, 先倒入紅茶的奶茶/先倒入奶茶的紅茶 味道完全不同. 而當在場的男士都一笑置之時, Fisher則提議要不驗證一下這個假設呢?...後來就成為是上首次的隨機對照實驗(紅茶的故事). 該書並未寫出最終結論, 但當時也在場的H. Fairfield Smith, 康乃爾大學統計學家表示, 那位女士當真答對了每一杯端出來的奶茶的製備順序.
P.S.近期Facebook也有類似對使用者的模擬情緒試驗(從Facebook情緒時驗到A/B測試).

2003 英國皇家化學學會提出<如何泡出一杯完美的紅茶>: 先倒牛奶再倒茶.
2015 如何泡一杯完美的紅茶續

科學方法學  < Science and Method(1908)> ~Jules Henri Poincare(昂利.龐加萊) 

     提到了科學是要透過[觀察]與[實驗], 來找出事實的真相的行為. (觀察就能得到真相的著名實驗: ex.萬有引力. 進化論)

「對於一個膚淺的觀察者來說,科學真理是不存在任何懷疑的可能的;科學的邏輯是不會錯的,即使有時候科學家犯錯,那也只是因為他們錯誤運用了科學的法則。」~昂利.龐加

      科學本身是存在誤差的假設, 要以科學的方法處理無法百分之百確認沒有例外的情境時, 有以下三種路徑:

  1. 完全不用時記資料, 完全只依據假設或案例來建構模型(ex.傳統的社會學與古典經濟學)
  2. 為了呈現完全無例外存在, 只好將符合無例外的案例當作結果與結論(ex. Gregor Mendel的碗豆基因)
  3. 利用[隨機化]來呈現因果關係機率(ex.費雪提出的隨機化實驗, 呈現因果關係)
     所謂的科學並不是一定要擁有實驗室與精密的設備來處理無法理解的未知, 而是[大膽假設, 小心求證]的態度
 
     現實中隨機有存在三個限制   -- 現實, 情感, 道德 這讓我們即便已經知道EXCEL中有rand()但仍是沒辦法在現實中做出完全的隨機實驗.

分析回歸分析

         身材瘦小的男性只能找個子嬌小的女性嗎? 針對達爾文的<物種起源>中, 提到了幾點關於物種進化的特徵:
  1. 即使是相同的物種, 每個生物個體仍會有細微差異
  2. 個體的特徵是由父母遺傳給子女
  3. 有些特徵有利於生存及繁殖
  4. 具備有利於生存與繁殖的個體, 會一代一代地增加(不利的則會被淘汰)
  5. 有利生存與繁殖的特徵因地而異
         BUT...這對於人類是否也符合?現今仍可見醜男與美女的組合比比皆是(新聞). 而當年達爾文的親戚法蘭西斯.高爾頓(Francis Galton)也對其表兄弟的進化論影響, 於1883年寫了<人類的智慧與其發展>(Inquiries into Human Faculty and Its Development). 提出了優生學的概念. (這也是後來納粹的種族滅絕的論調.

      當時高爾頓追隨者中發現這部分的論調有部分問題, Karl Pearson透過父母的平均身高與子女的身高作圖(取自中山大學醫學統計學教材) 從一方的資料透握方程式預測另一方的資料就成為了最早的回歸分析的概念.
     讓人意識到具有變動性的現象或值, 要從理論去預測並沒有想像中準確.

       爾後費雪再提出持續獲取資料,  就能找出真值的概念, 並提出利用數學方式整理.(誤差)...



延伸思考閱讀 <投機者的撲克>-扁蟲魚
 
       投資,投的是價值;投機,搏的是機會
       不用高估投資,也不要低估一顆投機的心

圖自博客來


延伸閱讀:

沒有留言:

張貼留言

謝謝您的留言, 我會在收到通知後盡快回覆您的.
Thanks for your comment. l may reply once I got notification.