預測分析須從優良的數據收集開始。 數據多並不一定意味著數據好。 成功的預測分析項目首先需要相關且準確的數據開始。

圖片1.png

 

什麼是垃圾進,垃圾出 (Garbage In, Garbage Out, GIGO) ?

是電腦科學與資訊通訊技術領域的一句習語,說明了如果將錯誤的、無意義的資料輸入電腦系統,電腦自然也一定會輸出錯誤、無意義的結果。同樣的原則在電腦外的其他領域也有體現。

 

保持模型的簡單並不是愚笨的做法

如果您正在嘗試解決複雜的業務決策,您可能需要開發同樣複雜的模型。 但請記住,過於復雜的模型可能會降低您所追求的預測結果質量,使其更加模糊。 模型保持得越簡單,越能控制模型輸出質量。

限制模型的複雜性取決於在開始構建之前知道要選擇哪些變量 (變量取決於相關的領域專家)。 您的業務專家是您了解哪些變量可能會直接影響您嘗試解決的業務問題的最佳來源。 此外,您可以根據經驗確定要包含或排除的變量。

 

數據準備在於輸入好的數據

為了確保高質量數據作為您正在構建的模型成功的一個因素,數據準備和清理可以提供巨大的幫助。 在檢查數據時,請特別注意

  • 自動收集的數據(例如,來自Web表單)
  • 未經過徹底篩查的數據
  • 通過受控過程收集的數據
  • 可能具有超出範圍值,數據輸入錯誤和/或不正確值的數據

 

導致"垃圾進,垃圾出"情況的常見錯誤包含以下幾種

  • 收集超出必要的數據
  • 構建比必要更複雜的模型
  • 在分析中選擇錯誤的預測變量或特徵
  • 使用缺乏足夠質量和相關性的數據

 

總結

資料收集是資料處理的前步驟,如果資料準備的細節做好,可以讓資料處理更加的精準且有效率,因此處理資料前就要做好規劃,避免"垃圾進,垃圾出"的情況發生。

 

 

 

arrow
arrow
    創作者介紹

    橘子亂說話 發表在 痞客邦 留言(0) 人氣()