Skip to main content
Skip table of contents

理數據

概述

信息如水,數據庫如池,在日常工作中流動,通過各種手段抽象為數據,通過各種管道流入系統;

當今社會中的人,與其說是碳基生物,不如說是一團行走的二進制;房間不打掃會髒,企業系統不理數據會亂,不施加外部壓力的前提下,熵會無限增大,最終歸於無序。

作為個人,企業,如何收集,整理,利用好數據,成為能否在當今時代生存的重要技能。好的數據後臺統計如圖書館,壞的數據後臺如廢品回收站。

準確,優質的數據以及分析結果可以為企業戰車指明方向,前進提供源源不斷的動力;反之,如數據工作沒做好,就如情報持續出錯的軍隊,即使戰鬥力再強,也難免被消耗殆盡。

有大量說大數據的科普文章,此文不做贅述,但想要強調的一點。正確結論的推倒,是多方要素集合的結果,合理的邏輯,海量的數據,高效的清洗,準確的分析解讀。其中,合理的邏輯是前置條件,現在很多譁眾取寵的文章會強調數據的海量,技術的先進,但這些若是脫離實際的分析,那產出的結果也必然是廢銅爛鐵。

如何有效從一個企業或一個項目中提煉有效數據呢?常規的數據提煉,ETL,抽取,清洗,展示,本文簡單闡述 E,T 兩個環節,如果能有魔法,我也希望有阿拉丁神燈或哆啦a夢口袋一樣的寶貝,一下子就把數據整理乾淨,並且輸出實用且漂亮的報表,理想豐滿,現實骨感,整理數據涉及大量前期人的交流,辛苦開發,校對,沒有輕鬆捷徑可走。

抽取方法

優先級

絕大多數企業對外的口號都是 IT 部門助力業務,科技賦能,提效降本。往下拆分執行怎麼做,取決於目的如何,要看,是真的提效降本還是面向領導彙報的面子工程。大家要的東西不同,做事情的原則也是不同的。

面向實際:每存儲一種數據對象都需要花費相應的人力物力,儘量找到和錢最接近的對象,而不是事無鉅細統統進系統,才能獲得正向的投入產出比,比如項目中的人力,物資成本,回款率;銷量中的客戶轉化率,產品成本,利潤;財務中的合同,科目,IT部門的服務器,網絡設備。設計合理的提取字段,方法,清洗,同步規則。

面向領導:把簡單的要素包裝新的概念,比如數據集成說成中臺,簡化流程說成名敏捷團隊建設,要的就是名詞趕時髦不明覺厲,PPT 漂亮華麗,數據儀表盤能3D絕不平面,UI多加錢,後端少花錢。

結構設計

數據結構,是理數據成敗的最重要頂層設計,宏觀規劃>微觀優化,簡單用EXCEL,複雜點用 UML 圖。抽象的方法多種多樣,我非軟件工程專業畢業,對此無法進行科班出身的系統性論述。但根據經驗來說,數據的設計模式基本就兩個模式,標準或定製,根據企業實際運營訴求找到平衡點,從企業盈利最大,效率最高角度考慮,是標準+輕度定製更符合中國企業訴求。成功的案例大同小異,失敗的案例千奇百怪。好的數據結構應該更多參考前人已有歷史經驗,而不是全部自己拿來生造一套,在原有60分基礎上蓋房子才是穩健的整理之道。

企業類型

偏好

訴求

外資

標準

合規性>效率>權力尋租

民營

標準+定製

效率>合規>權力尋租

國資

定製

權力尋租>效率與合規

比如公司的標準項目字段,可以從 CMMI,PMP相關文件中獲取,個性化的字段則可以從與項目經理或PMO負責人訪談中提煉。

  • 基礎數據:名稱,類型,描述,負責人

  • 進度:是否里程碑,計劃開始日期,計劃結束日期,實際開始日期,實際結束日期,前後依賴

  • 範圍:標題,描述,附件

  • 風險:等級,應對措施,負責人

  • 收支:類型,金額,備註

  • 團隊成員:姓名,角色

定量的阿拉伯數字是可以被統計,比如時長,金錢,在可視化展示,邏輯判斷方面有得天獨厚的優勢。然而並非所有的數據都可以被用數據定義;設計數據結構的目的是更好反應現實中的情況,有時候定性的屬性會更加準確,比如人的感受類型是屬性,但程度是數值。數據對象之間有一對一,一對多,多對一,多對多 四種對應,數據對象之間的關係類型也有很多種,前後依賴,從複製,由引起,阻塞等等;

數據流

使用時序圖,描述不同數據對象,在系統間的流動的流程。

理想狀態的整理,是共性數據,一處更新,處處引用。數據流的自動化程度和投入成本成正比,不是想到的都能做,需根據已有預算,對實際工作中的數據重要性進行排序,比如節省多少手工維護時間,如維護錯誤造成多少溝通浪費或金錢損失多維度考慮。

清洗

獲取到的數據如生肉,在做成報表之前還需要對數據字段格式清洗,字段之間勾稽關係,不同表之間的關係,手工操作有 excel,自動化操作有各種 BI 工具以及專業清洗中間件,可以錄入相應規則,對海量數據做清洗。

雖然 Excel 工時可以實現所有的編程邏輯,但由於性能瓶頸明顯,且容易出現格式檢查錯過,建議企業使用系統進行清洗,如數據量達到一定級別,還需要購買商業級BI產品,以及數據庫優化服務,以保證數據清洗的準確性和可持續性。

JavaScript errors detected

Please note, these errors can depend on your browser setup.

If this problem persists, please contact our support.