數據是任何機器學習專案的核心。大量的機器學習資料是訓練演算法以提供高品質輸出的最重要因素。
問題是所有資料集都在某種程度上存在錯誤。這就是為什麼花時間和精力準備數據是一個好主意。資料準備是機器學習過程中的關鍵階段,但這只是機器學習資料集產生所需的眾多步驟之一。
繼續閱讀以了解準備機器學習
資料的最佳實踐,以及在 ML 專案的這個充滿挑戰但回報豐厚的領域中可以採取的第一步。
了解數據在機器學習中的作用
當嘗試使用機器學習應用程式解決現實問題時,第一步通常是資料準備。原始資料通常包含不一致之處,您需要先解決這些不一致問題,然後才能將資料集輸入機器學習演算法。
您是否想知道在處理原始資料
時可能會遇到哪些潛在問題?
以下是您可能會遇到的一些潛在問題:
缺少資料集值– 並不總是能 新西蘭 WhatsApp 號碼數據 夠獲得與目標變數相對應的每行特徵變數的值。由於技術原因,資料收集系統可能無法擷取特定值。此類錯誤隨後會作為缺失值記錄在資料集中。
不同的文件格式-在處理實
際的機器學習資料集時,所有文件的資料格式相同的情況很少見。準備好看到多種格式。
變數值不一致– 資料集中的變數可能包含無用的值。您需要擺脫它們以優化您的資料處理工作。
機器學習資料準備的關鍵步驟
1. 數據收集
資料收集或收集聽起來像是
小菜一碟。但遠非如此。
在大多數組織中,資料被分成許多部門,甚至部門內的追蹤點。行銷人員可能可以存取 CRM,但該系統的工作方式與網路分析解決方案完全隔離。
如果您有多種參與、獲取和保留管道,將所有 資料流 成功部落客的 7 個習慣 整合到集中儲存中將具有挑戰性。為了完成這項任務,多年來出現了各種方法。
ETL 和資料倉儲
許多組織首先將資料儲存在倉庫中。這些通常是為與傳統表格式相容的結構化(或 SQL)記錄而設計的。所有銷售記錄、薪資單和 CRM 資料都可能屬於這一組。
使用倉庫的另一個常見方面是在將資料載入到倉庫之前轉換資料。此方法稱為提取、轉換和負載 (ETL)。在 ETL 階段測試資料是明智之舉。
這種策略的問題在於,你永遠不知道哪 埃克萊拉納賈 些資料對機器學習專案有價值。因此,倉庫通常用於透過商業智慧介面存取數據,以查看我們知道需要追蹤的指標。
ELT 和資料湖資料湖是可以儲存
結構化和非結構化資料的儲存系統,例如影像、視訊、錄音、PDF 文件等。
您可以載入目前狀態的數據,並確定稍後如何根據需要使用和轉換它。此方法稱為提取、載入和轉換 (ELT)。資料湖被認為更適合機器學習。
2. 資料清洗下一步是資料清理
這意味著消除機器學習資料集中的所有潛在問題。
許多資料工程師將缺失值作為優先事項,因為它們會顯著影響預測準確性。在機器學習中,對於演算法來說,假設值或估計值比不存在的值「更正確」。
以下是一些針對 ML 的資料清理的策略:
以虛擬值取代缺失值,例如「n/a」表示類別類別,「0」表示數值
用平均值替換缺失的數值
使用最常出現的項目來填入類別值
如果您使用機器學習即服務平台,您可以自動化資料清理流程。例如,Azure 機器學習可讓您在可用的方法中進行選擇,而Amazon ML會自動執行此操作。