您可以使用各種技術從外部來源取得資料文件,從 或 Salesforce 等系統。將這些資料放入資料湖時,您可能會遇到識別新檔案和編排流程的問題。這就是 Autoloader 提供協助的地方。
也拼寫為 Auto Loader)偵測新檔
案並將已處理檔案的資料儲存在 資料庫的檢查點位置。它有助於控制遲到的數據並優化計算資源的使用。此外,由於它採用結構化流,因此它為創建近乎即時的流程來填充資料庫打開了大門。
於 年初推出,已成為許多團隊攝取流程的關鍵部分。它提供了一種高效的方法來逐步處理新數據,同時確保每個文件只處理一次。
繼續閱讀以了解您需要了解的有關 的所有資訊。
什麼是 自動載入器?
什麼是 自動載入器
來源:博客
Databricks Auto Loader 在新資料檔案到達您的雲端儲存時逐漸有效地處理它們並逐步處理它們。它可以處理數十億個檔案以移動或回填資料庫,並且每小時可以近乎即時地接收數百萬個檔案。
它支援以下雲端儲存解決方案:
CloudFiles 是 Auto Loader 提供的結構化串流媒體來源。給定雲端檔案儲存上的輸入目錄路徑,CloudFiles 來源會在新檔案到達時自動處理它們 – 也可以選擇另外處理目錄中的舊檔案。
在中,自動載入器支援 Python 和 SQL。當您使用 Apache Spark Structured Streaming 來使用雲端物件儲存中的資料時,Databricks 建議使用 Auto Loader。
Autoloder 的另一個重要功能是它
將狀態資料儲存在 鍵值儲存中的檢 菲律賓 WhatsApp 號碼數據 查點位置。由於狀態保留在此檢查點,因此即使失敗,它也可以從中斷處恢復,從而確保一次性語義。
的關鍵功能
自動載入器監控攝取過程,僅處理一次數據
自動載入器識別檔案並確保其元資料保存在其管道檢查點位置的可擴展鍵值儲存 中。此鍵值儲存保證資料僅處理一次。
如果發生故障,Autoloader 可以從最後一個檢查點位置恢復,並在將資料寫入 Delta Lake 時繼續提供一次性保證。為了實現容錯或一次性語義,您不需要自己保留或管理任何狀態。
用於增量攝取
對於增量資料攝取建議在
使用 結構化流的功能,讓您只需幾行聲明性 Python 或 SQL 即可建立生產品質的資料管道。
用於自動處 客以及哪些數位行銷策略 理監 控的事件日誌和指標
您無需提供架構或檢查點位置,因為 Delta Live Tables 會自動處理管道的這些參數。
的其他主要功能包括:
自動擴展運算基礎設施以節省資源,
根據預期檢查數據質量,
自動處理 埃克萊拉納賈 模式演進。
常見 自動載入器模式
常見 自動載入器模式
Delta Lake 中的資料攝取。來源
Auto Loader 會自動執行各種典型的資料輸入操作。以下是一些常見模式的範例:
使用 glob 模式來過濾資料夾或文件
當給定路徑時,glob 模式可用於過濾目錄和檔案。
啟用簡單 ETL
使用以下模式並透過 Auto Loader 啟動架構推理是一種將資料匯入 Delta Lake 且不會遺失任何資料的簡單方法。 建議在 Azure Databricks 作業中執行下列程式碼,以便在來源資料架構發生變更時自動復原流程。
預設情況下,模式被假定為字串類型,任何解析問題(如果所有內容都保留為字串,則其數量應為零)以及任何其他列都會使流失敗並演化模式。
避免結構良好的資料集中的資料遺失
Databricks 建議當您了解自己的架構但希望隨時了解異常資料時使用救援資料列。