在我們的組織基礎設施中採用新技術時,最重要的考慮因素之一是其初始成本。換句話說:我們需要投入多少工作時間才能開始在我們的系統中使用這項技術?
通常,這個問題會讓天平傾
向於使用某種解決方案而不是另一個解決方案。考慮這一點是有道理的,特別是當涉及到處於證明其能力的關鍵階段的新組織和新創公司時。即使在想要 俄羅斯 WhatsApp 號碼數據 快速行動並避免在測試新技術上浪費寶貴的開發人員工作的大型且穩定的組織中,這也可能是一個重要的問題。
考慮到導入的重要成本lakeFS在導入
能力上投入了大量精力,以減少過渡到 的摩擦。本文將探討將資料匯入 時需要考慮和應用的一些常見場景。
為什麼要導入資料?
將資料匯入 提供了一種匯入大量資料的有效方法,而無需物理複製資料。當您匯入資料時,lakeFS 會在新儲存庫中建立指向現有物件的指標。或者,您可以透過複製的方式將資料引入lakeFS 。
根據經驗,如果您從中提取的來
源位置的資料預計保持不變,則匯入它是一種明智的方法。另一方面,如果您無法保證文件保持靜態,我們建議您考慮複製文件而 開發搜尋引擎優化按 不是匯入它們。
導入資料的常見用例包括:
將整個儲存桶匯入 LakeFS:複製數
百萬個物件將非常緩慢且成本高昂。使用匯入功能開始管理 LakeFS 中的整個資料湖。
整合多個位置的資料:當您希望使 埃克萊拉納賈 用分佈在單一 儲存庫中不同位置的資料集的邏輯分組時。這對於使用多個資料集訓練
模型的資料科學家來說很常見
持續導入:當您想要將資料從著陸區持續引入lakeFS以維護版本控制。
先決條件
允許 源)群組或群組中的使用者進行匯入。
LakeFS 伺服器必須有權列出來源儲存桶中的物件。
來源儲存桶必須與您的儲存庫位於同一區域。
讓我們更深入地研究這些用例,並分享如何以最佳方式匯入 的逐步指南。
使用案例 1:將整個儲存桶匯入 LakeFS
假設我有一個包含所有生產資料的儲存桶,並且我想開始使用 對其進行管理。它將幫助我在生產數據中保持一定的順序——我將能夠提交更改、觸發管道,並能夠恢復不需要的更改。
要在 LakeFS UI 中實現這一點:
在儲存庫的主頁中,按一下「匯入」按鈕以開啟匯入對話框
在Import from下,填寫您要從中匯入的儲存桶的。