2023 年最佳成果:利用 LakeFS 推進資料版本控制最佳實踐

隨著 2023 年接近尾聲,讓我們花點時間回顧這一年的發展。特別引人注目的一件事是,資料版本控制不再是一種新興工具——它現在已經成為一個獨立的類別。這是一個重要的里程碑,反映了資料版本控制的發展方向,作為該類別的領先者,我們與社區共同努力提供更多功能和集成,幫助 LakeFS 用戶取得成功。

考慮到這一點,讓我們回顧一下 年一些

最難忘的時刻,包括開源更新、值得注意的整合和合作夥伴關係,以及雲端/企業功能。最後,我將為您提供一些額外的閱讀材料,匯總 2023 年我們社區中最受歡迎的內容。

開源更新
我們擁有一個活躍的社區,不斷為 LakeFS 的發展做出貢獻,2023 年也不例外:您的回饋是我們的北極星。我們推出了功能、整合和合作夥伴關係,以確保盡可能無縫和高效的體驗…

由於我們正在總結 2023 年,我認為公平地詢問我們的社區:

您認為最顯著的特徵是什麼?
您在哪些專案中工作最有趣?
正如所料,一長串的最愛名單被分享。至於為什麼,答案甚至更長。然而,出現了一個共同的主題。讓我們深入探討五

個最能反映 2023 年 LakeFS 演變的重大變化:

Lakectl本地
高級Python SDK 2.0
S3 Express 一區集成
預簽 阿曼 WhatsApp 號碼數據 名 URL 支持
冰山支持
獎勵:lakeFS

Lakectl本地

Lakectl本地我將說明顯而易見的事情:

隨著產品的發展,您將遇到可以(並且應該)進一步優化的功能。團隊發現了這樣一個特性:雖然lakeFS處理的資料規模非常大,但有時需要進行本地檢查。

這就是為什麼今年,為了更好地支援 ML 用例,我們決定投資 Lakectl 並引入本地簽出,使您能夠在本地工作和同步 LakeFS 儲存庫的物件。

WhatsApp數據

使用本機簽出,您可以將LakeFS 中儲存

的資料「複製」到任何計算機,追蹤您在Git 中使用的版本,並建立可重現的本機工作流程,該工作流程不僅可擴展,而且更易於使用。

請注意,這可以從開始使用。Oz Katz甚至  編寫 公司通常依賴基於老化調查的測量系統 了一個完整的lakectl 本地教程,介紹如何實現這一點,包括深入的程式碼範例。

這是產品演變如何需要改進的

另一個例子。在lakeFS,我們必須使用功能齊全的Python SDK。但直到最近,我們自動產生的程式碼並不總是遵循最 Pythonic 的方式。

2023 年,我們決定改變現狀並 埃克萊拉納賈 發布了高階 Python SDK。我們還在生成的程式碼之上建立了一個更好的抽象層。

全新改良的Python SDK讓Python程式設

計師更容易使用。它更Pythonic,面向對象,並且由人類記錄。這為最常見的用戶需求提供了最佳的客戶端行為,並使您能夠使用fs-spec 並跳過所有這些:「Pandas 可以正常工作」(我們與AppliedAI 的合作中對此有更多介紹) 。請參考Oz Katz 和Nir Ozeri編寫的這些實踐範例,以了解現在可用的所有生活品質改善。對資料進行版本控制時,您使用的工具必須提供速度、效能和成本。今年 AWS re:Invent 的開幕主題演講宣布推出 S3 Express One Zone。作為 AWS 技術合作夥伴,我們很高興能夠作為設計合作夥伴與 S3 團隊合作,推出這項令人興奮的功能!

S3 Express One Zone 可以將資料存取速度

提高 10 倍,將請求成本降低 50%,並讓您可以選擇將儲存和運算資源放在同一位置以實​​現更低的延遲。

讓我們深入了解 LakeFS 用戶透過使用S3 Express One Zero可以獲得的兩個主要好處:

基於 S3 Express One Zone 建置的 LakeFS 儲存庫中的資料版本化可以利用極低的延遲和10 倍以上的效能,且無需任何開銷。這要歸功於 LakeFS 對預簽名 URL的支持,允許用戶直接存取儲存層,而無需在計算叢集和物件儲存之間進行額外的網路跳躍。

返回頂端