美國(guó)留學(xué)選擇什么專(zhuān)業(yè)好?留學(xué)美國(guó)熱門(mén)專(zhuān)業(yè)推薦
2019-06-26
更新時(shí)間:2024-03-15 17:50作者:小樂(lè)
DVC 跟蹤ML 模型和數(shù)據(jù)集
DVC 旨在使ML 模型可共享和可復(fù)制。它旨在處理大型文件、數(shù)據(jù)集、機(jī)器學(xué)習(xí)模型、指標(biāo)和代碼。
ML 項(xiàng)目版本控制版本控制機(jī)器學(xué)習(xí)模型、數(shù)據(jù)集和中間文件。 DVC 通過(guò)代碼將它們連接起來(lái),并使用Amazon S3、Microsoft Azure Blob Storage、Google Drive、Google Cloud Storage、Aliyun OSS、SSH/SFTP、HDFS、HTTP、網(wǎng)絡(luò)附加存儲(chǔ)或光盤(pán)來(lái)存儲(chǔ)文件內(nèi)容。完整的代碼和數(shù)據(jù)來(lái)源有助于跟蹤每個(gè)機(jī)器學(xué)習(xí)模型的完整演變。這確保了可重復(fù)性,并且可以輕松地在實(shí)驗(yàn)之間來(lái)回切換。
ML 實(shí)驗(yàn)管理利用Git 分支的全部功能來(lái)嘗試不同的想法,而不是在代碼中使用馬虎的文件后綴和注釋。使用自動(dòng)度量跟蹤來(lái)導(dǎo)航,而不是使用紙和筆。 DVC 旨在保持分支像Git 一樣簡(jiǎn)單和快速- 無(wú)論數(shù)據(jù)文件大小如何。除了一流的公民指標(biāo)和機(jī)器學(xué)習(xí)管道之外,這意味著項(xiàng)目具有更清晰的結(jié)構(gòu)。比較想法并選擇最好的一個(gè)很容易。中間工件緩存可以加速迭代。
部署和協(xié)作使用推/拉命令將一致的機(jī)器學(xué)習(xí)模型、數(shù)據(jù)和代碼包移動(dòng)到生產(chǎn)、遠(yuǎn)程計(jì)算機(jī)或同事的計(jì)算機(jī),而不是臨時(shí)腳本。 DVC 引入了輕量級(jí)管道作為Git 中的一級(jí)公民機(jī)制。它們與語(yǔ)言無(wú)關(guān),并將多個(gè)步驟連接到DAG 中。這些管道用于消除將代碼投入生產(chǎn)過(guò)程中的摩擦。
特點(diǎn):Git Compatible DVC 運(yùn)行在任何Git 存儲(chǔ)庫(kù)之上,并且與任何標(biāo)準(zhǔn)Git 服務(wù)器或提供商(GitHub、GitLab 等)兼容。數(shù)據(jù)文件內(nèi)容可以通過(guò)網(wǎng)絡(luò)可訪問(wèn)的存儲(chǔ)或任何支持的云解決方案共享。 DVC 提供了分布式版本控制系統(tǒng)的所有優(yōu)點(diǎn)——無(wú)鎖、本地分支和版本控制。
與存儲(chǔ)無(wú)關(guān)使用Amazon S3、Microsoft Azure Blob Storage、Google Drive、Google Cloud Storage、Aliyun OSS、SSH/SFTP、HDFS、HTTP、網(wǎng)絡(luò)附加存儲(chǔ)或光盤(pán)存儲(chǔ)數(shù)據(jù)。支持的遠(yuǎn)程存儲(chǔ)列表正在不斷擴(kuò)展。
可重現(xiàn)單個(gè)“dvc repro”命令即可端到端地重現(xiàn)實(shí)驗(yàn)。 DVC 通過(guò)一致地維護(hù)最初用于運(yùn)行實(shí)驗(yàn)的輸入數(shù)據(jù)、配置和代碼的組合來(lái)保證可重復(fù)性。
低摩擦分支DVC 完全支持即時(shí)Git 分支,即使對(duì)于大文件也是如此。分支完美地反映了機(jī)器學(xué)習(xí)過(guò)程的非線性結(jié)構(gòu)和高度迭代的本質(zhì)。數(shù)據(jù)不重復(fù)——一個(gè)文件版本可以屬于數(shù)十個(gè)實(shí)驗(yàn)。創(chuàng)建任意數(shù)量的實(shí)驗(yàn),立即來(lái)回切換,并保存所有嘗試的歷史記錄。
指標(biāo)跟蹤指標(biāo)是DVC 的一等公民。 DVC 包含一個(gè)命令,用于列出所有分支以及用于跟蹤進(jìn)度或選擇最佳版本的指標(biāo)。
ML 管道框架DVC 有一種內(nèi)置方法可以將ML 步驟連接到DAG 并端到端運(yùn)行整個(gè)管道。 DVC 處理中間結(jié)果的緩存,如果輸入數(shù)據(jù)或代碼相同,則不會(huì)再次運(yùn)行步驟。
語(yǔ)言與框架無(wú)關(guān)的語(yǔ)言框架無(wú)論使用什么編程語(yǔ)言或庫(kù),或者代碼的結(jié)構(gòu)如何,可再現(xiàn)性和管道都基于輸入和輸出文件或目錄。 Python、R、Julia、Scala Spark、自定義二進(jìn)制文件、筆記本、平面文件/TensorFlow、PyTorch 等均受支持。
HDFS、Hive 和Apache SparkHDFS、Hive 和Apache Spark 將Spark 和Hive 作業(yè)以及本機(jī)ML 建模步驟包含在DVC 數(shù)據(jù)版本控制周期中,或使用DVC 端到端管理Spark 和Hive 作業(yè)。通過(guò)將繁重的集群作業(yè)分解為更小的DVC 管道步驟,可以大大減少反饋循環(huán)。獨(dú)立于依賴(lài)關(guān)系迭代這些步驟。
錯(cuò)誤跟蹤糟糕的想法有時(shí)比成功的想法在同事中激發(fā)出更多的想法。保留失敗嘗試的知識(shí)可以在將來(lái)節(jié)省時(shí)間。 DVC 旨在以可重復(fù)且易于訪問(wèn)的方式跟蹤所有內(nèi)容。
隨時(shí)保存并復(fù)制您的實(shí)驗(yàn),以獲得您或您的同事執(zhí)行的實(shí)驗(yàn)的完整背景。 DVC 確保所有文檔和指標(biāo)保持一致,并且在正確的位置復(fù)制實(shí)驗(yàn)或用作新迭代的基線。
版本控制模型和數(shù)據(jù)DVC 將元文件保存在Git 而不是Google Docs 中來(lái)描述和控制數(shù)據(jù)集和模型的版本。 DVC 支持多種外部存儲(chǔ)類(lèi)型作為大文件的遠(yuǎn)程緩存。
建立部署和協(xié)作工作流程DVC 定義了團(tuán)隊(duì)高效、一致工作的規(guī)則和流程。它充當(dāng)在生產(chǎn)環(huán)境中協(xié)作、共享結(jié)果以及獲取和運(yùn)行完整模型的協(xié)議。本文:http://jiagoushi.pro/dvc-open-source-version-control-system-machine-learning-projects
(此處已添加圈卡,請(qǐng)前往今日頭條客戶(hù)端查看)
2024-03-15 17:26
2024-03-15 16:42