美國(guó)留學(xué)選擇什么專業(yè)好?留學(xué)美國(guó)熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-03-15 18:17作者:小樂
算法工程師在使用算法的過程中往往要不斷調(diào)整參數(shù)以找到最佳效果,俗稱“調(diào)參民工”。在不斷調(diào)整參數(shù)的過程中,會(huì)產(chǎn)生各種模型。如何記錄這些參數(shù)與模型效果的對(duì)應(yīng)關(guān)系,常常讓算法工程師頭疼。所以,大家都在呼喚一個(gè)實(shí)用的模型管理工具,因?yàn)橛辛税姹竟芾頇C(jī)制,可以更好的比較效果,甚至可以多人協(xié)同開發(fā)。
今天給大家介紹一款開源的模型管理工具——DVC:https://dvc.org/doc/tutorials/get-started/experiments
1 模型版本控制的誤區(qū)在設(shè)計(jì)模型版本管理功能時(shí)存在一個(gè)誤區(qū),認(rèn)為只管理模型文件。模型版本管理應(yīng)該從整個(gè)機(jī)器學(xué)習(xí)流水線的角度來考慮,考慮到每次訓(xùn)練的數(shù)據(jù)可能不同,算法參數(shù)可能不同,評(píng)估指標(biāo)metrics可能不同。
因此,模型管理是對(duì)一個(gè)全鏈路機(jī)器學(xué)習(xí)項(xiàng)目的管理。在這方面,DVC和MLflow的設(shè)計(jì)理念比較好。
2 DVC 的設(shè)計(jì)理念DVC 是一個(gè)由創(chuàng)業(yè)團(tuán)隊(duì)維護(hù)的開源模型管理SDK。與客戶的交互基本上是通過命令行。只需“pip install dvc”即可快速安裝。
DVC可以看作是對(duì)git的二次封裝。如下圖所示,dvc checkout的底層調(diào)用是git checkout。
DVC將數(shù)據(jù)+算法腳本+Metrics當(dāng)作代碼簽出,這樣就可以自然地利用git的能力進(jìn)行版本管理。
3 DVC的具體使用(1)創(chuàng)建環(huán)境
(2)上傳數(shù)據(jù)
(3)配置數(shù)據(jù)并設(shè)置訓(xùn)練集和驗(yàn)證集
(4)設(shè)定指標(biāo)并生成結(jié)果
(5)輸出結(jié)果
(6)不同版本模型效果對(duì)比
基線實(shí)驗(yàn)和二元實(shí)驗(yàn)是模型的不同版本。您可以通過查看不同版本來控制不同的訓(xùn)練數(shù)據(jù)和模型參數(shù)版本。