美國留學選擇什么專業(yè)好?留學美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-08 04:23作者:小樂
文字|卜金庭田瑞英《自然》 最近的一篇文章警告說,人工智能(AI)使用不當可能會導致大量不可靠或無用的研究,從而導致可重復性危機。目前尚不清楚基于人工智能的科學文獻中的錯誤是否在實際臨床實踐中造成了真正的危險。 2020年底COVID-19大流行期間,由于一些國家病毒感染檢測試劑短缺,利用胸部X光檢查的診斷方法備受關(guān)注,但人眼很難準確區(qū)分差異感染者和非感染者之間。一個印度團隊報告稱,人工智能可以使用機器學習來分析X 射線圖像。該論文已被引用900余次。次年9月,美國堪薩斯州立大學計算機科學家Sanchari Dhar和Lior Shamir進行了更深入的研究。他們使用與印度團隊相同的圖像數(shù)據(jù)集來訓練機器學習算法,但只分析了沒有顯示任何身體部位的空白背景部分。結(jié)果表明,人工智能仍然能夠以遠遠高于偶然性的水平識別感染病例。這意味著人工智能系統(tǒng)可以使用這些圖像數(shù)據(jù)成功完成診斷任務(wù),但它無法學習任何臨床相關(guān)特征——,這可能使其在醫(yī)學上毫無用處。沙米爾和達爾還發(fā)現(xiàn)了其他幾個案例,人工智能從圖像的空洞或無意義部分得到了類似的結(jié)果,其中一些被引用了數(shù)百次。這也讓沙米爾感到擔憂:“這些例子很有趣,但在生物醫(yī)學領(lǐng)域它們可能是致命的?!?
AI“玩弄”數(shù)據(jù)和參數(shù)2021 年的一項研究回顧了62 項研究,這些研究使用機器學習通過胸部X 光或計算機斷層掃描診斷COVID-19 感染,得出的結(jié)論是,沒有因方法缺陷或計算機斷層掃描而導致COVID-19 感染的病例。圖像數(shù)據(jù)集中的偏差。人工智能模型在臨床上很有用。沙米爾說:“人工智能允許研究人員‘玩弄’數(shù)據(jù)和參數(shù),直到結(jié)果與預期一致?!睓C器學習算法使用數(shù)據(jù)集進行訓練,直到產(chǎn)生正確的輸出,然后研究人員根據(jù)訓練數(shù)據(jù)集評估其性能。盡管專家強調(diào)需要將訓練集和測試集分開,但一些研究人員顯然沒有意識到這一點。這之間的關(guān)系非常微妙:如果在訓練數(shù)據(jù)集中取一個隨機子集作為測試數(shù)據(jù),很可能會導致數(shù)據(jù)泄漏;如果數(shù)據(jù)集來自同一患者或同一科學儀器,AI可能會學會識別患者或儀器。相關(guān)特征而不是解決特定的醫(yī)療問題。普林斯頓大學計算機科學家Sayash Kapoor 和Arvind Narayanan 在今年的一份報告中也指出,這一數(shù)據(jù)泄露問題導致他們研究的17 個領(lǐng)域出現(xiàn)了重現(xiàn)性問題,影響了數(shù)百篇論文。修正測試數(shù)據(jù)集也會引起問題。如果數(shù)據(jù)不平衡,研究人員可以采用重新平衡算法,例如合成少數(shù)過采樣技術(shù)(SMOTE),該技術(shù)可以合成欠采樣區(qū)域的數(shù)據(jù)。事實上,SMOTE 并不是平衡數(shù)據(jù)集,而是創(chuàng)建一個與原始數(shù)據(jù)具有相同固有偏差的數(shù)據(jù)集。即使是專家也很難避免這些問題。 2022 年,法國數(shù)字科學技術(shù)研究所的數(shù)據(jù)科學家Gal Varoquaux 及其同事在巴黎發(fā)起了一項挑戰(zhàn),要求團隊開發(fā)一種算法,能夠利用從磁共振成像獲得的大腦結(jié)構(gòu)數(shù)據(jù)來預測自閉癥譜系障礙。準確診斷。本次挑戰(zhàn)賽共收到來自61支隊伍的589種算法。 10 個表現(xiàn)最好的算法主要使用機器學習。然而,這些算法并不能很好地推廣到另一個數(shù)據(jù)集,該數(shù)據(jù)集與提供給參與團隊用于訓練和測試其模型的公共數(shù)據(jù)是保密的。 Varoquaux 認為,本質(zhì)上,由于算法是在小數(shù)據(jù)集上開發(fā)和測試的,即使試圖避免數(shù)據(jù)泄漏,它們最終也會與數(shù)據(jù)中的特定模式保持一致,從而使該方法不那么通用。
解決這個問題
8 月,Kapoor、Narayanan 及其同事提出了一種解決該問題的方法,即開發(fā)基于人工智能的科學報告標準列表,其中包括與數(shù)據(jù)質(zhì)量、建模細節(jié)和數(shù)據(jù)泄露風險相關(guān)的32 個問題。他們表示,該列表為基于機器學習的研究提供了跨學科基準。許多人認為,使用人工智能的研究論文應該充分公開方法和數(shù)據(jù)。分析公司Booz Allen Hamilton 的數(shù)據(jù)科學家Edward Raff 2019 年的一項研究發(fā)現(xiàn),255 篇使用AI 的論文中只有63.5% 可以被復制,但加拿大蒙特利爾麥吉爾大學的計算機科學家Joelle Pineau 等人表示,如果原作者主動提供數(shù)據(jù)和代碼,重復率將高達85%?;诖?,Pineau 及其同事提出了一種基于人工智能的論文協(xié)議,規(guī)定提交的內(nèi)容必須包含源代碼,并根據(jù)機器學習再現(xiàn)性檢查表進行評估。但研究人員指出,在計算科學中實現(xiàn)完全可重復性很困難,更不用說在人工智能中了。事實上,可重復性并不能保證人工智能能夠提供正確的結(jié)果,只是提供自洽的結(jié)果。荷蘭埃因霍溫理工大學計算機科學家Joaquin Vanschoren 警告說:“很多高影響力的人工智能都是由大公司創(chuàng)建的,他們很少立即公開代碼。有時他們不愿意公開代碼因為他們認為還沒有準備好,“如果沒有足夠的數(shù)據(jù)集,研究人員就無法正確評估模型,最終會發(fā)布表現(xiàn)良好的低質(zhì)量結(jié)果,”非營利性可重復研究協(xié)會主任約瑟夫·科恩強調(diào)說。這個問題在醫(yī)學研究中非常嚴重,因為它可以從訓練數(shù)據(jù)集中生成新數(shù)據(jù),例如,研究人員可以使用這些算法來提高圖像的分辨率,除非非常小心,否則可能會引入偽影。谷歌科學家Viren Jain 表示,雖然他致力于開發(fā)用于可視化和操作數(shù)據(jù)集的人工智能,但他也擔心研究人員濫用生成人工智能。此外,一些研究人員認為,為了真正解決問題,必須改變有關(guān)數(shù)據(jù)呈現(xiàn)和報告的文化規(guī)范。加拿大多倫多大學計算機科學家本杰明·海貝-凱恩斯(Benjamin Haibe-Kains) 對此并不樂觀。 2020年,他和同事批評了一項機器學習檢測乳腺癌的研究:“由于缺乏支持該研究的計算代碼,該研究沒有科學價值?!睂Υ耍芯孔髡弑硎?,由于部分數(shù)據(jù)來自醫(yī)院,他們存在隱私問題,無權(quán)共享所有信息。 Haibe-Kains 還指出,作者并不總是遵守數(shù)據(jù)透明度準則,期刊編輯通常不會在這方面強烈反對。他認為,問題并不是編輯們放棄了透明原則,而是編輯和審稿人可能對拒絕共享數(shù)據(jù)、代碼等的真正原因沒有足夠的了解,因此常常以不合理的理由妥協(xié)。事實上,作者可能不明白需要什么來確保其工作的可靠性和可重復性。 《自然》雜志今年進行的一項調(diào)查詢問了1600 多名研究人員,詢問人工智能論文的同行評審是否充分。對于從事人工智能研究的科學家來說,四分之一的人認為審查是充分的,四分之一的人認為還不夠,大約一半的人表示他們不知道。
“我們應該努力適應新工具” 并非所有人都認為人工智能危機即將來臨。 “我沒有看到人工智能帶來的不可重復結(jié)果有所增加。事實上,如果謹慎使用,人工智能可以幫助消除研究人員工作中的認知偏差?!鄙窠?jīng)科學家Lucas Stetzik 說。盡管人們普遍擔心許多已發(fā)表的人工智能研究結(jié)果的有效性或可靠性,但尚不清楚這些結(jié)果是否會導致臨床實踐中的誤診。 “如果發(fā)生這種事,我不會感到震驚,”芝加哥德保羅大學的凱西·貝內(nèi)特說。在科恩看來,這個問題可能會自行解決,就像其他新科學方法的早期一樣:“發(fā)表劣質(zhì)論文的作者將來將不再有工作機會,接受這些文章的期刊將被認為是不值得信任的?!?,優(yōu)秀的不會被認為是可信的。”作者也不會愿意在這些期刊上發(fā)表文章。”貝內(nèi)特認為,十幾年后,研究人員將對人工智能能提供什么以及如何使用它有更深入的了解,就像生物學家花了很長時間才能更好地理解人工智能如何使用它一樣。將基因分析與復雜疾病聯(lián)系起來?!叭藗冊絹碓浇咏灸P?,例如OpenAI 的GPT-3 和GPT-4。這比內(nèi)部訓練的定制模型更有可能產(chǎn)生可重復的結(jié)果?!惫雀杩茖W家Viren Jain 認為,對于AI 生成來說,當使用的模型相似時,可重復性可能會提高。
相關(guān)信息:
https://www.nature.com/articles/d41586-023-03817-6