美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-08-07 10:10作者:小樂
在生物信息學(xué)領(lǐng)域,Prompt不再是煉金術(shù)。
作者丨陳魯一編輯丨岑峰自2022年ChatGPT誕生以來,人工智能領(lǐng)域迎來了新的革命。大型語言模型(LLM)因其出色的文本處理能力而迅速成為研究人員和開發(fā)人員的新寵。隨著這些模型的興起,如何與其有效交互的問題日益凸顯,提示的概念逐漸成為研究熱點(diǎn)。但什么是提示詞呢?在計(jì)算機(jī)交互的早期,提示詞是用戶輸入的提示左側(cè)的指令(例如MS Dos的C:或Python的),以觸發(fā)系統(tǒng)的響應(yīng)。在大型模型的上下文中,提示詞是指導(dǎo)性陳述或問題。它就像一個(gè)魔咒,激發(fā)大型語言模型的潛力,引導(dǎo)它們根據(jù)我們的指令生成文本、回答問題或執(zhí)行任務(wù)。在與大語言模型的交互中,提示詞就像一把打開知識(shí)寶庫的鑰匙。它不僅是溝通的橋梁,也是探索語言模型深層潛力的工具。 ChatGPT 創(chuàng)始人Sam Altman 將Prompt Engineering 視為自然語言編程的黑科技,并認(rèn)為這是一項(xiàng)可以帶來高回報(bào)的技能。 ChatGPT或者其他大型語言模型能否給出滿意的答案,很大程度上取決于你如何熟練地使用提示詞。隨著人工智能生成內(nèi)容(AIGC)時(shí)代的到來,提示詞的價(jià)值和重要性日益凸顯。然而,Prompt技術(shù)的復(fù)雜性遠(yuǎn)遠(yuǎn)超出了我們的想象。當(dāng)早期研究人員探索Prompt技術(shù)時(shí),他們似乎在進(jìn)行一場煉金術(shù)探索,充滿了不確定性和偶然性。通過不斷嘗試不同的提示詞,他們試圖找到能夠激發(fā)大型語言模型最佳性能的“魔咒”。這種方法雖然在某些情況下可行,但缺乏系統(tǒng)性和可復(fù)制性。瞬發(fā)技術(shù)要想更進(jìn)一步,必須經(jīng)歷“從煉金術(shù)到化學(xué)”的系統(tǒng)發(fā)展過程。這意味著我們需要將即時(shí)技術(shù)從基于經(jīng)驗(yàn)的技能轉(zhuǎn)變?yōu)榛诳茖W(xué)原理的工程學(xué)科。這就需要對(duì)現(xiàn)有的Prompt技術(shù)進(jìn)行深入分析和總結(jié),建立完整的理論體系和方法論。例如:不同的提示詞如何影響大語言模型的理解和生成?在不同的應(yīng)用場景下,應(yīng)該按照什么原則來設(shè)計(jì)和優(yōu)化提示詞?最近,其中一篇相關(guān)論文《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》發(fā)表在在線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)上。本文主要研究大語言模型在生物信息學(xué)領(lǐng)域的應(yīng)用。主要研究如何利用大型語言模型(如ChatGPT)挖掘基因關(guān)系,并提出迭代提示優(yōu)化技術(shù)來提高預(yù)測基因關(guān)系的準(zhǔn)確性。該論文為生物信息學(xué)研究人員利用ChatGPT改善工作流程和工作效率提供了新思路。密蘇里大學(xué)哥倫比亞分校計(jì)算機(jī)科學(xué)系徐東教授隨論文發(fā)表,向《AI Technology Review》分享了大規(guī)模人工智能模型對(duì)生命科學(xué)領(lǐng)域的影響,以及他對(duì)生命科學(xué)領(lǐng)域的思考。如何更好地將大規(guī)模語言模型應(yīng)用于生物信息學(xué)研究。論文鏈接:https://gairdao.com/doi/10.1142/S2972335324500054 論文引用鏈接:https://www.worldscientific.com/action/showCitFormats doi=10.1142%2FS2972335324500054area=0000000000000001
1
生物信息學(xué):
迎來第二次繁榮
回顧20世紀(jì)90年代,那是一個(gè)被形象地稱為生物信息學(xué)研究“寒武紀(jì)”的時(shí)期。人類基因組計(jì)劃的啟動(dòng)、全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽的舉辦、生物信息量的爆發(fā)式增長,加上信息技術(shù)的跨時(shí)代發(fā)展,共同帶來了生物信息學(xué)的第一個(gè)黃金時(shí)代,使得它是前沿學(xué)科之一。如今,隨著人工智能技術(shù)的突破,特別是大型人工智能模型在生物信息學(xué)中的應(yīng)用,我們有望迎來生物信息學(xué)的第二次繁榮時(shí)期。徐東教授是經(jīng)歷過20世紀(jì)90年代生物信息學(xué)黃金時(shí)代的人之一。他指出,在生命科學(xué)領(lǐng)域,大規(guī)模人工智能模型的應(yīng)用日益廣泛,其應(yīng)用主要集中在以下幾個(gè)方面: 蛋白質(zhì)模型:通過利用蛋白質(zhì)序列訓(xùn)練的大型模型,各種蛋白質(zhì)可以執(zhí)行預(yù)測任務(wù),包括設(shè)計(jì)新蛋白質(zhì);單細(xì)胞模型:單細(xì)胞數(shù)據(jù)量巨大,通常單細(xì)胞實(shí)驗(yàn)涉及數(shù)千至數(shù)百萬個(gè)細(xì)胞?;趩渭?xì)胞轉(zhuǎn)錄組數(shù)據(jù)訓(xùn)練的大型模型,能夠進(jìn)行大規(guī)模單細(xì)胞數(shù)據(jù)分析;醫(yī)療多模態(tài)模型:通過整合醫(yī)療文本(如病歷、醫(yī)生筆記)、圖像和其他檢查報(bào)告等多種數(shù)據(jù)類型,訓(xùn)練出的大模型可用于醫(yī)療數(shù)據(jù)分析;除了上述三個(gè)主要領(lǐng)域外,研究人員還在核酸定位、蛋白質(zhì)與DNA/RNA相互作用等其他方面開發(fā)相應(yīng)的大型模型。這些應(yīng)用場景可以幫助生物信息學(xué)家更快、更準(zhǔn)確地處理生物信息學(xué)問題,從而提高研究效率、降低成本。然而,雖然人工智能大模型在生物信息學(xué)領(lǐng)域的應(yīng)用取得了一定進(jìn)展,但大模型在生物信息學(xué)領(lǐng)域的應(yīng)用仍處于早期發(fā)展階段,存在諸多挑戰(zhàn)。首先遇到的問題之一是大型AI模型需要大量高質(zhì)量的生物信息學(xué)數(shù)據(jù),但這些數(shù)據(jù)的質(zhì)量和完整性可能存在問題;同時(shí),當(dāng)前大型AI模型的可解釋性和可解釋性可能存在問題,“幻覺”的存在嚴(yán)重影響研究的可靠性。如何解決上述問題,讓大型AI模型發(fā)揮更大的作用生物信息學(xué)研究?徐東告訴AI科技評(píng)論,Prompt技術(shù)在生物信息學(xué)領(lǐng)域提供了一種靈活且易于實(shí)現(xiàn)的方法,尤其是在數(shù)據(jù)資源有限的情況下,Prompt技術(shù)仍可能成為主流方法之一。
2
使用提示學(xué)習(xí)提高AI 模型的準(zhǔn)確性
在機(jī)器學(xué)習(xí)領(lǐng)域,將提示從“基于經(jīng)驗(yàn)”轉(zhuǎn)變?yōu)椤盎诳茖W(xué)原理”的做法被稱為“即時(shí)學(xué)習(xí)”。聊天機(jī)器人之所以嚴(yán)重依賴提示,是因?yàn)镃hatGPT的預(yù)訓(xùn)練模型中有很多知識(shí)。為了更好地利用這些知識(shí)和能力,OpenAI 采用了基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)方法,利用人類反饋的輸入來“比較”語言,從而達(dá)到人機(jī)交互的目的。因此,聊天機(jī)器人的提示必須經(jīng)過精心設(shè)計(jì),以獲得有價(jià)值、準(zhǔn)確且穩(wěn)健的響應(yīng)。提示學(xué)習(xí)的核心是將用戶輸入的文本轉(zhuǎn)換為特定的提示格式。這個(gè)過程通常包括兩種模式:第一種是自編碼模式,它使用文本中間帶有占位符的自然語言模板,允許大模型在指定的占位符處生成答案文本。第二種是自回歸模式,向大模型提供問題和背景信息,讓大模型自由生成答案文本。這些方法本質(zhì)上是為預(yù)訓(xùn)練的語言模型設(shè)計(jì)任務(wù),包括輸入模板、標(biāo)簽樣式以及模型輸出和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。本文的研究正是基于此基礎(chǔ)上,在復(fù)雜生物信息學(xué)場景下采用自回歸模式提示學(xué)習(xí),并利用迭代提示優(yōu)化、思維鏈等技術(shù),通過與ChatGPT的交互逐步優(yōu)化提示,以提高預(yù)測親緣關(guān)系的準(zhǔn)確性。
(使用GPT 模型進(jìn)行遺傳關(guān)系挖掘的迭代提示細(xì)化框架。該方法利用GPT-4 的高級(jí)邏輯功能自主改進(jìn)提示,并利用GPT-3.5 的低成本和高速度進(jìn)行基于事實(shí)的初始查詢處理。 )
這項(xiàng)工作的重點(diǎn)之一是元提示設(shè)計(jì):元提示為會(huì)話機(jī)器人設(shè)定角色,提示指導(dǎo)GPT-4優(yōu)化提示,增強(qiáng)答案的專業(yè)性。元提示包含特定的指令,例如改變角色、省略細(xì)節(jié)等,以提高提示的有效性。另一個(gè)關(guān)鍵點(diǎn)是引入迭代優(yōu)化技術(shù),利用GPT-4的能力進(jìn)行迭代提示優(yōu)化。首先使用GPT-3.5生成基因關(guān)系提示,然后評(píng)估這些提示的性能(例如F-1分?jǐn)?shù)、精度和召回率);將預(yù)測結(jié)果與實(shí)際數(shù)據(jù)(例如KEGG數(shù)據(jù)庫)進(jìn)行比較,找出錯(cuò)誤和不足,然后利用此反饋信息進(jìn)行進(jìn)一步的優(yōu)化提示;最后,將優(yōu)化后的模型應(yīng)用于KEGG Pathway Database進(jìn)行基準(zhǔn)測試,驗(yàn)證其在解析復(fù)雜基因關(guān)系和疾病相關(guān)pathway方面的有效性。此外,論文還引入Chain-of-Thought和Tree-of-Thought策略來指導(dǎo)ChatGPT進(jìn)行更深入的邏輯推理,提高答案的準(zhǔn)確性和深度;同時(shí),它將復(fù)雜的問題分解為更易于管理的子問題序列,逐漸引導(dǎo)ChatGPT構(gòu)建更完整的答案。該方法特別適合復(fù)雜基因關(guān)系網(wǎng)絡(luò)的構(gòu)建。實(shí)驗(yàn)結(jié)果表明,通過迭代提示優(yōu)化技術(shù),ChatGPT預(yù)測基因關(guān)系的準(zhǔn)確性顯著提高。特別是在復(fù)雜基因關(guān)系和疾病相關(guān)通路的分析中,其潛力和有效性已得到證明。
3
生物信息學(xué)研究新動(dòng)力
“即時(shí)技術(shù)在生物信息學(xué)領(lǐng)域具有顯著優(yōu)勢?!毙鞏|告訴AI技術(shù)評(píng)論,首先,Prompt技術(shù)對(duì)數(shù)據(jù)要求較低,不需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,因此在小數(shù)據(jù)集上表現(xiàn)良好。這對(duì)于生物信息學(xué)領(lǐng)域尤其重要,因?yàn)樵S多生物醫(yī)學(xué)數(shù)據(jù)集的大小有限;其次,由于Prompt技術(shù)是在大型預(yù)訓(xùn)練模型的基礎(chǔ)上運(yùn)行的,因此易于實(shí)現(xiàn)和應(yīng)用;最后,生物信息學(xué)的很多問題本質(zhì)上都是小數(shù)據(jù)問題,因此Prompt技術(shù)具有廣泛的應(yīng)用前景和場景。在解釋迭代提示優(yōu)化技術(shù)如何有效解決大型語言模型中的“幻覺”問題時(shí),徐東認(rèn)為,不僅是大型語言模型,人類本身在某些情況下也可能會(huì)經(jīng)歷類似的“幻覺”現(xiàn)象。例如,人們可能會(huì)錯(cuò)誤地回憶起某些事件的細(xì)節(jié),這并不是故意誤導(dǎo),而是因?yàn)橛洃浧睢4笳Z言模型“錯(cuò)覺”的原因大致可以分為三類:1)對(duì)用戶問題的誤解; 2)訓(xùn)練數(shù)據(jù)混亂導(dǎo)致生成答案時(shí)混亂; 3)缺乏反思能力,未能有效識(shí)別和糾正自己的錯(cuò)誤。迭代提示優(yōu)化技術(shù)就是針對(duì)這三類原因。通過迭代優(yōu)化,模型能夠更準(zhǔn)確地理解用戶的問題和提示,減少誤解;同時(shí)增強(qiáng)知識(shí)泛化能力,幫助模型更好地總結(jié)和區(qū)分訓(xùn)練數(shù)據(jù)。模型中的知識(shí)以避免信息混亂;最后,迭代優(yōu)化使模型具有更強(qiáng)的類似于人類思維過程的自我反思能力,并且可以識(shí)別和改進(jìn)生成的答案。與傳統(tǒng)方法相比,迭代提示優(yōu)化技術(shù)通過模擬人類的學(xué)習(xí)和思維過程,使模型在處理復(fù)雜問題時(shí)更加高效、協(xié)調(diào)。這種方法比傳統(tǒng)的基于規(guī)則的系統(tǒng)更加靈活和適應(yīng)性更強(qiáng),能夠處理更廣泛的任務(wù)和數(shù)據(jù)類型。因此,通過該方法,大型語言模型生成答案的準(zhǔn)確性和可靠性顯著提高,減少了“幻覺”現(xiàn)象的發(fā)生,從而在生物信息學(xué)等領(lǐng)域展現(xiàn)出更大的應(yīng)用潛力。徐東還表示,Prompt技術(shù)雖然有著廣闊的應(yīng)用前景,但也存在一定的局限性,比如高度依賴訓(xùn)練數(shù)據(jù)的質(zhì)量和代表性、泛化能力有限等。同時(shí),徐東也在《Prompt技術(shù)》中表示。論文提到,模型的性能波動(dòng)和對(duì)訓(xùn)練數(shù)據(jù)的敏感性表明需要進(jìn)一步優(yōu)化和迭代策略。未來的工作可能包括模型定制、開發(fā)更先進(jìn)的迭代提示算法以及評(píng)估該方法在更廣泛的研究問題上的有效性。 “雖然不是所有問題都適合這種方法,但相當(dāng)一部分問題可能通過大模型和提示技術(shù)可以更準(zhǔn)確地解決?!碑?dāng)談及Prompt科技未來在生物信息學(xué)領(lǐng)域的潛力時(shí),徐東充滿信心。 “大模型在很多領(lǐng)域仍然有很大的優(yōu)化空間,比如目前缺乏專門的生物信息學(xué)大模型。隨著大模型的發(fā)展,Prompt技術(shù)將在這些模型中發(fā)揮更大的作用?!?
未經(jīng)《AI技術(shù)評(píng)論》授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)轉(zhuǎn)載!公眾號(hào)轉(zhuǎn)載請?jiān)凇禔I技術(shù)評(píng)論》后臺(tái)留言獲取授權(quán)。轉(zhuǎn)載時(shí)須注明出處并插入本公眾號(hào)名片。