近日,針對(duì)大型語(yǔ)言模型(LLM)在海洋領(lǐng)域的應(yīng)用,我所漁業(yè)遙感技術(shù)及數(shù)字漁業(yè)創(chuàng)新團(tuán)隊(duì)提出了一種針對(duì)垂直領(lǐng)域大型語(yǔ)言模型(LLM)的增強(qiáng)型檢索方案——BM-RAGAM(BM25檢索增強(qiáng)生成注意力機(jī)制)。該方案通過(guò)結(jié)合關(guān)鍵詞匹配和語(yǔ)義關(guān)聯(lián)的混合檢索策略,大幅提升了LLM在特定領(lǐng)域的信息檢索準(zhǔn)確性和生成內(nèi)容的可解釋性。該成果(DOI為10.3390/app142411529)發(fā)表在《應(yīng)用科學(xué)》雜志上(Applied Sciences,JCR 1 區(qū))。我所與浙江海洋大學(xué)的聯(lián)合培養(yǎng)研究生陳器為第一作者,周為峰研究員為通訊作者。
大型語(yǔ)言模型在處理特定領(lǐng)域的復(fù)雜查詢(xún)時(shí),常常出現(xiàn)回答不準(zhǔn)確甚至誤導(dǎo)用戶(hù)的現(xiàn)象,這種現(xiàn)象被稱(chēng)為“幻覺(jué)”。為解決這一問(wèn)題,研究團(tuán)隊(duì)以海洋學(xué)中的“鋒面”和“渦旋”知識(shí)為例,開(kāi)發(fā)了BM-RAGAM方案。BM-RAGAM方案的核心在于在本地部署向量化的知識(shí)庫(kù)的基礎(chǔ)之上結(jié)合了BM25算法和RAG技術(shù),從而實(shí)現(xiàn)高效檢索和文本生成。實(shí)驗(yàn)表明,BM-RAGAM方案在多個(gè)評(píng)估指標(biāo)上顯著優(yōu)于基礎(chǔ)模型,不僅減少了幻覺(jué)現(xiàn)象,還提高了生成內(nèi)容的準(zhǔn)確性和專(zhuān)業(yè)性,特別適合海洋領(lǐng)域的問(wèn)答系統(tǒng)搭建。BM-RAGAM方案為海洋領(lǐng)域LLM的應(yīng)用提供了新的思路,未來(lái)有望進(jìn)一步拓展到其他垂直領(lǐng)域。
該研究得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃(2023YFD2401303)“基于數(shù)據(jù)驅(qū)動(dòng)的遠(yuǎn)洋漁情預(yù)報(bào)技術(shù)與服務(wù)系統(tǒng)”和中國(guó)水產(chǎn)科學(xué)研究院東海研究所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(2022ZD0402)的支持。

(漁業(yè)遙感與信息技術(shù)研究室 周為峰)