亚洲av成人综合网,亚洲av岛国动作片在线观看,天天av天天翘天天综合网,午夜福利一区二区三区在线观看,五月综合激情婷婷六月

多模態(tài)大語(yǔ)言模型在鐵路行業(yè)應(yīng)用探索

2025-06-03

來(lái)源:佳訊飛鴻官微

一、鐵路行業(yè)多模態(tài)大語(yǔ)言模型應(yīng)用面臨的挑戰(zhàn)

1、鐵路行業(yè)數(shù)據(jù)特點(diǎn)

鐵路行業(yè)涉及的數(shù)據(jù)模態(tài)豐富多樣,每種模態(tài)都有其獨(dú)特特點(diǎn)。

文本數(shù)據(jù)方面,包含大量專業(yè)的規(guī)章制度、技術(shù)手冊(cè)、維修記錄等,具有術(shù)語(yǔ)專業(yè)性強(qiáng)、邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)奶攸c(diǎn)。例如鐵路信號(hào)設(shè)備維護(hù)手冊(cè),其中包含大量特定的信號(hào)術(shù)語(yǔ)和詳細(xì)的操作流程描述,對(duì)模型理解和處理專業(yè)文本能力要求極高。

圖像數(shù)據(jù)涵蓋設(shè)備外觀圖像、軌道線路圖像、作業(yè)現(xiàn)場(chǎng)圖像和大量監(jiān)控視頻截圖等。設(shè)備外觀圖像需模型準(zhǔn)確識(shí)別設(shè)備部件狀態(tài)、是否存在故障痕跡等;軌道線路圖像要求模型能識(shí)別軌道幾何形狀、道岔狀態(tài)等,圖像數(shù)據(jù)具有分辨率高、細(xì)節(jié)特征復(fù)雜的特性。

語(yǔ)音數(shù)據(jù)主要為調(diào)度指揮語(yǔ)音、設(shè)備故障報(bào)警語(yǔ)音等,具有實(shí)時(shí)性強(qiáng)、語(yǔ)音質(zhì)量受環(huán)境影響大的特點(diǎn),如在嘈雜的車站環(huán)境中,調(diào)度語(yǔ)音可能存在噪聲干擾,增加了語(yǔ)音識(shí)別和理解的難度。

2、鐵路行業(yè)應(yīng)用挑戰(zhàn)

領(lǐng)域知識(shí)融合與專業(yè)性的要求。鐵路行業(yè)涉及高度專業(yè)化的要求、規(guī)程(如信號(hào)系統(tǒng)邏輯、軌道工程標(biāo)準(zhǔn)),需將領(lǐng)域知識(shí)和專業(yè)知識(shí)有效嵌入模型訓(xùn)練和模型推理過(guò)程,避免生成錯(cuò)誤或不符合規(guī)范的輸出。

系統(tǒng)兼容性與既有設(shè)施改造。既有鐵路系統(tǒng)(如傳統(tǒng)信號(hào)設(shè)備、老舊傳感器、傳統(tǒng)架構(gòu)信息化系統(tǒng))可能無(wú)法直接支持AI模型的輸入輸出接口,需解決新舊系統(tǒng)兼容性問(wèn)題,導(dǎo)致部署成本增加。

鐵路運(yùn)輸生產(chǎn)過(guò)程人員協(xié)作與置信度。運(yùn)輸生產(chǎn)、運(yùn)營(yíng)維護(hù)過(guò)程中鐵路對(duì)應(yīng)專業(yè)人員(如調(diào)度員、維修工)對(duì)AI決策的接受度有限,需通過(guò)可解釋性技術(shù)(如可視化推理路徑)提升模型透明度,建立人機(jī)協(xié)同機(jī)制。

模型研發(fā)部署成本與應(yīng)用的平衡。多模態(tài)大模型訓(xùn)練需要大規(guī)模算力支持,且鐵路場(chǎng)景定制化開(kāi)發(fā)成本高,面臨模型研發(fā)部署成本與應(yīng)用平衡的問(wèn)題。

二、多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)研究

針對(duì)鐵路行業(yè)的特點(diǎn)、專業(yè)分工,多專業(yè)數(shù)據(jù)源特性及多模態(tài)大語(yǔ)言模型應(yīng)用過(guò)程中面臨的挑戰(zhàn),開(kāi)展相關(guān)關(guān)鍵技術(shù)的研究工作。

1、多模態(tài)大語(yǔ)言模型定義

多模態(tài)大語(yǔ)言模型(MultiModal Large Language Models,簡(jiǎn)稱MLLMs)是一類結(jié)合了大語(yǔ)言模型(Large Language Models,簡(jiǎn)稱LLMs)的自然語(yǔ)言處理能力與對(duì)其他模態(tài)(如視覺(jué)、音頻等)數(shù)據(jù)的理解與生成能力的模型。這些模型通過(guò)整合文本、圖像、聲音等多種類型的輸入和輸出,提供更加豐富和自然的交互體驗(yàn)。

2、多模態(tài)大語(yǔ)言模型架構(gòu)

多模態(tài)模型架構(gòu)包含5個(gè)部分,分別是:模態(tài)編碼器(Modality Encoder)、輸入映射器(Input Projector)、大模型骨干(LLM Backbone)、輸出映射器(Output Projector)以及模態(tài)生成器(Modality Generator)[1]。模型架構(gòu)如下圖所示:

1933408784665702401.png

模態(tài)編碼器:多模態(tài)大模型中的一個(gè)關(guān)鍵組件,它的主要任務(wù)是將不同模態(tài)的輸入數(shù)據(jù)轉(zhuǎn)換成模型能夠進(jìn)一步處理的特征表示。這些輸入數(shù)據(jù)可以包括圖像、文本、音頻、視頻等多種形式,而模態(tài)編碼器的作用就像是翻譯官,將這些不同語(yǔ)言(模態(tài))的信息轉(zhuǎn)換成一種共同的“語(yǔ)言”,以便模型能夠理解和處理。

輸入映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是將不同模態(tài)的編碼特征映射到一個(gè)共同的特征語(yǔ)義空間,以便這些特征可以被大型語(yǔ)言模型(LLM Backbone)統(tǒng)一處理和理解。

輸出映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要任務(wù)是將大型語(yǔ)言模型(LLM)的輸出信號(hào)映射回原始模態(tài)的空間,同時(shí)轉(zhuǎn)換成適合不同模態(tài)生成器使用的特征表示。這些生成器可能是用于生成圖像、視頻、音頻或其他模態(tài)的模型。

模態(tài)生成器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是生成不同模態(tài)的輸出,例如圖像、視頻或音頻。使得模型能夠靈活地處理和生成多種類型的數(shù)據(jù),為用戶提供更加豐富和自然的交互體驗(yàn)。

3、多模態(tài)大語(yǔ)言模型訓(xùn)練

多模態(tài)大模型的訓(xùn)練主要分為兩個(gè)階段:多模態(tài)預(yù)訓(xùn)練(MM PT, MultiModal Pre-Training)和多模態(tài)指令微調(diào)(MM IT, MultiModal Instruction Tuning)。

(1)多模態(tài)預(yù)訓(xùn)練,采用X?text數(shù)據(jù)集,輸入和輸出映射器用于實(shí)現(xiàn)不同模態(tài)之間的對(duì)齊。對(duì)于多模態(tài)理解模型,只優(yōu)化文本生成損失;對(duì)于多模態(tài)生成模型,需要優(yōu)化文本生成損失、模態(tài)生成損失和輸出對(duì)齊損失。

(2)多模態(tài)指令微調(diào),通過(guò)指令格式化的數(shù)據(jù)集對(duì)預(yù)訓(xùn)練的MLLMs進(jìn)行微調(diào),以提高模型遵循新指令的能力,增強(qiáng)其在未見(jiàn)任務(wù)上的性能。指令微調(diào)包括監(jiān)督微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF),增強(qiáng)多模態(tài)大模型的交互能力,顯著改善零樣本性能,極大增強(qiáng)泛化能力。

4、基于Visual-RFT的多模態(tài)大模型推理能力提升方法

開(kāi)源 Visual-RFT,將RFT擴(kuò)展到視覺(jué)任務(wù),通過(guò)設(shè)計(jì)針對(duì)不同視覺(jué)任務(wù)的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),提升多模態(tài)大模型在視覺(jué)感知和推理任務(wù)中的性能。Visual-RFT 的核心在于利用多模態(tài)大模型,生成多個(gè)包含推理過(guò)程和最終答案的響應(yīng),并通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對(duì)模型進(jìn)行策略優(yōu)化[2]。Visual-RFT 原理圖,如下圖所示:

1933409212967055361.png

獎(jiǎng)勵(lì)模型訓(xùn)練。給定問(wèn)題和視覺(jué)圖像輸入后,策略模型會(huì)生成多個(gè)包含推理步驟的響應(yīng)。然后,使用可驗(yàn)證獎(jiǎng)勵(lì)(如IoU獎(jiǎng)勵(lì)和分類獎(jiǎng)勵(lì))與策略梯度優(yōu)化算法來(lái)更新策略模型??沈?yàn)證獎(jiǎng)勵(lì)函數(shù)包括:

IoU獎(jiǎng)勵(lì)(目標(biāo)檢測(cè)):通過(guò)計(jì)算預(yù)測(cè)邊界框與真實(shí)邊界框的交并比(IoU)來(lái)評(píng)估檢測(cè)任務(wù)的獎(jiǎng)勵(lì)。

分類準(zhǔn)確率獎(jiǎng)勵(lì)(分類任務(wù)):通過(guò)比較模型輸出類別與真實(shí)類別來(lái)評(píng)估獎(jiǎng)勵(lì)。

基于視覺(jué)強(qiáng)化微調(diào)(Visual-RFT)的能力特征,結(jié)合鐵路行業(yè)的復(fù)雜環(huán)境要求,在細(xì)粒度圖像分類、少樣本目標(biāo)檢測(cè)、推理定位以及開(kāi)放詞匯目標(biāo)檢測(cè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,Visual-RFT具有競(jìng)爭(zhēng)力的性能和先進(jìn)的泛化能力:

在大約100個(gè)樣本的單樣本細(xì)粒度圖像分類中,Visual-RFT的準(zhǔn)確率比基線提高了24.3%。

在少樣本目標(biāo)檢測(cè)中,Visual-RFT在COCO的兩樣本設(shè)置中超過(guò)了基線21.9,在LVIS上超過(guò)了15.4。

Visual-RFT 減少了對(duì)人工標(biāo)注的依賴,簡(jiǎn)化了獎(jiǎng)勵(lì)計(jì)算過(guò)程,并在多種視覺(jué)感知任務(wù)上取得了顯著的性能提升。在細(xì)粒度分類、開(kāi)放詞匯檢測(cè)、推理定位和少樣本學(xué)習(xí)等任務(wù)中均優(yōu)于監(jiān)督微調(diào)方法,且在數(shù)據(jù)有限的情況下表現(xiàn)出強(qiáng)大的泛化能力。

三、Qwen2.5-VL-32B-Instruct大模型及鐵路AI視頻分析場(chǎng)景下模型能力測(cè)試驗(yàn)證

2025年3月24日,通義千問(wèn)推出了Qwen2.5-VL系列大模型,獲得了社區(qū)的廣泛關(guān)注和積極反饋。在Qwen2.5-VL系列的基礎(chǔ)上,使用強(qiáng)化學(xué)習(xí)持續(xù)優(yōu)化模型,并使用 Apache 2.0協(xié)議開(kāi)源32B參數(shù)規(guī)模的新VL模型-Qwen2.5-VL-32B-Instruct。本次推出的32B模型的核心特點(diǎn)如下:

多模態(tài)能力:支持視覺(jué)語(yǔ)言理解、圖像細(xì)粒度解析(如交通指示牌分析)、視覺(jué)邏輯推理等任務(wù),在復(fù)雜場(chǎng)景中表現(xiàn)優(yōu)異。

數(shù)學(xué)推理突破:通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化,顯著提升復(fù)雜數(shù)學(xué)問(wèn)題的求解準(zhǔn)確性和分步推導(dǎo)能力,例如幾何證明和多元函數(shù)優(yōu)化。

本地部署優(yōu)勢(shì):32B參數(shù)規(guī)模兼顧性能與效率,支持通過(guò)MLX框架在Apple Silicon設(shè)備本地運(yùn)行,適合注重隱私的企業(yè)用戶。

交互體驗(yàn)優(yōu)化:輸出風(fēng)格更貼近人類偏好,回答更詳細(xì)、格式規(guī)范,支持多輪深度對(duì)話。

Qwen2.5-VL中,模型的整體架構(gòu)由三個(gè)主要組件構(gòu)成:大型語(yǔ)言模型(LLM)、視覺(jué)編碼器(Vision Encoder)和基于MLP的視覺(jué)-語(yǔ)言融合器[3],模型架構(gòu)如下圖所示:

1933410454598479873.png

Qwen2.5-VL-32B 在強(qiáng)化學(xué)習(xí)框架下優(yōu)化了主觀體驗(yàn)和數(shù)學(xué)推理能力,下一步研究將聚焦于長(zhǎng)且有效的推理過(guò)程[4],以突破視覺(jué)模型在處理高度復(fù)雜、多步驟視覺(jué)推理任務(wù)中的邊界。

通義千問(wèn)官方未明確本地化部署Qwen2.5-VL-32B-Instruct模型的硬件最低配置,但基于32B參數(shù)規(guī)模推測(cè),需較高內(nèi)存(建議至少32GB以上)及支持大規(guī)模計(jì)算的GPU芯片。綜合數(shù)據(jù)量、樣本數(shù)量、并發(fā)量和吞吐量的核心關(guān)鍵要素,本次本地化部署選取硅基流動(dòng)一體機(jī),完成鐵路AI視頻分析場(chǎng)景Qwen2.5-VL-32模型能力測(cè)試驗(yàn)證。實(shí)驗(yàn)室模型能力測(cè)試驗(yàn)證信息統(tǒng)計(jì)如下表所示[5]:

1933410648224329729.png

模型能力測(cè)試驗(yàn)證結(jié)論:

(1)本次實(shí)驗(yàn)室模型能力測(cè)試驗(yàn)證,基于本地化部署的Qwen2.5-VL-32B大模型,共計(jì)測(cè)試驗(yàn)證鐵路AI視頻分析場(chǎng)景16個(gè)。

(2)在接觸網(wǎng)異物、煙火識(shí)別、室內(nèi)打電話/玩手機(jī)、室外打電話/玩手機(jī)、睡覺(jué)判斷、塌陷檢測(cè)、防護(hù)網(wǎng)開(kāi)口、鐵路入侵異物檢測(cè)這8個(gè)場(chǎng)景中,Qwen2.5-VL-32B多模態(tài)大模型的正檢率均超過(guò)70%。但是在另外8個(gè)場(chǎng)景中,Qwen2.5-VL-32B多模態(tài)大模型存在較多漏檢、誤檢以及思考過(guò)程與輸出結(jié)果不相符的情況。

(3)原始的Qwen2.5-VL-32B多模態(tài)大模型不適合直接用于有數(shù)據(jù)量基礎(chǔ)的檢測(cè)場(chǎng)景。在鐵路行業(yè)有數(shù)據(jù)基礎(chǔ)的場(chǎng)景中,基于有監(jiān)督訓(xùn)練小模型的檢出能力比多模態(tài)大模型強(qiáng)。在沒(méi)有數(shù)據(jù)基礎(chǔ)的場(chǎng)景中,可以基于多模態(tài)大模型進(jìn)行初步分析,后基于過(guò)濾策略及復(fù)核策略進(jìn)行輸出結(jié)果的篩選。

(4)在鐵路行業(yè)AI視頻分析場(chǎng)景下,可以嘗試基于多模態(tài)大模型進(jìn)行微調(diào)和重新訓(xùn)練,使其更好地適應(yīng)鐵路場(chǎng)景的需求。


參考文獻(xiàn):

[1] https://qianfan.cloud.baidu.com/qianfandev/topic/374006

[2] https://arxiv.org/pdf/2308.01825

[3] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[4] https://arxiv.org/abs/2502.13923

[5] 人工智能視覺(jué)大模型在鐵路線路異物入侵場(chǎng)景中的應(yīng)用