Migician – 北交大聯(lián)合清華、華中科大推出的多模態(tài)視覺(jué)定位模型

AI百科 2025-02-24 11:53:46 奇想AI導(dǎo)航網(wǎng)

什么是Migician？

Migician是由北京交通大學(xué)、華中科技大學(xué)和清華大學(xué)聯(lián)合推出的一款多模態(tài)大語(yǔ)言模型（MLLM），專(zhuān)注于自由形式的多圖像定位（Multi-Image Grounding, MIG）任務(wù)。該模型基于大規(guī)模指令調(diào)優(yōu)數(shù)據(jù)集MGrounding-630k進(jìn)行訓(xùn)練，采用兩階段訓(xùn)練方法，結(jié)合多圖像理解和單圖像定位能力，實(shí)現(xiàn)了端到端的多圖像定位功能。Migician的設(shè)計(jì)和訓(xùn)練方法為多模態(tài)模型在復(fù)雜視覺(jué)場(chǎng)景中的應(yīng)用提供了新的思路，推動(dòng)了多圖像理解與細(xì)粒度視覺(jué)定位的融合。

Migician的主要功能

跨圖像定位

Migician能夠在多幅圖像中找到與查詢(xún)相關(guān)的對(duì)象或區(qū)域，并提供精確的位置信息，如坐標(biāo)框。這種跨圖像定位能力使得Migician在需要多視角感知和動(dòng)態(tài)目標(biāo)跟蹤的場(chǎng)景中表現(xiàn)尤為出色。

靈活的輸入形式

Migician支持多種靈活的輸入形式，包括文本描述、圖像或兩者的組合。例如，用戶(hù)可以輸入“在圖2中找到與圖1相似的物體，但顏色不同”，Migician將根據(jù)這一查詢(xún)?cè)诙喾鶊D像中進(jìn)行定位。

多任務(wù)支持

Migician能夠處理多種與多圖像相關(guān)的任務(wù)，如對(duì)象跟蹤、差異識(shí)別、共同對(duì)象定位等。這種多任務(wù)支持能力使得Migician在復(fù)雜視覺(jué)場(chǎng)景中的應(yīng)用更加廣泛。

高效推理

基于端到端的模型設(shè)計(jì)，Migician能夠直接在多圖像場(chǎng)景中進(jìn)行推理，避免了傳統(tǒng)方法中多步推理和錯(cuò)誤傳播的問(wèn)題，從而實(shí)現(xiàn)了高效推理。

Migician的技術(shù)原理

端到端的多圖像定位框架

Migician采用端到端的模型架構(gòu)，直接處理多圖像定位任務(wù)，避免了傳統(tǒng)方法中將任務(wù)分解為多個(gè)子任務(wù)的復(fù)雜性和效率問(wèn)題。同時(shí)，Migician能夠理解多幅圖像的內(nèi)容，并根據(jù)查詢(xún)直接輸出目標(biāo)對(duì)象的位置。

大規(guī)模指令調(diào)優(yōu)數(shù)據(jù)集（MGrounding-630k）

MGrounding-630k是一個(gè)包含超過(guò)63萬(wàn)條多圖像定位任務(wù)的數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了多種任務(wù)類(lèi)型，如靜態(tài)差異定位、共同對(duì)象定位、對(duì)象跟蹤等，并結(jié)合自由形式的指令，使模型能夠?qū)W習(xí)到多樣化的定位能力。

兩階段訓(xùn)練方法

Migician的訓(xùn)練分為兩個(gè)階段：

第一階段：模型在多種多圖像任務(wù)上進(jìn)行訓(xùn)練，學(xué)習(xí)基本的多圖像理解和定位能力。
第二階段：基于自由形式的指令調(diào)優(yōu)，提升模型在復(fù)雜查詢(xún)下的定位能力，保持對(duì)多樣化任務(wù)的適應(yīng)性。

多模態(tài)融合與推理

Migician結(jié)合視覺(jué)和語(yǔ)言模態(tài)的信息，基于多模態(tài)融合實(shí)現(xiàn)對(duì)復(fù)雜查詢(xún)的理解和定位。這種融合處理抽象的視覺(jué)語(yǔ)義信息，例如通過(guò)對(duì)比、相似性或功能關(guān)聯(lián)定位目標(biāo)對(duì)象。

模型合并技術(shù)

Migician采用模型合并技術(shù)，將不同訓(xùn)練階段的權(quán)重進(jìn)行平均，優(yōu)化整體性能。

Migician的項(xiàng)目地址

項(xiàng)目官網(wǎng)：Migician官網(wǎng)
GitHub倉(cāng)庫(kù)：Migician GitHub
HuggingFace模型庫(kù)：Migician HuggingFace
arXiv技術(shù)論文：Migician技術(shù)論文

Migician的應(yīng)用場(chǎng)景

自動(dòng)駕駛

Migician能夠快速定位車(chē)輛周?chē)男腥恕⒄系K物等目標(biāo)，支持多視角感知和動(dòng)態(tài)目標(biāo)跟蹤，提升自動(dòng)駕駛的安全性和效率。

安防監(jiān)控

Migician能夠?qū)崿F(xiàn)多攝像頭聯(lián)動(dòng)識(shí)別異常行為或目標(biāo)，分析人群聚集、快速移動(dòng)等異常情況，提升安防監(jiān)控的智能化水平。

機(jī)器人交互

Migician能夠精準(zhǔn)定位目標(biāo)物體，支持機(jī)器人在復(fù)雜環(huán)境中完成抓取、導(dǎo)航等任務(wù)，推動(dòng)機(jī)器人技術(shù)的發(fā)展。

圖像編輯

Migician能夠分析多幅圖像內(nèi)容，實(shí)現(xiàn)對(duì)象替換、刪除或創(chuàng)意內(nèi)容生成，為圖像編輯提供強(qiáng)大的技術(shù)支持。

醫(yī)療影像

Migician能夠融合多模態(tài)影像，快速定位病變區(qū)域或異常組織，支持動(dòng)態(tài)監(jiān)測(cè)，為醫(yī)療影像分析提供新的思路。

總結(jié)

Migician作為一款多模態(tài)視覺(jué)定位模型，憑借其強(qiáng)大的跨圖像定位能力、靈活的輸入形式、多任務(wù)支持和高效推理，正在推動(dòng)多圖像理解與細(xì)粒度視覺(jué)定位的融合。其在自動(dòng)駕駛、安防監(jiān)控、機(jī)器人交互、圖像編輯和醫(yī)療影像等領(lǐng)域的廣泛應(yīng)用，展現(xiàn)了其巨大的潛力和價(jià)值。