

Al項(xiàng)目
AI工具集介紹和收錄了當(dāng)前流行的AI研究項(xiàng)目和框架,緊跟最新AI領(lǐng)域的進(jìn)展,解讀AI研究論文和方法框架,幫你快速了解這些項(xiàng)目的工作原理。
38℃Real-IAD 大規(guī)模工業(yè)異常檢測(cè)數(shù)據(jù)集
本文介紹了騰訊優(yōu)圖發(fā)布的 Real-IAD 大規(guī)模工業(yè)異常檢測(cè)數(shù)據(jù)集。闡述了該數(shù)據(jù)集規(guī)模龐大,具有豐富的多樣性、全面的異常類型覆蓋、高精度和真實(shí)性等特點(diǎn),涵蓋了 30 類真實(shí)產(chǎn)線物料、150K 數(shù)據(jù)等。還提到了騰訊優(yōu)圖在深
35℃半導(dǎo)體行業(yè)專用 LLM 模型:Semikong
Semikong 是專為半導(dǎo)體行業(yè)打造的大型語(yǔ)言模型,它具備深度的行業(yè)知識(shí),能精準(zhǔn)預(yù)測(cè)技術(shù)趨勢(shì),高效解決相關(guān)問題。其應(yīng)用涵蓋芯片設(shè)計(jì)優(yōu)化、生產(chǎn)流程改進(jìn)、市場(chǎng)趨勢(shì)分析等領(lǐng)域。工作原理基于自然語(yǔ)言處理和深度學(xué)習(xí)技術(shù),通過
16℃Fireworks AI 復(fù)合式AI模型F1:智能科技全解析
Fireworks AI 復(fù)合式 AI 模型 F1 引領(lǐng)智能潮流。它具創(chuàng)新復(fù)合架構(gòu),多模態(tài)數(shù)據(jù)處理能力強(qiáng),可精準(zhǔn)解析文本、圖像、音頻等。在多領(lǐng)域應(yīng)用廣泛,能輔助創(chuàng)作、服務(wù)、診斷、分析等。優(yōu)勢(shì)突出,高精度且自適應(yīng)學(xué)習(xí),推動(dòng)各行業(yè)智能
67℃《百度 "秒噠"—— 開啟無(wú)代碼編程新時(shí)代》
“秒噠” 是百度在 2024 年 11 月 12 日百度世界大會(huì)上推出的一款創(chuàng)新無(wú)代碼工具135。它是由大模型和智能體組成的軟件,旨在讓非程序員群體也能夠輕松開發(fā)應(yīng)用程序,無(wú)需懂代碼和寫代碼,僅通過一句話就能生成軟件應(yīng)用。
86℃百度檢索增強(qiáng)的文生圖技術(shù)(iRAG)
百度檢索增強(qiáng)的文生圖技術(shù)(iRAG)是百度在 2024 年 11 月 12 日百度世界大會(huì)上推出的一項(xiàng)創(chuàng)新技術(shù)126。它將百度搜索的億級(jí)圖片資源與強(qiáng)大的基礎(chǔ)模型能力相結(jié)合,旨在解決大模型在圖片生成上的 “幻覺問題”,生成各種超真實(shí)
57℃字節(jié)跳動(dòng)圖像編輯模型 SeedEdit:革新圖像編輯的智能之選
SeedEdit 是字節(jié)跳動(dòng)研發(fā)的一款通用圖像編輯模型。它于 2024 年 11 月 11 日由字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)推出,旨在為用戶提供一種全新的、智能化的圖像編輯體驗(yàn)
74℃LM Studio – 開源、傻瓜、一站式部署本地大模型 (LLM) 的應(yīng)用平臺(tái)
LM Studio是什么LM Studio 是一個(gè)本地大語(yǔ)言模型 (LLM) 應(yīng)用平臺(tái),開源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等,LM Studio 提供了一個(gè)圖形用戶界面(GUI),即使是非技術(shù)人員...
27℃edge-tts – 開源的AI文字轉(zhuǎn)語(yǔ)音項(xiàng)目
edge-tts是什么edge-tts是開源的AI文字轉(zhuǎn)語(yǔ)音項(xiàng)目,支持超過40種語(yǔ)言和300多種聲音。edge-tts利用微軟Azure Cognitive Services的強(qiáng)大功能,能將文本信息轉(zhuǎn)換成流暢自然的語(yǔ)音輸出。edge-tt...
28℃LLaVA-OneVision – 字節(jié)跳動(dòng)推出的開源多模態(tài)AI模型
LLaVA-OneVision是什么LLaVA-OneVision是字節(jié)跳動(dòng)推出開源的多模態(tài)AI模型,LLaVA-OneVision通過整合數(shù)據(jù)、模型和視覺表示的見解,能同時(shí)處理單圖像、多圖像和視頻場(chǎng)景下的計(jì)算機(jī)視覺任務(wù)。LLaVA-On...
21℃MUMU – 文本和圖像驅(qū)動(dòng)的多模態(tài)生成模型
MUMU是什么MUMU是一種多模態(tài)圖像生成模型,通過結(jié)合文本提示和參考圖像來生成目標(biāo)圖像,從而提高生成的準(zhǔn)確率和質(zhì)量。MUMU模型的架構(gòu)基于SDXL的預(yù)訓(xùn)練卷積UNet,采用了視覺語(yǔ)言模型Idefics2的隱藏狀態(tài)構(gòu)建。模型在訓(xùn)練時(shí)使
26℃Video-LLaVA2 – ChatLaw推出的開源多模態(tài)智能理解系統(tǒng)
Video-LLaVA2是什么Video-LLaVA2是由北京大學(xué)ChatLaw課題組推出的開源多模態(tài)智能理解系統(tǒng),通過創(chuàng)新的時(shí)空卷積(STC)連接器和音頻分支,提升了視頻和音頻理解能力。模型在視頻問答和字幕生成等多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,...
27℃HMoE – 騰訊混元團(tuán)隊(duì)提出的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)
HMoE是什么HMoE(混合異構(gòu)專家模型)是騰訊混元團(tuán)隊(duì)提出的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在提升大型語(yǔ)言模型的性能和計(jì)算效率。通過引入不同尺寸的專家來處理不同復(fù)雜性的輸入數(shù)據(jù),從而增強(qiáng)模型的專業(yè)化程度。HMoE采用新的訓(xùn)練目標(biāo)和
26℃LitServe – 基于FastAPI的高性能AI模型部署引擎
LitServe是什么LitServe是基于FastAPI的高性能AI模型部署引擎,專為企業(yè)級(jí)AI服務(wù)設(shè)計(jì)。支持批處理、流式處理和GPU自動(dòng)擴(kuò)展,簡(jiǎn)化了模型部署流程。LitServe易于安裝和使用,通過pip即可安裝,提供靈活的API定義...
16℃CustomCrafter – 騰訊聯(lián)合浙大推出的自定義視頻生成框架
CustomCrafter是什么CustomCrafter 是騰訊和浙江大學(xué)聯(lián)合提出的自定義視頻生成框架,能基于文本提示和參考圖像生成高質(zhì)量的個(gè)性化視頻,同時(shí)保留了運(yùn)動(dòng)生成和概念組合的能力。CustomCrafter通過設(shè)計(jì)一系列靈活的模...
22℃LeRobot – HuggingFace推出的開源AI聊天機(jī)器人項(xiàng)目
LeRobot是什么LeRobot是由HuggingFace推出的開源AI聊天機(jī)器人項(xiàng)目,由前特斯拉研究員Remi Cadene領(lǐng)導(dǎo)開發(fā)。LeRobot致力于降低機(jī)器人技術(shù)的入門門檻,提供預(yù)訓(xùn)練模型、數(shù)據(jù)集和模擬環(huán)境,支持模仿學(xué)習(xí)和強(qiáng)化學(xué)...
22℃LongVILA – 面向長(zhǎng)視頻理解的視覺語(yǔ)言AI模型
LongVILA是什么LongVILA是一個(gè)面向長(zhǎng)視頻理解的視覺語(yǔ)言AI模型,由英偉達(dá)、MIT、UC 伯克利、得克薩斯大學(xué)奧斯汀分校共同開發(fā)。通過算法和系統(tǒng)的共同設(shè)計(jì),實(shí)現(xiàn)了在大量GPU上進(jìn)行超長(zhǎng)上下文長(zhǎng)度訓(xùn)練的能力,無(wú)需梯度檢查點(diǎn)
20℃EasyOCR – 支持超80種語(yǔ)言的開源OCR項(xiàng)目
EasyOCR是什么EasyOCR 是一個(gè)功能強(qiáng)大的開源OCR(光學(xué)字符識(shí)別)項(xiàng)目,支持80多種語(yǔ)言和多種書寫系統(tǒng),包括中文、阿拉伯文和西里爾文。基于深度學(xué)習(xí)技術(shù),提供高精度的文字識(shí)別能力。用戶可以通過簡(jiǎn)單的API輕松地將圖像中的文
33℃OmniCorpus – 百億級(jí)多模態(tài)數(shù)據(jù)集,支持中英雙語(yǔ)
OmniCorpus是什么OmniCorpus是一個(gè)大規(guī)模多模態(tài)數(shù)據(jù)集,包含86億張圖像和16960億個(gè)文本標(biāo)記,支持中英雙語(yǔ)。由上海人工智能實(shí)驗(yàn)室聯(lián)合多所知名高校及研究機(jī)構(gòu)共同構(gòu)建。OmniCorpus通過整合來自網(wǎng)站和視頻平臺(tái)的文本和...
24℃LTM-2-mini – Magic公司推出的支持1億token上下文AI模型
LTM-2-mini是什么LTM-2-mini是Magic公司推出的支持1億token上下文AI模型,能處理相當(dāng)于1000萬(wàn)行代碼或750本小說的內(nèi)容。LTM-2-mini采用序列維度算法,計(jì)算效率比Llama 3.1 405B的注意力機(jī)...
42℃STranslate – 多功能免費(fèi)AI翻譯工具,支持離線OCR識(shí)別
STranslate是什么STranslate是專為Windows用戶設(shè)計(jì)的多功能翻譯和OCR工具。支持多種語(yǔ)言翻譯,具備劃詞、截圖、監(jiān)聽剪貼板等多種翻譯方式,并提供多家翻譯服務(wù)接口。還擁有基于PaddleOCR的離線OCR功能,支持中文...
24℃GPTEngineer – 文本驅(qū)動(dòng)生成Web網(wǎng)頁(yè)的開源工具,AI自動(dòng)寫代碼
GPTEngineer是什么GPTEngineer 是一個(gè)基于 AI 技術(shù)通過簡(jiǎn)單的文本提示快速生成網(wǎng)頁(yè)應(yīng)用原型的開源工具。用戶只需描述需求,AI 能自動(dòng)編寫并執(zhí)行代碼,支持與 GitHub 同步和一鍵部署。GPTEngineer底層使用...
33℃VectorVein – 開源的無(wú)代碼AI工作流工具,簡(jiǎn)單拖拽定制AI應(yīng)用
VectorVein是什么VectorVein 是一款開源的無(wú)代碼AI工作流工具,通過簡(jiǎn)化的拖拽操作,讓用戶無(wú)需編程知識(shí)即可構(gòu)建智能工作流,實(shí)現(xiàn)日常任務(wù)的自動(dòng)化。VectorVein支持?jǐn)?shù)據(jù)處理、分析和知識(shí)管理等多種應(yīng)用場(chǎng)景,具備無(wú)代碼、...
27℃OpenCity – AI交通預(yù)測(cè)模型,卓越的零樣本預(yù)測(cè)和情境適應(yīng)能力
OpenCity是什么OpenCity是由香港大學(xué)聯(lián)合華南理工大學(xué)和百度共同研發(fā)的交通預(yù)測(cè)模型。OpenCity采用Transformer架構(gòu)和圖神經(jīng)網(wǎng)絡(luò),通過大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)交通數(shù)據(jù)的時(shí)空依賴關(guān)系,具備卓越的零樣本預(yù)測(cè)能力和快速情境適應(yīng).
27℃PGTFormer – 先進(jìn)的AI視頻人臉修復(fù)框架
PGTFormer是什么PGTFormer是先進(jìn)的視頻人臉修復(fù)框架,通過解析引導(dǎo)的時(shí)間一致性變換器來恢復(fù)視頻中的高保真細(xì)節(jié),同時(shí)增強(qiáng)時(shí)間連貫性。該方法無(wú)需預(yù)對(duì)齊,基于語(yǔ)義解析選擇最佳人臉先驗(yàn),并通過時(shí)空Transformer模塊和時(shí)序保
27℃Eagle – 英偉達(dá)推出的多模態(tài)大模型,擅長(zhǎng)高分辨率圖像處理
Eagle是什么Eagle是英偉達(dá)推出的多模態(tài)大模型,擅長(zhǎng)處理高達(dá)1024×1024像素的圖像,顯著提升視覺問答和文檔理解能力。Eagle模型采用多專家視覺編碼器架構(gòu),通過簡(jiǎn)單高效的特征融合策略,實(shí)現(xiàn)對(duì)圖像內(nèi)容的深入理解。Eagle模型