Step Reasoner mini:階躍星辰的 AI 推理新星
一、模型發(fā)布
階躍星辰于 2025 年 1 月 16 日重磅推出其自主研發(fā)的推理模型 Step Reasoner mini(簡稱 Step R - mini)。此模型作為 Step 系列模型家族的先鋒,具備獨一無二且出類拔萃的能力。
二、模型能力
-
擅長邏輯處理與規(guī)劃反思
-
此模型善于主動規(guī)劃、嘗試以及反思。不論是應對數(shù)學問題、邏輯推理難題,還是進行文學創(chuàng)作任務,都會依據(jù)任務需求率先制定規(guī)劃。當存在多種解題途徑或創(chuàng)作方案時,它會積極嘗試不同選擇。在這一過程中,通過模擬人類的慢思考過程,并借助反復驗證的機制,對每一步驟或結果進行多次校驗,例如反復檢查答案或者優(yōu)化創(chuàng)作內(nèi)容等,從而為用戶呈上精準可靠的回復。
-
-
文理兼修能力突出
-
理科能力:在數(shù)學和代碼領域表現(xiàn)卓越。于 AIME(美國數(shù)學邀請賽)和 Math 等數(shù)學基準測試中,成績超越了 o1 - preview,與 OpenAI 的 o1 - mini 旗鼓相當,足見其解決復雜數(shù)學問題的強大能力。在 LiveCodeBench 代碼任務方面,同樣優(yōu)于 o1 - preview,這表明它在代碼編寫、解決代碼邏輯或者算法任務時的出色表現(xiàn)。在實際應用場景中,諸如處理 LeetCode 技術平臺上難度評級為 Hard 的算法題能夠正確解答,并且能夠應對復雜開發(fā)需求,通過逐步剖析用戶需求和意圖,構建正確的代碼邏輯等 。
-
文科能力:在文學創(chuàng)作等通用領域亦有上佳表現(xiàn)。它能夠承接文學創(chuàng)作任務,深度領會用戶的表達需求,從創(chuàng)作主題、文學體裁等方面展開全方位的思考。比如在創(chuàng)作過程中斟酌創(chuàng)作角度、描繪的景物、修辭手法、內(nèi)容結構,賦予事物人類情感層面的象征意義,并增添個性化的、創(chuàng)新的表達風格,展現(xiàn)出在文科領域的創(chuàng)作能力與理解能力。同時在日常聊天任務中,也能出色地理解用戶意思并給予合理反饋,將文理能力完美融合 。
-
三、模型特點
-
獨特的邏輯機制與優(yōu)秀的測試表現(xiàn)
-
基于慢思考和反復驗證的邏輯機制:Step Reasoner mini 的顯著特色之一便是擅長主動規(guī)劃、嘗試和反思。在處理各類任務時,例如數(shù)學題或者邏輯推理題,它采用類似于人類的慢思考模式。比如在解答邏輯推理任務時,會自主進行多種解題思路的嘗試,這是主動規(guī)劃和嘗試多種可能性的體現(xiàn)。在得出初步答案后,會自我反問是否存在其他可能性,確保枚舉出所有效果良好的解決方案并檢查有無遺漏,這就是反復驗證的過程。這種機制能夠讓模型在復雜任務中提供更準確、全面的答案 。
-
在基準測試中成績優(yōu)異:在眾多基準測試里彰顯出強大實力。在 AIME 和 Math 等數(shù)學基準測試上,成績超過了 o1 - preview 并且達到了與 OpenAI 的 o1 - mini 并駕齊驅的水準。在 LiveCodeBench 代碼任務方面的效果也勝過 o1 - preview。例如,在實際解答數(shù)學問題的場景中,當遭遇奧數(shù)難題時,能夠像專業(yè)數(shù)學家一樣構建合理的推理鏈,實現(xiàn)從復雜數(shù)學問題的規(guī)劃到逐步求解的過程,并且會枚舉不同的解法方案交叉驗證;在處理幾何題目時,甚至能主動通過畫草圖這種方式構建深度思考的內(nèi)容介質,顯示出其邏輯解釋性和深度思考能力 。
-
-
文理均衡發(fā)展的能力架構
-
大規(guī)模強化學習訓練與文理兼修的能力:通過大規(guī)模的強化學習訓練,并運用同策略強化學習算法 On - Policy 達成了文理兼修的獨特成效。在眾多推理模型中,隨著訓練參數(shù)規(guī)模增加,往往會出現(xiàn)文科能力提升則理工科能力下滑這種不平衡的現(xiàn)象,但 Step Reasoner mini 成功克服了這一難題。其既能精確解答數(shù)學、代碼、邏輯推理等理工科性質的問題,又能富有創(chuàng)意地完成文學內(nèi)容創(chuàng)作、日常聊天等文科類的任務。比如創(chuàng)作類任務時,能夠深入理解用戶對于創(chuàng)作主題、文學題材的要求后,進行深度創(chuàng)作思考,元素涉及創(chuàng)作角度、描繪的景物、修辭手法、內(nèi)容結構等多個文學創(chuàng)作要素的思考,還能賦予事物情感象征意義、個性化表達及創(chuàng)新風格等 。
-
四、模型應用場景
-
學術與專業(yè)領域
-
數(shù)學與邏輯推理問題求解:
-
在學術學習方面,學生或者研究人員在面對數(shù)學難題時,例如數(shù)學競賽中的復雜題目,像 AIME(美國數(shù)學邀請賽)中的題目類型等,Step Reasoner mini 能夠構建合理的推理鏈進行求解。在處理邏輯推理問題時,無論涉及的是邏輯關系復雜的數(shù)學邏輯題,還是需要推理人物關系、事件先后順序等普通邏輯推理類型的題目,它都能運用其擅長主動探索多種解題思路的能力,對問題進行仔細分析,得出較為準確的結論。例如,對于一些需要高邏輯性的學科作業(yè)或者研究課題的邏輯部分,它可以輔助快速提供解決方案 。
-
在專業(yè)領域 ,如代碼開發(fā)方面,開發(fā)者遇到 LeetCode 技術平臺上難度評級為 Hard 的算法題或者需要處理復雜開發(fā)需求時,它能夠逐步分析用戶需求和意圖,構建正確的代碼邏輯,像是在復雜的算法設計、軟件架構邏輯分析等場景下提供有價值的參考建議或者直接給出可行的代碼解決方案。這對于編寫高效、復雜的代碼功能邏輯模塊十分有用。
-
-
-
文學創(chuàng)作與日常交流互動
-
文學創(chuàng)作的輔助與創(chuàng)意生成:
-
在文學創(chuàng)作方面,對于需要創(chuàng)作不同文學題材的寫作者,無論是詩歌、散文、故事創(chuàng)作等,它都能夠深入理解創(chuàng)作者對于主題、文學題材的要求。例如根據(jù)用戶要求創(chuàng)作一首抒情詩,模型可以思考創(chuàng)作角度,如從個人情感的細膩之處入手,描繪景物來烘托情感,再選擇合適的修辭手法像比喻、擬人等來豐富詩歌內(nèi)涵,構建合理的內(nèi)容結構,并且能夠賦予事物人類情感層面的象征意義,比如將月亮象征團圓等情感意義。還可以增加個性化的、創(chuàng)新的表達風格,讓文學作品在傳統(tǒng)優(yōu)秀創(chuàng)作模式基礎上加入新鮮元素,促進文學創(chuàng)作活動。
-
在日常聊天對話場景中,它能夠很好地理解用戶的提問、陳述內(nèi)容并給予合適回復。無論是進行日常文化知識交流、分享觀點等場景下,都能像與朋友聊天一般自然地互動并提供有趣有深度的回應。可以與用戶共同探討一部小說的情節(jié)解讀,電影的藝術表現(xiàn)形式等,提供豐富的想法和觀點交流。
-
-
五、模型比較
-
綜合能力對比
-
性能超越部分模型:在數(shù)學基準測試(AIME 和 Math)上,Step Reasoner mini 的成績已然超越了 o1 - preview。在代碼任務測試(LiveCodeBench)上,同樣比 o1 - preview 效果更優(yōu)。這清晰地展現(xiàn)出在數(shù)學與代碼的處理能力方面,相較于 o1 - preview 有著顯著的優(yōu)勢 。
-
與優(yōu)秀模型表現(xiàn)持平:與 OpenAI 的 o1 - mini 相較,在 AIME 和 Math 等數(shù)學基準測試中成績相當,說明在處理數(shù)學問題的能力方面已經(jīng)達到了和 o1 - mini 類似的水平,在智慧、邏輯推理能力的某些衡量標準下,具備和 o1 - mini 競爭的實力。
-
-
文理能力均衡性對比
-
在文理兼修方面的優(yōu)越性:大多數(shù)推理模型,隨著訓練參數(shù)規(guī)模增加時很難兼顧文理科兩個方向的能力。它們往往在文科能力提升的時候,會損失理工科能力的確定性。而 Step Reasoner mini 通過特定的大規(guī)模強化學習訓練和 On - Policy(同策略)強化學習算法成功實現(xiàn)了文理兼修。例如,既能夠解答邏輯推理、代碼、數(shù)學等理工科領域的專業(yè)問題,同時又可以充滿創(chuàng)意地完成文學創(chuàng)作、日常交流聊天等文科性質的任務,這在文理能力平衡方面較其他多數(shù)模型具有很大優(yōu)勢,適用性更廣,不會出現(xiàn)只是文科或只是理科能力突出而在其他方面短板明顯的情況。
-
六、使用方法
-
訪問平臺及初步操作
-
平臺入口:據(jù)當前消息,Step Reasoner mini 已在躍問網(wǎng)頁端全量開放,用戶可通過此網(wǎng)頁端進行訪問 。不過目前尚未有更多關于是否有手機端應用等其他訪問方式的消息披露。
-
基本交互方式:訪問網(wǎng)頁端平臺后進入交互界面。如同其他語言模型交互場景,用戶可以以文字形式輸入自己的問題或者需求。例如用戶想要它解決一道數(shù)學難題或者創(chuàng)作一首詩歌,只要清晰地以文字表達出具體需求內(nèi)容即可,模型就會依據(jù)所輸入的內(nèi)容進行處理。
-
-
根據(jù)任務類型的輸入要點
-
解答專業(yè)問題時的輸入:
-
在需要解答數(shù)學或者邏輯推理等專業(yè)問題時,為了模型能夠準確提供有效解答,最好盡可能將題目或問題陳述清楚。比如對于數(shù)學題,不僅要輸入題意內(nèi)容,還需要明確已知條件、所求結果等內(nèi)容信息。例如在輸入一個幾何題時,要準確表述圖形的形狀特征、已知邊長或者角度等詳細信息;對于邏輯推理題要把人物關系、事件先后順序等已知邏輯元素完整表達。
-
在代碼開發(fā)需求方面,如果需要要求模型構建一段代碼,要說明需求的功能,例如是實現(xiàn)對文件的排序功能、網(wǎng)絡數(shù)據(jù)交互功能等,還有輸入輸出要求等編程元件相關的基本信息。
-
-
獲取文學創(chuàng)作與日常聊天時的輸入:
-
在文學創(chuàng)作請求時,需要明確創(chuàng)作的主題方向、文學體裁要求。例如,如果希望得到一篇關于愛情的散文,就要輸入明確的 “愛情” 主題和 “散文” 這種體裁。若想讓創(chuàng)作內(nèi)容有更多的特殊要求,如特定的情感氛圍、修辭手法、結構形式等,也可以盡可能詳細地在輸入內(nèi)容中表述出來。
-
在日常聊天場景下,自然地輸入想要交流的內(nèi)容就可以,例如表達觀點、分享日常經(jīng)歷或者提出感興趣的話題等,模型就會根據(jù)輸入的聊天內(nèi)容進行相應的回應。
-
-