自2022年11月起,GPT等模型的引入及其迅猛發(fā)展極大地提升了機(jī)器人在語(yǔ)言智能和復(fù)雜推理能力方面的表現(xiàn)。尤為顯著的是多模態(tài)模型,特別是視覺(jué)語(yǔ)言模型,為人形機(jī)器人在理解開(kāi)放式場(chǎng)景和執(zhí)行復(fù)雜認(rèn)知任務(wù)上帶來(lái)了突破性的進(jìn)展,未來(lái)10到15年間,預(yù)計(jì)機(jī)器人在知識(shí)密度和運(yùn)算智能上將可能超越人類水平。然而,在抽象演繹和聯(lián)想創(chuàng)造新知識(shí)方面,人類依然保持著無(wú)可比擬的優(yōu)勢(shì)。
在這些變革的推動(dòng)下,機(jī)器人被定位為人類的輔助工具而非替代者,特別是在處理重復(fù)性和危險(xiǎn)性任務(wù)時(shí)展現(xiàn)出巨大價(jià)值。另外,這也有望催生新的職業(yè)角色,例如機(jī)器人技能訓(xùn)練師。
2025年3月13日,在第三屆具身智能機(jī)器人產(chǎn)業(yè)發(fā)展論壇上,聆動(dòng)通用創(chuàng)始人兼CEO,原科大訊飛機(jī)器人首席科學(xué)家季超認(rèn)為,在機(jī)器人技能訓(xùn)練的過(guò)程中,數(shù)據(jù)采集和仿真扮演著核心角色,盡管真實(shí)數(shù)據(jù)的價(jià)值更高,但其采集成本也相對(duì)較高。為了克服這一挑戰(zhàn),可以依托通用預(yù)訓(xùn)練模型,針對(duì)垂直領(lǐng)域和客戶特定需求進(jìn)行定制化訓(xùn)練,從而構(gòu)建出適用于不同行業(yè)的強(qiáng)大模型。展望未來(lái),具身機(jī)器人有望像智能手機(jī)那樣重塑商業(yè)格局,引領(lǐng)從功能型機(jī)器人時(shí)代步入智能機(jī)器人時(shí)代。
聆動(dòng)通用創(chuàng)始人兼CEO
以下為演講內(nèi)容整理:
近年來(lái),人形機(jī)器人的火爆以及當(dāng)下具身通用機(jī)器人的發(fā)展浪潮,其底層邏輯源自大語(yǔ)言模型的突破。正是這一突破,使得機(jī)器人能夠理解開(kāi)放式場(chǎng)景中的問(wèn)題,充分展現(xiàn)出認(rèn)知大模型所帶來(lái)的智能涌現(xiàn)的重要意義。
2022 年 11 月,ChatGPT進(jìn)入國(guó)內(nèi),讓人們切實(shí)感受到機(jī)器語(yǔ)言智能的涌現(xiàn),標(biāo)志著機(jī)器智能邁入了一個(gè)全新的時(shí)代。數(shù)月之后,GPT-4迅速進(jìn)化,在復(fù)雜認(rèn)知任務(wù)、復(fù)雜推理任務(wù)以及多模態(tài)任務(wù)處理能力等方面,實(shí)現(xiàn)了智能化水平的顯著提升。這一點(diǎn)與機(jī)器人的視覺(jué)語(yǔ)言模型,乃至后續(xù)的視覺(jué)語(yǔ)言動(dòng)作模型高度契合。以GPT為例,其在多模態(tài)復(fù)雜場(chǎng)景的語(yǔ)義理解,以及超越人類智能的推理能力等方面表現(xiàn)卓越,這使機(jī)器人在特定專業(yè)領(lǐng)域具備了超越人類智慧的潛在可能性。當(dāng)將這種可能性與機(jī)器人的運(yùn)動(dòng)控制執(zhí)行、環(huán)境主動(dòng)感知以及行為決策進(jìn)行分層串聯(lián)后,在我們之前提及的具身工業(yè)、具身制造,甚至未來(lái)的具身家庭等領(lǐng)域,均創(chuàng)造了無(wú)限的發(fā)展可能。
在國(guó)內(nèi),我們的團(tuán)隊(duì)一直處于密切關(guān)注大模型發(fā)展的前沿位置。以O(shè)penAI為代表的文生文、文生圖、文生視頻類大模型,幾乎以季度為周期進(jìn)行更新迭代。當(dāng)前,多模態(tài)基座大模型的能力上限不斷提升。近年來(lái),關(guān)于大語(yǔ)言模型乃至多模態(tài)大模型的scaling law是否已達(dá)上限,以及未來(lái)scaling law是否會(huì)失效等問(wèn)題引發(fā)廣泛探討。
從我們的研究視角來(lái)看,大模型尤其是大模型基座的scaling law天花板正持續(xù)被突破。例如,OpenAI的o1在處理博士級(jí)別的專業(yè)復(fù)雜認(rèn)知任務(wù)方面,已顯著超越人類水平。今年備受矚目的DeepSeek,在技術(shù)架構(gòu)革新、訓(xùn)練方法創(chuàng)新以及工程優(yōu)化創(chuàng)新等方面開(kāi)展了大量卓有成效的工作。
回顧完過(guò)去幾年大模型的發(fā)展,我們最終聚焦的核心問(wèn)題是:在未來(lái),當(dāng)機(jī)器人走進(jìn)千行百業(yè)與千家萬(wàn)戶時(shí),其與人類將構(gòu)建何種關(guān)系?
從大腦層面的能力而言,生成式大模型能否無(wú)限趨近人類?研究結(jié)論顯示,在知識(shí)儲(chǔ)備方面,生成式大模型已達(dá)到相當(dāng)高的水平,其知識(shí)密度可與211、985高校的大學(xué)生甚至博士生相媲美,在運(yùn)算智能及知識(shí)密度維度上,顯著超越人類。就行業(yè)內(nèi)的普遍認(rèn)知而言,在未來(lái)10至15年內(nèi),人類所獨(dú)有的抽象演繹以及聯(lián)想創(chuàng)造新知識(shí)的能力,目前的大模型尚不具備。
基于此,在現(xiàn)有大量信息化知識(shí)積累的柔性制造業(yè)場(chǎng)景中,憑借大模型技術(shù)已能夠?qū)崿F(xiàn)極為出色的管理成效。然而,在未來(lái)諸如家庭這類更加開(kāi)放、且不斷產(chǎn)生新知識(shí)的場(chǎng)景中,依據(jù)當(dāng)前的技術(shù)發(fā)展路徑分析,生成式大模型距離人們理想中的“終極形態(tài)”仍有差距,尚不具備產(chǎn)生自主意識(shí)的可能性。
因此,探討未來(lái)大模型基座與具身智能模型的融合趨勢(shì),需從當(dāng)前面臨的主要問(wèn)題和應(yīng)用方向兩個(gè)維度進(jìn)行剖析。第一,大模型未來(lái)所蘊(yùn)含的價(jià)值觀和意識(shí)形態(tài)將與國(guó)家間有關(guān)。以AI陪伴及教育領(lǐng)域?yàn)槔?,其呈現(xiàn)的傾向性取決于頂層負(fù)責(zé)參數(shù)調(diào)整的相關(guān)人員。第二,目前諸多論文及開(kāi)放式泛化操作研究表明,相關(guān)成果的成功率在理想情況下約為60% - 70%。然而,在實(shí)際工程應(yīng)用場(chǎng)景中,60%的成功率與工業(yè)生產(chǎn)所要求的99.999%的高可靠性之間存在巨大差距。在實(shí)踐中,單純的通用大模型或未經(jīng)后期針對(duì)性訓(xùn)練的認(rèn)知大模型,難以在工業(yè)場(chǎng)景中穩(wěn)定地完成任務(wù)拆分與理解,這類模型容易出現(xiàn)幻覺(jué)現(xiàn)象,給工業(yè)場(chǎng)景帶來(lái)極大風(fēng)險(xiǎn)。
圖源:演講嘉賓素材
在此過(guò)程中,分析未來(lái)認(rèn)知智能決策、大模型生成應(yīng)用方向與人類的關(guān)系,可以明確的是,通用基座將承擔(dān)大部分重復(fù)性、繁瑣且非決策性的環(huán)節(jié),而最終決策仍由人類主導(dǎo)。這也闡釋了未來(lái)10至15年,在真實(shí)場(chǎng)景中人與通用機(jī)器人各自的定位。未來(lái),機(jī)器人不會(huì)取代人類,而是助力人類減輕工作負(fù)擔(dān)。以往那些重復(fù)、繁瑣以及部分危險(xiǎn)的工作,將由機(jī)器人承接,人類的角色可能轉(zhuǎn)變?yōu)闄C(jī)器人技能訓(xùn)練師或機(jī)器人工作主管,其工作內(nèi)容并未消失,而是衍生出新的職責(zé)與任務(wù)。
勞動(dòng)力短缺以及中國(guó)AI高端制造的發(fā)展已成為不可逆轉(zhuǎn)的趨勢(shì),在此背景下,機(jī)器取代人力已從以往的可選項(xiàng)轉(zhuǎn)變?yōu)楸厝贿x擇。綜合考量近年來(lái)模型技術(shù)的發(fā)展以及國(guó)內(nèi)供應(yīng)鏈的演進(jìn),機(jī)器人性能正持續(xù)提升。隨著近兩年來(lái)人形機(jī)器人及各類機(jī)器人市場(chǎng)的蓬勃發(fā)展,國(guó)內(nèi)供應(yīng)鏈競(jìng)爭(zhēng)愈發(fā)激烈,尤其是上游環(huán)節(jié),關(guān)節(jié)器件等關(guān)鍵零部件成本顯著下降。這一現(xiàn)象帶來(lái)的直接影響是,機(jī)器人在智能化程度不斷提高的同時(shí),價(jià)格卻愈發(fā)便宜。
長(zhǎng)期以來(lái),我們與客戶保持密切溝通,產(chǎn)品市場(chǎng)契合度始終存在,但資產(chǎn)回報(bào)率在過(guò)去十年間一直是工業(yè)客戶難以權(quán)衡的問(wèn)題。以往,使用大型且價(jià)格昂貴的機(jī)器人去替代成本相對(duì)較低的勞動(dòng)力,從經(jīng)濟(jì)賬上看并不劃算。
當(dāng)前,隨著機(jī)器人成本持續(xù)降低,其智能化水平不斷提升,無(wú)論是在泛化抓取能力方面,還是在其他各類操作技能上,均已逐步滲透至大柔性、多品種、少批量的生產(chǎn)場(chǎng)景中。從投入產(chǎn)出比的角度來(lái)看,通常情況下,投資機(jī)器人的回報(bào)周期約為兩年。在這一發(fā)展進(jìn)程中,我們觀察到,機(jī)器人的投入產(chǎn)出成本與人的整體邊際成本正無(wú)限交合。
在此發(fā)展進(jìn)程中,具身智能的整體發(fā)展趨勢(shì)呈現(xiàn)出理想與現(xiàn)實(shí)的落差,雖前景廣闊,但當(dāng)前仍處于發(fā)展初期,其面臨的最大挑戰(zhàn)來(lái)自于數(shù)據(jù)層面。以目前備受關(guān)注的“pick place”這一簡(jiǎn)單動(dòng)作中的定點(diǎn)抓取為例,這在傳統(tǒng)工業(yè)機(jī)器人的技能中較為常見(jiàn)。然而,若要實(shí)現(xiàn)泛化抓取或各種柔性空間的自適應(yīng)操作,所需的數(shù)據(jù)量是達(dá)到定點(diǎn)抓取的38倍。即便是“pick place”這樣看似簡(jiǎn)單的技能,在需要泛化應(yīng)用的場(chǎng)景中,數(shù)據(jù)量也會(huì)大幅增加。
圖源:演講嘉賓素材
目前在技術(shù)路線上主要存在兩種不同方向。其中一個(gè)方向是側(cè)重于合成數(shù)據(jù)以及基于仿真的數(shù)據(jù)運(yùn)用,這種技術(shù)路線的優(yōu)勢(shì)在于成本較低、效率較高且易于規(guī)模化推廣。真實(shí)數(shù)據(jù)雖然具有真實(shí)性和高價(jià)值的特點(diǎn),但采集過(guò)程中存在諸多難題,需要耗費(fèi)大量的人力成本、場(chǎng)地成本等。
當(dāng)前,具身智能發(fā)展面臨的關(guān)鍵問(wèn)題在于如何制定有效的解決方案。從我們的行業(yè)認(rèn)知出發(fā),解決方案必然要基于通用的預(yù)訓(xùn)練基座。在垂直領(lǐng)域中,需依據(jù)不同場(chǎng)景、客戶的實(shí)際需求,以及高價(jià)值數(shù)據(jù)的特性,針對(duì)性地訓(xùn)練出一系列適用于各垂直行業(yè)的矩陣大模型。
當(dāng)這些行業(yè)大模型在各自領(lǐng)域內(nèi)實(shí)現(xiàn)了從上至下,涵蓋場(chǎng)景側(cè)、任務(wù)側(cè)和動(dòng)作側(cè)的端到端全鏈路打通后,便能夠形成一個(gè)良性循環(huán)的數(shù)據(jù)飛輪。這不僅能夠使商業(yè)模式得以成功運(yùn)轉(zhuǎn),還將顯著改善企業(yè)的經(jīng)營(yíng)狀況。隨著一個(gè)個(gè)垂直行業(yè)的突破,基于百川歸海的發(fā)展趨勢(shì),我們有望提煉出具有共性的行業(yè)通用數(shù)據(jù)。
我們認(rèn)為今年數(shù)據(jù)訓(xùn)練與數(shù)據(jù)采集領(lǐng)域?qū)⑴畈l(fā),因?yàn)殪`活且性能穩(wěn)定的硬件為具身機(jī)器人的數(shù)據(jù)采集及訓(xùn)練工作奠定了良好的技術(shù)基礎(chǔ)。當(dāng)AGI真正到來(lái)之際,硬件將能夠達(dá)到何種靈活程度?以人形機(jī)器人為例,當(dāng)AGI實(shí)現(xiàn)后,人形機(jī)器人將具備與人類相似的能力,能夠完成人類所能執(zhí)行的各類任務(wù)。
訊飛聆動(dòng)作為訊飛系的控股子公司,使命是在賦予機(jī)器人理解與思考能力的基礎(chǔ)上,使其切實(shí)能夠在制造業(yè)場(chǎng)景中高效執(zhí)行工作任務(wù),助力行業(yè)實(shí)現(xiàn)勞動(dòng)力的優(yōu)化升級(jí),讓全球都能享受到具身智能勞動(dòng)力所帶來(lái)的豐厚紅利。
訊飛聆動(dòng)的整個(gè)團(tuán)隊(duì)在具身感知、認(rèn)知理解領(lǐng)域成果斐然,尤其是在世界模型構(gòu)建以及世界知識(shí)的常識(shí)性理解等方面,斬獲了多個(gè)世界級(jí)冠軍獎(jiǎng)項(xiàng),團(tuán)隊(duì)最初專注于機(jī)器人“大腦”相關(guān)技術(shù)的研發(fā)。
關(guān)于空間的高階感知能力,我們基于3D技術(shù),針對(duì)室內(nèi)廣域空間進(jìn)行感知與定位,這相較于以往基于2D的技術(shù)有了顯著提升。
此外,機(jī)器人在實(shí)際工作場(chǎng)景中面臨的問(wèn)題,與傳統(tǒng)工業(yè)機(jī)器人通過(guò)預(yù)編程解決的確定性問(wèn)題存在本質(zhì)區(qū)別。機(jī)器人需要在開(kāi)放場(chǎng)景,甚至是離散、柔性的場(chǎng)景中,基于常識(shí)性任務(wù)進(jìn)行推理。這就要求機(jī)器人的“大腦”具備基于邏輯關(guān)系的多模態(tài)理解能力,能夠綜合分析多種模態(tài)的信息,從而準(zhǔn)確理解任務(wù)并做出合理的決策,以解決實(shí)際問(wèn)題。
機(jī)器人區(qū)別于人的一個(gè)非常高階的能力是具備強(qiáng)大的運(yùn)算智能和高密度知識(shí)儲(chǔ)備,能夠在海量數(shù)據(jù)運(yùn)算過(guò)程中,獲取人類在相同時(shí)間內(nèi)難以得出的結(jié)果。以蛋白質(zhì)合成的配方獲取為例,過(guò)去人類完成這一工作可能需要6至8個(gè)月,而如今機(jī)器僅需1至2天就能得出較為合理的配方。
我們認(rèn)為未來(lái)機(jī)器人將以無(wú)代碼模式的語(yǔ)音交互為主導(dǎo),形成多模態(tài)交互方式。對(duì)此,我們提出了交互大模型,這是一種超擬人化的合成模型,構(gòu)建了人與機(jī)器人之間的有效人機(jī)交互。在實(shí)現(xiàn)了機(jī)器人在大腦空間感知與推理等高階能力后,下一步便是將這些能力切實(shí)應(yīng)用到具身操作之中 。
在這一過(guò)程中,我們基于行業(yè)具身模型的任務(wù)理解,結(jié)合通用預(yù)訓(xùn)練基座開(kāi)展工作。去年,我們采用了星火多模態(tài)大模型基座,通過(guò)對(duì)各行業(yè)基于任務(wù)理解拆解的專項(xiàng)訓(xùn)練,構(gòu)建了行業(yè)針對(duì)性基座。由于融入了客戶提供的高價(jià)值行業(yè)數(shù)據(jù),經(jīng)過(guò)兩個(gè)月的努力,該基座在相關(guān)任務(wù)中的成功率從70%提升至95%以上,基本達(dá)到了客戶的使用標(biāo)準(zhǔn)。
圖源:演講嘉賓素材
在機(jī)器人的移動(dòng)與操作方法層面,我們采用合成數(shù)據(jù)與真實(shí)數(shù)據(jù)相結(jié)合的策略。我們的出發(fā)點(diǎn)十分明確,即針對(duì)客戶的實(shí)際場(chǎng)景與任務(wù)進(jìn)行精準(zhǔn)定義,判別哪些任務(wù)適合運(yùn)用高泛化性的合成數(shù)據(jù)來(lái)完成,哪些任務(wù)需要借助高精度的增值數(shù)據(jù)實(shí)現(xiàn)。整個(gè)方案的輸出完全以客戶實(shí)際需求為導(dǎo)向,核心在于依托底層大模型,結(jié)合利用行業(yè)客戶高價(jià)值數(shù)據(jù)訓(xùn)練出的行業(yè)具身模型,再融合移動(dòng)與操作方面的具身泛化大模型,以此實(shí)現(xiàn)基于業(yè)務(wù)流、任務(wù)流和動(dòng)作流的全流程閉環(huán)。
我們提出了大腦、小腦、本體分層式的具身智能架構(gòu)體系。其中,通用大模型承擔(dān)起對(duì)整體任務(wù)的理解與規(guī)劃職責(zé);具身大模型則負(fù)責(zé)全方位的感知以及行為決策。以一家水電站客戶為例,其下達(dá)的任務(wù)為關(guān)閉三號(hào)機(jī)房的一號(hào)開(kāi)關(guān),并打開(kāi)窗戶,該任務(wù)旨在解決GIS機(jī)房?jī)?nèi)六氟化硫泄漏問(wèn)題。在此情境下,機(jī)器人依托多模態(tài)大模型對(duì)指令源進(jìn)行解析,精準(zhǔn)分析出這一長(zhǎng)程任務(wù),并將其穩(wěn)定地拆解為一系列相應(yīng)的子任務(wù),隨后交由具備具身感知和行為決策功能的模型進(jìn)行處理,最終指揮機(jī)器人有條不紊地開(kāi)展操作與移動(dòng),以完成既定任務(wù)。
我們的商業(yè)模式較為清晰。短期內(nèi),我們并不著眼于完全開(kāi)放式的端到端具身大模型,而是聚焦于基于實(shí)際客戶場(chǎng)景,將通用大模型與專用具身大模型相結(jié)合,實(shí)現(xiàn)端側(cè)與云側(cè)的協(xié)同運(yùn)作,達(dá)成軟件與硬件的一體化。同時(shí),強(qiáng)調(diào)“robot and service”模式,即與客戶的業(yè)務(wù)系統(tǒng)直接打通,構(gòu)建具身智能的泛化操作能力,并融合多模態(tài)大模型的認(rèn)知功能,實(shí)現(xiàn)長(zhǎng)時(shí)序復(fù)雜任務(wù)的規(guī)劃與執(zhí)行。
我們致力于打造一種“一腦多型”的機(jī)器人解決方案,使其能夠適應(yīng)不同場(chǎng)景的需求,滿足實(shí)際商業(yè)化運(yùn)作中的投入產(chǎn)出要求。通過(guò)這種方式,逐步推動(dòng)機(jī)器人解決方案從局部通用向完全通用的方向發(fā)展。
此外,我們正在開(kāi)展一項(xiàng)更具前瞻性的研究——基于世界模型的具身智能關(guān)鍵技術(shù)。世界模型對(duì)于具身智能意義重大,它是賦予機(jī)器人終極自主探索能力、實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)以及真正跨任務(wù)泛化能力的核心要素,堪稱具身智能發(fā)展的終極形態(tài)。當(dāng)前,無(wú)論是英偉達(dá)推出的模擬器,還是其他各類模擬器,其技術(shù)上的進(jìn)步都為世界模型的構(gòu)建搭建了極為良好的研究平臺(tái)。
無(wú)論是何種類型的模型,都或多或少面臨著一系列挑戰(zhàn),在自適應(yīng)能力、泛化能力方面存在不足,同時(shí)還存在仿真環(huán)境與真實(shí)環(huán)境數(shù)據(jù)不匹配等問(wèn)題。就全球范圍而言,尚未出現(xiàn)完全符合我們認(rèn)知且更為理想的模型。
鑒于此,我們以機(jī)器人基礎(chǔ)運(yùn)營(yíng)服務(wù)為切入點(diǎn),憑借我們?cè)诖竽P徒换ヮI(lǐng)域的專長(zhǎng),特別是以多模態(tài)大模型作為技術(shù)底座,結(jié)合“一腦多型”的機(jī)器人本體,并融入真實(shí)場(chǎng)景數(shù)據(jù)開(kāi)展研究。我們的預(yù)訓(xùn)練基座已基于大量合成數(shù)據(jù)完成訓(xùn)練,在此基礎(chǔ)上,針對(duì)高校的世界模擬器、世界模型的構(gòu)建以及環(huán)境主動(dòng)交互的關(guān)鍵算法等方面,進(jìn)行前瞻性的探索研究。
我們期望通過(guò)這些努力,最終實(shí)現(xiàn)高智能、高泛化性的成果,并將其應(yīng)用于復(fù)雜、危險(xiǎn)、重復(fù)性以及柔性的工業(yè)場(chǎng)景,乃至更廣泛的制造業(yè)領(lǐng)域。
回歸到主題本身,多模態(tài)大模型在近年來(lái)的發(fā)展,不僅在眾多行業(yè)實(shí)現(xiàn)了agent級(jí)別的應(yīng)用,更在機(jī)器人領(lǐng)域發(fā)揮了關(guān)鍵作用,使得真正具備實(shí)用性的機(jī)器人走進(jìn)各行各業(yè)成為可能,甚至在未來(lái)有望進(jìn)入千家萬(wàn)戶。
我們判斷,未來(lái)的發(fā)展路徑必以場(chǎng)景驅(qū)動(dòng)來(lái)激發(fā)數(shù)據(jù)效應(yīng),通過(guò)形成一個(gè)個(gè)數(shù)據(jù)小飛輪,最終形成機(jī)器人的AGI。盡管當(dāng)前具身智能領(lǐng)域熱度高漲,但我們清醒地認(rèn)識(shí)到,具身智能的進(jìn)一步發(fā)展仍將面臨諸多嚴(yán)峻挑戰(zhàn)。
第一個(gè)挑戰(zhàn)是如何通過(guò)學(xué)習(xí)、掌握和發(fā)掘世界知識(shí)及物理規(guī)律,從而帶來(lái)通用泛化的能力。
第二,如何針對(duì)不同的場(chǎng)景和任務(wù),構(gòu)建一套適用于通用智能體機(jī)器人的評(píng)價(jià)標(biāo)準(zhǔn),主要責(zé)任在于場(chǎng)景應(yīng)用方。在某些場(chǎng)景中,過(guò)去使用非標(biāo)自動(dòng)化設(shè)備完成任務(wù),如今改用通用機(jī)器人或具身機(jī)器人設(shè)備,從任務(wù)執(zhí)行的成功率、準(zhǔn)確率和穩(wěn)定性等維度出發(fā),場(chǎng)景應(yīng)用方需建立一套客觀、科學(xué)的評(píng)價(jià)體系。這一評(píng)價(jià)體系的建立,是機(jī)器人從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用場(chǎng)景的關(guān)鍵環(huán)節(jié),對(duì)于推動(dòng)機(jī)器人技術(shù)的產(chǎn)業(yè)化應(yīng)用具有至關(guān)重要的意義。
第三,當(dāng)前具身模型面臨數(shù)據(jù)缺失問(wèn)題,這背后還反映出另一關(guān)鍵現(xiàn)狀,就目前而言,在眾多模型中,獲得公眾廣泛認(rèn)可、具備泛化能力的仍是大語(yǔ)言模型。具身智能模型雖可通過(guò)持續(xù)的數(shù)據(jù)擴(kuò)增,并借助“scaling law”來(lái)發(fā)展完善,但截至目前,大語(yǔ)言模型在泛化能力方面的優(yōu)勢(shì)依舊得到業(yè)界普遍承認(rèn)。
第四個(gè)挑戰(zhàn)是如何構(gòu)建基于數(shù)據(jù)、知識(shí)以及場(chǎng)景所衍生的自主性任務(wù)執(zhí)行能力,以實(shí)現(xiàn)面向多任務(wù)場(chǎng)景的最佳適配。
當(dāng)前具身感知與具身模型在現(xiàn)有技術(shù)路線下存在一定的上限。如何通過(guò)與客戶的深度合作,從現(xiàn)場(chǎng)流程設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、解決方案設(shè)計(jì)以及流程優(yōu)化設(shè)計(jì)等多個(gè)維度入手,突破這一技術(shù)上限,將原本僅達(dá)到60分水平的技術(shù),轉(zhuǎn)化為85分甚至更高質(zhì)量的產(chǎn)品與解決方案,我們認(rèn)為這是推動(dòng)相關(guān)技術(shù)從實(shí)驗(yàn)室走向真實(shí)應(yīng)用場(chǎng)景的核心動(dòng)力。
大模型帶來(lái)了兩大亟待解決的問(wèn)題,一是價(jià)值觀問(wèn)題,二是幻覺(jué)問(wèn)題。當(dāng)機(jī)器人廣泛應(yīng)用于各行各業(yè)乃至千家萬(wàn)戶后,其價(jià)值觀問(wèn)題必然會(huì)引發(fā)一系列社會(huì)倫理道德層面的思考,包括機(jī)器人的社會(huì)定位以及與人類的關(guān)系等。
總體而言,在未來(lái)10至15年內(nèi),具身智能與高端制造、機(jī)器人、人工智能的融合,將成為我國(guó)最為關(guān)鍵的發(fā)展賽道之一,同時(shí)也是極具投資價(jià)值的領(lǐng)域。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。