天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時(shí)代焦點(diǎn)網(wǎng) - 專業(yè)財(cái)經(jīng)新聞門戶
當(dāng)前位置: 時(shí)代焦點(diǎn)網(wǎng) -> 新聞

多模態(tài)大模型賦能,聆動(dòng)通用開啟具身智能新時(shí)代

發(fā)布時(shí)間:2025-04-06 10:11   來(lái)源:中國(guó)廣告網(wǎng)   閱讀量:8427   會(huì)員投稿

憑借多模態(tài)大模型賦能優(yōu)勢(shì),聆動(dòng)通用開啟具身智能新時(shí)代大門

在科技飛速發(fā)展的當(dāng)下,自 2022 年 11 月起,GPT 等模型的崛起及其迅猛發(fā)展,為機(jī)器人領(lǐng)域帶來(lái)了翻天覆地的變化。多模態(tài)模型,尤其是視覺語(yǔ)言模型,讓人形機(jī)器人在理解開放式場(chǎng)景和執(zhí)行復(fù)雜認(rèn)知任務(wù)上取得了突破性進(jìn)展。據(jù)預(yù)測(cè),未來(lái) 10 到 15 年,機(jī)器人在知識(shí)密度和運(yùn)算智能上有望超越人類,但在抽象演繹和聯(lián)想創(chuàng)造新知識(shí)方面,人類仍占據(jù)優(yōu)勢(shì)。在此背景下,機(jī)器人更多地被定位為人類的輔助工具,特別是在重復(fù)性和危險(xiǎn)性任務(wù)中發(fā)揮重要作用,甚至可能催生如機(jī)器人技能訓(xùn)練師等新職業(yè)。

2025 年 3 月 13 日,在第三屆具身智能機(jī)器人產(chǎn)業(yè)發(fā)展論壇上,聆動(dòng)通用創(chuàng)始人兼 CEO 季超指出,在機(jī)器人技能訓(xùn)練里,數(shù)據(jù)采集和仿真至關(guān)重要。真實(shí)數(shù)據(jù)價(jià)值高,然而采集成本也高。借助通用預(yù)訓(xùn)練模型,針對(duì)垂直領(lǐng)域和客戶特定需求進(jìn)行定制化訓(xùn)練,能夠構(gòu)建出適用于不同行業(yè)的強(qiáng)大模型。展望未來(lái),具身機(jī)器人極有可能像智能手機(jī)一樣,重塑商業(yè)格局,引領(lǐng)行業(yè)從功能型機(jī)器人時(shí)代邁向智能機(jī)器人時(shí)代。

大語(yǔ)言模型的突破是近年來(lái)人形機(jī)器人及具身通用機(jī)器人發(fā)展的底層邏輯。2022 年 11 月 ChatGPT 進(jìn)入國(guó)內(nèi),標(biāo)志著機(jī)器智能進(jìn)入新階段,隨后 GPT-4 的進(jìn)化,在復(fù)雜認(rèn)知、推理及多模態(tài)任務(wù)處理能力上大幅提升,與機(jī)器人的視覺語(yǔ)言等模型高度契合。例如 GPT 在多模態(tài)復(fù)雜場(chǎng)景語(yǔ)義理解和推理能力上表現(xiàn)卓越,讓機(jī)器人在特定專業(yè)領(lǐng)域有超越人類智慧的潛力,串聯(lián)起機(jī)器人的運(yùn)動(dòng)控制、感知與決策,為具身工業(yè)、制造及家庭等領(lǐng)域創(chuàng)造了無(wú)限可能。

國(guó)內(nèi)團(tuán)隊(duì)密切關(guān)注大模型發(fā)展,以 OpenAI 為代表的大模型不斷更新迭代。雖然對(duì)于大模型的 scaling law 是否達(dá)上限存在探討,但實(shí)際上大模型基座的 scaling law 天花板持續(xù)被突破,如 OpenAI 的 o1 在處理專業(yè)復(fù)雜認(rèn)知任務(wù)上超越人類,DeepSeek 在技術(shù)等方面也取得創(chuàng)新成果。

聚焦未來(lái)機(jī)器人與人類的關(guān)系,生成式大模型在知識(shí)儲(chǔ)備上已達(dá)較高水平,知識(shí)密度可與高校學(xué)生媲美,運(yùn)算智能和知識(shí)密度超越人類。不過(guò),在未來(lái) 10 至 15 年,其仍不具備人類獨(dú)有的抽象演繹和聯(lián)想創(chuàng)造新知識(shí)的能力。在柔性制造業(yè),大模型技術(shù)已能實(shí)現(xiàn)出色管理,但在家庭等開放場(chǎng)景中,距離理想狀態(tài)仍有差距,尚不具備自主意識(shí)。

探討大模型基座與具身智能模型融合趨勢(shì),一方面,大模型未來(lái)的價(jià)值觀和意識(shí)形態(tài)與國(guó)家相關(guān),如在 AI 陪伴和教育領(lǐng)域,其傾向性由頂層參數(shù)調(diào)整人員決定;另一方面,目前論文及研究成果在理想情況下成功率約 60%-70%,與工業(yè)生產(chǎn)要求的 99.999% 可靠性差距巨大,通用或未經(jīng)針對(duì)性訓(xùn)練的認(rèn)知大模型在工業(yè)場(chǎng)景中易出現(xiàn)幻覺,難以穩(wěn)定完成任務(wù)。所以,通用基座將承擔(dān)重復(fù)性等環(huán)節(jié),最終決策仍由人類主導(dǎo),未來(lái)機(jī)器人將助力人類,而非取代人類,人類角色可能轉(zhuǎn)變?yōu)闄C(jī)器人技能訓(xùn)練師或主管。

隨著勞動(dòng)力短缺和中國(guó) AI 高端制造發(fā)展,機(jī)器取代人力成為必然。近年來(lái)模型技術(shù)發(fā)展和國(guó)內(nèi)供應(yīng)鏈演進(jìn),使機(jī)器人性能提升,成本下降,智能化程度提高,已逐步滲透到多品種、少批量生產(chǎn)場(chǎng)景,投資機(jī)器人回報(bào)周期約兩年,投入產(chǎn)出成本與人的邊際成本逐漸交合。

具身智能雖前景廣闊,但當(dāng)前處于發(fā)展初期,最大挑戰(zhàn)來(lái)自數(shù)據(jù)層面。以 “pick place” 為例,實(shí)現(xiàn)泛化抓取等所需數(shù)據(jù)量是定點(diǎn)抓取的 38 倍。技術(shù)路線上,合成數(shù)據(jù)及仿真數(shù)據(jù)成本低、效率高、易推廣,而真實(shí)數(shù)據(jù)采集困難。解決方案需基于通用預(yù)訓(xùn)練基座,針對(duì)垂直領(lǐng)域和客戶需求,訓(xùn)練出行業(yè)矩陣大模型,形成數(shù)據(jù)飛輪,改善企業(yè)經(jīng)營(yíng),提煉行業(yè)通用數(shù)據(jù)。

訊飛聆動(dòng)作為訊飛系控股子公司,致力于賦予機(jī)器人理解與思考能力,助力制造業(yè)勞動(dòng)力優(yōu)化升級(jí)。其團(tuán)隊(duì)在具身感知、認(rèn)知理解等領(lǐng)域成果顯著,在空間高階感知上基于 3D 技術(shù)有顯著提升。機(jī)器人在開放場(chǎng)景中需基于常識(shí)推理,其 “大腦” 要具備多模態(tài)理解能力。機(jī)器人還具備強(qiáng)大運(yùn)算智能和高密度知識(shí)儲(chǔ)備,如在蛋白質(zhì)合成配方獲取上遠(yuǎn)超人類效率。未來(lái)機(jī)器人將以無(wú)代碼語(yǔ)音交互為主導(dǎo),形成多模態(tài)交互,為此提出交互大模型。

在實(shí)際工作中,訊飛聆動(dòng)基于行業(yè)具身模型任務(wù)理解,結(jié)合通用預(yù)訓(xùn)練基座開展工作。去年采用星火多模態(tài)大模型基座,經(jīng)專項(xiàng)訓(xùn)練,構(gòu)建行業(yè)針對(duì)性基座,融入客戶高價(jià)值數(shù)據(jù)后,相關(guān)任務(wù)成功率從 70% 提升至 95% 以上。在機(jī)器人移動(dòng)與操作方法上,采用合成與真實(shí)數(shù)據(jù)結(jié)合策略,以客戶需求為導(dǎo)向,依托底層大模型,結(jié)合行業(yè)具身模型和具身泛化大模型,實(shí)現(xiàn)全流程閉環(huán)。提出大腦、小腦、本體分層式具身智能架構(gòu)體系,通用大模型負(fù)責(zé)任務(wù)理解規(guī)劃,具身大模型負(fù)責(zé)感知與決策。商業(yè)模式上,短期內(nèi)聚焦于實(shí)際客戶場(chǎng)景,實(shí)現(xiàn)端云協(xié)同、軟硬件一體化,強(qiáng)調(diào) “robot and service” 模式,打造 “一腦多型” 機(jī)器人解決方案,推動(dòng)從局部通用向完全通用發(fā)展。同時(shí)開展基于世界模型的具身智能關(guān)鍵技術(shù)研究,雖然模型面臨自適應(yīng)、泛化能力不足及數(shù)據(jù)不匹配等問(wèn)題,但通過(guò)以機(jī)器人基礎(chǔ)運(yùn)營(yíng)服務(wù)為切入點(diǎn),結(jié)合多模態(tài)大模型、“一腦多型” 本體及真實(shí)場(chǎng)景數(shù)據(jù)進(jìn)行探索。

多模態(tài)大模型近年來(lái)不僅在各行業(yè)實(shí)現(xiàn) agent 級(jí)應(yīng)用,在機(jī)器人領(lǐng)域更是關(guān)鍵,讓實(shí)用型機(jī)器人走進(jìn)各行各業(yè)甚至千家萬(wàn)戶成為可能。未來(lái)將以場(chǎng)景驅(qū)動(dòng)激發(fā)數(shù)據(jù)效應(yīng),形成數(shù)據(jù)小飛輪,最終實(shí)現(xiàn)機(jī)器人的 AGI。不過(guò),具身智能發(fā)展仍面臨諸多挑戰(zhàn),包括掌握世界知識(shí)規(guī)律以獲得通用泛化能力、構(gòu)建通用智能體機(jī)器人評(píng)價(jià)標(biāo)準(zhǔn)、解決具身模型數(shù)據(jù)缺失及泛化能力不足問(wèn)題、構(gòu)建自主性任務(wù)執(zhí)行能力,以及解決大模型帶來(lái)的價(jià)值觀和幻覺問(wèn)題等??傮w而言,未來(lái) 10 至 15 年,具身智能與高端制造、機(jī)器人、人工智能的融合,將成為我國(guó)關(guān)鍵發(fā)展賽道和極具投資價(jià)值的領(lǐng)域。

聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。