科幻電影里的機(jī)器人早就能和人類無障礙溝通了,但在現(xiàn)實(shí)生活中,機(jī)器人理解自然語言的能力還非常差,稍微復(fù)雜一點(diǎn)的指令,就會(huì)讓它們不知所措。
比如說:把我剛才放下的箱子拿起來。
讓機(jī)器人明白這樣的指令,是MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)最近才取得的突破。
MIT CSAIL設(shè)計(jì)出了一種方法,讓機(jī)器人可以理解并響應(yīng)以清晰明了的語言發(fā)出的語音指令。這個(gè)系統(tǒng)已經(jīng)先進(jìn)到可以理解涉及語境的指令,例如參考之前的命令和對(duì)象。
由CSAIL研究員開發(fā)的ComText(“語境中的指令”的縮寫)系統(tǒng)提供了“類似Alexa”的機(jī)器人語音控制功能。這樣的機(jī)器人可以理解語境,包括此前的指令,以及與之互動(dòng)的對(duì)象和周圍環(huán)境。
這意味著,用戶可以像與他人互動(dòng)一樣與機(jī)器人互動(dòng)。此前,與機(jī)器人的互動(dòng)是個(gè)巨大的挑戰(zhàn),阻礙了機(jī)器人在商業(yè)場(chǎng)景和一般消費(fèi)級(jí)場(chǎng)景中的應(yīng)用。即使是在產(chǎn)業(yè)界,如果機(jī)器人可以理解自然語言語音指令,那么就可以更好地與人類合作。
通過對(duì)某些對(duì)象的理解,ComText可以用在工作中。例如,你可以告訴它,“我拿著的這個(gè)工具是我的工具”。未來,當(dāng)你對(duì)它說“把我的工具拿給我”時(shí),它就會(huì)找到正確的工具。
如上圖所示,告訴機(jī)器人“我剛才放在桌子上的盒子是我的”,然后對(duì)它說“拿起我的盒子”,它就能正確理解。
研究人員使用Baxter模型對(duì)ComText系統(tǒng)進(jìn)行了檢驗(yàn)。Baxter是Rethink Robotics開發(fā)的雙臂人形機(jī)器人。
ComText在實(shí)現(xiàn)過程中采用了不同類型的記憶方式,包括用于一般信息的語義記憶,以及與特定事件關(guān)聯(lián)在一起的情景記憶。
在測(cè)試過程中,機(jī)器人能在約90%的情況下對(duì)語音指令做出正確反應(yīng)。研究團(tuán)隊(duì)希望通過更復(fù)雜的輸入信息,包括多步指令,以及深化機(jī)器人對(duì)上下文信息的理解,提高正確響應(yīng)的水平。
這項(xiàng)研究相關(guān)的論文Temporal Grounding Graphs for Language Understanding with Accrued Visual-Linguistic Context發(fā)表在剛剛結(jié)束的學(xué)術(shù)會(huì)議IJCAI 17上,作者包括MIT的Rohan Paul、Andrei Barbu、Sue Felshin、Boris Katz和Nicholas Roy。
地址:http://static.ijcai.org/proceedings-2017/0629.pdf
轉(zhuǎn)載36氪:http://36kr.com/p/5090803.html