地 址:江西上饶广丰县管家庙901号 电 话:013-68715838 网址:47qsg.carbhp.com 邮 箱:910142026@901.com
由於受試者必須記錄下輸掉遊戲時的時間和原因,大部分受試者在看到筆記或時間時都會馬上輸掉遊戲。
比心,前路仍長呀。?一個玩41個遊戲,穀歌最新決策綜合表現分超一倍
發自凹非寺量子位|公眾號穀歌宣布,在多任務學習上取得了巨大進展:他們搞出一個會玩41款雅達利遊戲的,而且采用的新訓練方法比起其他算法,訓練效率大大提升!此前會玩星際爭霸的和火出圈的都屬於單遊戲智能體(),也就是說,一個隻會玩一種遊戲。多遊戲智能體這邊,現有的訓練算法屈指可數:主要包括時間差分學習算法(,)和行為克隆(,)等。不過為了讓一個智能體同時學會玩多款遊戲,之前的這些方法的訓練過程都很漫長。
現在,穀歌采用了一個新決策架構來訓練智能體,能夠在少量的新遊戲數據上迅速進行微調,使訓練速度變得更快,而且訓練效果也是杠杠的——該多遊戲智能體玩41款遊戲的表現綜合得分,是等其他多遊戲智能體的2倍左右,甚至可以和隻在單個遊戲上訓練的智能體媲美。△100%表示每款遊戲的人類平均水平,灰色條代表單遊戲智能體,藍色條代表多遊戲智能體下麵就來看看這個性能優秀的多遊戲智能體。
這個處理多款遊戲學習的,采用了一個將強化學習(,)問題視為條件序列建模的架構,它根據智能體和環境之間過去的互動以及預期收益,來指導智能體的下一步活動。
說到強化學習,其討論的主要問題是:在訓練過程中,一個麵對複雜環境的智能體,如何通過在每個裏感知當前狀態和來指導下一步動作,以最終最大化累計收益()。遊戲交易分為3種,一種是“家族拍賣”,這個係統的作用在於,它能夠保證遊戲材料的公平獲得,通過拍賣後元寶獎勵的形式,做到家族人人有份。
其二是擺攤係統,這自然不必過多解釋,玩過大型網遊的朋友都非常熟悉了。其三是“麵對麵交易”,也就是玩家之間互相交易,這意味著物價將由玩家調控,而不會受到官方的影響,出現極品裝備道具很容易就賣出天價。
之所以選擇《劍俠世界3》,還不僅僅是因為它支持自由交易,而是因為這款遊戲剛上不久,相比那些10多年的老端遊更有熱度優勢。而且作為西山居劍俠係列新作,《劍俠世界3》也有著加持,龐大的用戶基礎讓它想不火都很難。