就是这样!我希望我已经为你介绍清楚了强化学习的研究进展,问题以及挑战。如果你渴望推进强化学习的研究,我邀请你使用我们的OpenAI Gym项目:)

感谢关注游戏微信公号 馒头说 mantoutalk,本周末终于要去广东啦!两次签售,分别是周六的广州和周日的深圳。

原文地址: http://karpathy.github.io/2016/05/31/rl/

这个小游戏是帕基特诺夫根据一套现实中的“五格骨牌”游戏而研发的。但是他很快发现,“Electronica 60”的电脑性能根本无法实现他的设想。于是,规则和界面被不断地简化,直到最后帕基特诺夫自己制定了一条套玩法:

“X档案”原是指美国联邦调查局(FBI)里面的一个档案小组,这个小组处理的案件和行为科学有关,举凡怪异、不寻常的犯罪行为如性犯罪、连续杀人狂等,那里面贮存着几十年来遇到的无法解释的超自然现象案件。FBI特工Mulder (DavidDuchovny饰演)和Scully (GillianAnderson饰演)是在该小组工作上一对搭档,他们经常负责调查一些现代科学难以解释的案件。

这任博士仅是为了吸引当下缺失和混乱无序的一代人而设计的,这部剧集原先最引以为傲的缓慢推进的紧张节奏在第一集里无处可寻,完全缺失了原有的灵魂。

接下来,我们详细介绍训练过程。我们首先对策略网络中的W1, W2进行初始化,然后玩100局乒乓游戏(我们把最初的策略称为rollouts)。假设每一次游戏包含200帧画面,那么我们一共作了20,000次UP/DOWN的决策,而且对于每一次决策,我们知道当前参数的梯度。剩下的工作就是为每个决策标注出其“好”或“坏”。假设我们赢了12局,输了88局,那么我们将对于那些胜局中200*12=2400个决策进行正向更新(positive update,为相应的动作赋予+1.0的梯度,并反向传播,更新参数);而对败局中200*88=17600个决策进行负向更新。是的,就这么简单。更新完成之后的策略网络将会更倾向执行那些能够带来胜利的动作。于是,我们可以使用改进之后的策略网络再玩100局,循环往复。

对高产的斯皮尔伯格来说,本片是他导演的第33部电影,在一次采访中,斯皮尔伯格坦言这是继《拯救大兵瑞恩》之后导演的最难的电影。他对片中的虚拟世界进行了具象化还原,在CGI方面也看不到偷工减料的成分,将原著进行了几近完美的改编。

在美国艾美奖的评选中,电视艺术与科学学院(ATAS)负责颁发不包括体育节目在内的美国国内的黄金时间节目的“黄金时段节目艾美奖”,这也是《X档案》续集所处的位置。

策略梯度在实际中的使用。在我之前关于RNN的博文中,我可能已经让大家看到了RNN的魔力。而事实上让这些模型有效地工作是需要很多小技巧(trick)支撑的。策略梯度法也是如此。它是自动的,你需要大量的样本,它可以一直学下去,当它效果不好的时候却很难调试。无论什么时候,当我们使用火箭炮之前必须先试试空气枪。以强化学习为例,我们在任何时候都需要首先尝试的一个(强)基线系统是:交叉熵。假如你坚持要在你的问题中使用策略梯度,请一定要注意那些论文中所提到的小技巧,从简单的开始,并使用策略梯度的的一种变型:TRPO。TRPO在实际应用中几乎总是优于基本的策略梯度方法。其核心思想是通过引入旧策略和更新之后策略所预测的概率分布之间的KL距离,来控制参数更新的过程。

程婧波(科幻作家):90后和00后可能对《X档案》比较陌生。要知道,在PS3还没有诞生,甚至连“万维网”三个字都不曾出现过的1993年,已经拍出了第一集《X档案》。和我一样老以及比我更老的人,大概都是从凤凰卫视中文台收看这部美剧的。当时凤凰台的风格也是荧屏上的异类,和《X档案》的cult风相得益彰。至于“外星人绑架事件”“51区”“阴谋论”等等经典老梗,也是由这部老牌美剧开始开枝散叶,深入人心的。唯一的问题在于:我爱的大卫·杜楚尼和吉莲•安德森已经不再年轻,FOX重拍还是启用他们来当主演,这个要肿摸破?

《星际火狐》中,存在不会完结的管卡,选择难度3在第二关,你会发现又两个比较大的小行星,用你的极光和导弹摧毁右下角的小行星,然后回出现一个蛋,它会孵出一个小鸟,飞进去,你就会进入无限循环模式,也就是无穷尽的关卡

吉莲•安德森最近正在拍摄戏剧《欲望号街车(A Streetcar Named Desire)》和《坠落(The Fall)》的第二季。大卫•杜楚尼则正在拍摄NBC的新剧《水瓶座Aquarius》同时,他的第一本小说《圣牛》(Holy Cow: A Modern-Day Dairy Tale)于2015年2月3日正式出版之后,他现在还要写第二本。《圣牛》讲述了一头会说话的母牛逃脱屠宰场的故事,应该会很有趣。

人类有丰富的先验知识,比如物理相关(球的反弹,它不会瞬移,也不会忽然停止,它是匀速运动,等)与心理直觉。而且你也知道球拍是由你控制的,会对你的“上移/下移”指令作出回应。而我们的算法则是完全从一无所知的状态开始学习。

Oculus已经给游戏产业带来了不少的兴奋和刺激。它最早是一个在众筹网站Kickstarter上募资25万美元的项目,但是急切盼望着它出现的玩家们却为它筹集了240万美元。从那之后,Oculus Rift发出了数以千份计的早期开发工具,并有许多工作室已经开始努力地为这个头盔制作新的游戏,又或者为他们已有的游戏增加支持Oculus Rift头盔的功能,比如《上古卷轴5:天际》(Elder Scrolls V: Skyrim)、《梦意杀机》(Among the Sleep)以及《精英:危险》就属于后者。

如果玩家能在3小时内通关《超级银河战士》,就可以在结局看到没穿盔甲的女主角samus

主机ATARI800的游戏《大金刚》中,只要同时满足分数在33000~39000间,通过跳楼结束最后一条命,通关时间点三下按钮让难度图标变为特定模式,只要满足这三个条件,在结束画面中就会有大金刚的动画与当时程序员名字的缩写LMD出现,这个彩蛋一直无人关注直到研发者本人披露为止

怎么把虚拟世界搬到现实中来?“在华纳公司,我们总是很重视世界各地任何有前景的视觉特效和科技。我们有信心能和史蒂夫一起突破任何障碍。”希尔曼说道。“他是电影大师,和他一起工作感觉十分惬意。故事才是最重要的,只要能让观众享受影片,我们将竭尽所能。”

据悉,该剧创始人克里斯·卡特(Chris Carter),主演大卫·杜楚尼(David Duchovny)和吉莲·安德森(Gillian Anderson)都会回归本剧。

但无论如何,我们都要珍惜那些与我们并肩成长的经典电视剧们,是它们带来了与演员同悲同喜的岁月和无可比拟的回忆。作为记忆的形式,它们已经自然而然地成为了我们内心的一部分。

凯文·麦克斯韦拿到了……《俄罗斯方块》在上述领域之外的版权——比如他可以发明一种叫“俄罗斯方块”的积木或折纸游戏……

艾美奖是电视节目的一个奖项,分为美国艾美奖和国际艾美奖两个部分,前者的评选范围是美国的电视节目,后者呢,则是评选美国以外的电视节目。美国艾美奖在美国电视界的地位,就如同奥斯卡奖在电影家的地位或者是格莱美奖在音乐界的地位,它是美国电视界的最高奖项。

电影尾声,绿洲的创造者Halliday对通关达人Wade Watts说出这句话的时候,相信戳中了很多玩家的泪点,在那个没有网络没有攻略的时代,一点点去通关,是体验游戏真正的快乐,游戏市场的不断膨胀,大量唯利是图的劣作不断出现是玩家兴趣冷却的罪魁祸首,但一部好的作品总是会给人惊喜,相信很多订阅号都已经在赞美头号玩家的了,而我作为一个曾经的屌丝玩家,不蹭热点,只想浅谈一下我理解中的游戏人生

前面提到的Commodore研发了当时全世界第一款多媒体电脑Amiga,在这款电脑上运行的“俄罗斯方块”,直接采用了苏联宇航员的背景,让玩家觉得高大而又神秘。

一切应有尽有:我们有Tardis,音速起子,善恶徘徊的内心纠葛带来的迄今为止的最佳情节设置——这一切大概只有儿童节目能够媲美,但绝对无法带来如此多的欢笑。

作为喜剧而言这部剧集是成功的,但是还是谈不上是一部严谨的科幻剧。看来在上一季中Master的确已经杀死了Doctor,现存的仅仅是一个通过无力的努力来掩饰自身缺陷的喜剧演员。是时候担心了。

客观来说,《E.T 外星人》这款游戏并非一无是处,甚至能从中看出一些在今天都极其流行的沙盒游戏的影子。但是游戏在剧情上的匮乏,画面的诡异,而且几乎与电影原作毫无联系最终决定了这是一款烂作。

如今,帕基特诺夫的一个身份是微软的游戏承包商,负责开发一些他所擅长的益智类游戏。其他时间,他会开着他那辆车牌为“Tetris”的“特斯拉”去兜风,打打网球,或者看书消磨时间。

几年后《ET外星人》频繁地登上各类媒体,被冠以“史上最烂游戏”的名头,随后演变成因为这个游戏,导致雅达利1983年跳水式大衰落,最终不得不关门大吉,还引发了电子游戏发展史上最大的衰退。

这个“巨无霸”随后也加入了战局,而它的加入,可以说促成了《俄罗斯方块》最终风靡全世界。

最终,实力雄厚且财大气粗的任天堂笑到了最后。据说当时他们给ELORG开出的订金就高达500万美元,光GB版本就可能付出1000万美元——这是其他几方想都不敢想的天文数字。

数十年来,雅达利将卖不掉的《ET外星人》(E.T.)游戏埋进美国新墨西哥州垃圾堆填区的故事一直都是游戏界最大的都市传说之一。雅达利在1982年用五周半的时间开发并发行了同名电影的系列游戏,它也被许多人认为是史上最糟糕的一款游戏。它在商业和口碑上双双失败,雅达利最终也遭受了重大的损失。

与此同时,一家叫Tengen(我们国内一般叫做“天正”)的美国公司在从“雅达利”那里拿到“版权”后,基于FC游戏机也制作了“天正版”的《俄罗斯方块》。

科特柯本自杀哪年,《DOOM2》发行,因此其中的nirvana地图在一开始地上就放着一把短手枪

初代《铁拳》中,在内置隐藏的《小蜜蜂》游戏里,如果不采用双机作战并一次性击落40驾飞机,游戏按住“开始“就可以选择魔鬼一八这个隐藏角色了

尽管佩尔森表示他从来都没有预想到《我的世界》会变得如此大受欢迎,但是这款游戏还是给整个游戏世界带来了巨大的影响。这款游戏单单在PC端的下载次数就达到了一亿次,而它现在仍然还是苹果应用商店与谷歌应用商店中下载次数最多的游戏之一。这款游戏还带动了一系列商品的热买,并得到了华纳兄弟的青睐,想要将它搬上大银幕。

“他(罗素·戴维斯)极其渴望将神秘博士系列重新启动,这完全是他的主意,他的热情是最大的原动力。他将内容进行更改,好使得这部剧集和观众联系起来,尤其是和21世纪的新观众们。”第十任博士的扮演者田纳特如是说。

文章部分内容参考自:维基百科雅达利条目、维基百科 E.T 外星人条目、大众软件 09 年 5 月号《前车之鉴:一代游戏王朝雅达利覆灭的启示》

整个流程说起来简单,执行起来就困难重重,首先ET有行动点数限制问题,初始都是9999点,每走一步都会消耗行动点数,消耗完毕后ET死亡,所以你可以把它看作是ET的生命值。

当我们描述解决方案的时候,请记住我们会尽量减少对于乒乓游戏本身的假设。因为我们更关心复杂、高维的问题,比如机器人操作、装配以及导航。乒乓游戏只是一个非常简单的测试用例,当我们学会它的同时,也将了解如何写一个能够完成任何实际任务的通用AI系统。