草庐IT

读人工不智能:计算机如何误解世界笔记03_AlphaGo

1. 人工智能1.1. “人工智能”这个词听起来就是电影里的意象1.1.1. 电影《星际迷航:下一代》中栩栩如生的机器人“数据少校”1.1.2. 电影《2001太空漫游》中的哈尔90001.1.3. 电影《她》中的人工智能系统萨曼莎1.1.4. 漫威系列漫画和电影中钢铁侠的管家贾维斯1.2. 许多人希望现实世界中能有人工智能的东西出现,他们多半就是想要一个能满足所有需求的机器人管家1.2.1. 脸书的马克·扎克伯格就曾开发过一个基于人工智能的家庭自动化系统,他将其命名为“贾维斯”1.3. 自己特别想要得到的东西,人们就很容易将想象和现实混为一谈1.4. 计算机科学家和普罗大众(包括从事技术工作

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.15028.pdf面向大众用户发布的LLM,如GPT-4/Claude/LLaMA-2-chat,通常使用

碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体

谷歌,是真的破釜沉舟了。传说中合并了AlphaGo和类GPT-4大模型的Gemini,终于要来了吗?一个是用强化学习击败人类围棋冠军、创造历史的AI系统,一个是目前霸榜几乎所有大模型榜单、一骑绝尘的最强多模态大模型,两个AI一合体,简直要无敌了!图片谷歌DeepMindCEOHassabis近日对外媒Wired表示,Gemini还在开发中,还需要几个月,而谷歌DeepMind已经准备砸进数千万美元,甚至数亿。此前,SamAltman曾透露,创建GPT-4的成本超过了1亿美元。谷歌DeepMind,当然也不能输。太长不看版Gemini会将AlphaGo与GPT-4等大模型的语言功能合并,系统解决

【历史上的今天】3 月 9 日:AlphaGo 成名之战;Mac 电脑设计者诞生;谷歌收购 Writely

整理|王启隆透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。今天是2023年3月9日,在1986年的今天,中国历史上最大的辞书《汉语大字典》编纂完成。《汉语大字典》由四川、湖北两省300多名专家、学者和教师经过10年努力编纂而成,全书约2000万字,共收楷书单字56000多个,凡古今文献、图书资料中出现的汉字,几乎都可以从中查出,是当今世界上规模最大、收集汉字单字最多、释义最全的一部汉语字典。回顾人类历史,3月9日这一天还发生过哪些改变了我们未来生活的关键事件呢?1943年3月9日:Macintosh项目的发起人JefRaskin出生图源:维基百科1943年3月9日,人机界面专家杰夫

【历史上的今天】3 月 9 日:AlphaGo 成名之战;Mac 电脑设计者诞生;谷歌收购 Writely

整理|王启隆透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。今天是2023年3月9日,在1986年的今天,中国历史上最大的辞书《汉语大字典》编纂完成。《汉语大字典》由四川、湖北两省300多名专家、学者和教师经过10年努力编纂而成,全书约2000万字,共收楷书单字56000多个,凡古今文献、图书资料中出现的汉字,几乎都可以从中查出,是当今世界上规模最大、收集汉字单字最多、释义最全的一部汉语字典。回顾人类历史,3月9日这一天还发生过哪些改变了我们未来生活的关键事件呢?1943年3月9日:Macintosh项目的发起人JefRaskin出生图源:维基百科1943年3月9日,人机界面专家杰夫

强化学习-学习笔记5 | AlphaGo

本文不是论文阅读笔记,只是一个学习笔记,重在理解,在严谨程度上可能稍差。AlphaGo论文指路:MasteringthegameofGowithdeepneuralnetworksandtreesearch.Nature,2016.https://www.nature.com/articles/nature16961MasteringthegameofGowithouthumanknowledge.Nature,2017.https://www.nature.com/articles/nature242705.AlphaGo5.1围棋介绍如果用强化学习的语言,围棋如何表达:标准的围棋盘是一个1

强化学习-学习笔记5 | AlphaGo

本文不是论文阅读笔记,只是一个学习笔记,重在理解,在严谨程度上可能稍差。AlphaGo论文指路:MasteringthegameofGowithdeepneuralnetworksandtreesearch.Nature,2016.https://www.nature.com/articles/nature16961MasteringthegameofGowithouthumanknowledge.Nature,2017.https://www.nature.com/articles/nature242705.AlphaGo5.1围棋介绍如果用强化学习的语言,围棋如何表达:标准的围棋盘是一个1