继上次盘点《数据科学家95%的时间都在使用的11个基本图表》之后,今天将为大家带来数据科学家95%的时间都在使用的11个基本分布。掌握这些分布,有助于我们更深入地理解数据的本质,并在数据分析和决策过程中做出更准确的推断和预测。1.正态分布正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是一种连续型概率分布。它具有一个对称的钟形曲线,以均值(μ)为中心,标准差(σ)为宽度。正态分布在统计学、概率论、工程学等多个领域具有重要的应用价值。正态分布的概率密度函数为:其中,μ是均值,σ是标准差。概率密度函数表示在给定值x附近,单位区间内
DeepMind团队最新的Nature论文,竟出现严重的漏洞。来自伦敦大学的化学教授RobertPalgrave在网上公开揭露,论文在材料表征方面存在非常严重的问题。更离谱的是,Palgrave发现AI制作了3次已有90年历史的化合物,而且还弄错了成分。这篇在11月29日刊登在Nature的论文「Anautonomouslaboratoryfortheacceleratedsynthesisofnovelmaterials」,主要是由UC伯克利、劳伦斯伯克利国家实验室、谷歌DeepMind的团队联合完成。论文中,仅用了17天时间,AI便实现了,在58种预测材料中,合成了41种新材料。论文地址:
可视化对于理解复杂的数据模式和关系至关重要。它们提供了一种简洁的方式来理解统计模型的复杂性、验证模型假设、评估模型性能等等。因此,了解数据科学中最重要和最有用的图表非常重要。本文将带来数据科学家95%的时间都在使用的11个基本图表。ROCCurveROC曲线(ReceiverOperatingCharacteristicCurve)描述了在不同分类阈值下,真阳性率(良好性能)与假阳性率(不良性能)之间的权衡关系。在二分类问题中,ROC曲线是一种常用的评估分类模型性能的工具。它绘制了在不同分类阈值下,分类器的真阳性率和假阳性率之间的关系。真阳性率是指被正确分类为正例的样本占所有实际正例样本的比例
1. 基本信息像火箭科学家一样思考:将不可能变为可能[美]奥赞·瓦罗尔(OzanVarol)著北京联合出版公司,2020年9月出版1.1. 读薄率书籍总字数250千字,笔记总字数37583字。读薄率37583÷250000≈15.03%1.2. 读厚方向起源:NASA天文学家的万物解答NASA系统工程手册(第2版)向NASA学工程师文化NASA的项目管理课:重塑影响项目成果的六大关键因素1.3. 笔记--章节对应关系笔记章节字数发布日期2023年读像火箭科学家一样思考笔记01_与不确定性共舞(上)第1章与不确定性共舞174511月18日读像火箭科学家一样思考笔记02_与不确定性共舞(下)第1章
三十多年来,在线算法一直被科学家寄予厚望,但一篇论文的诞生让它走下了神坛。它的目标,简单来说就是在没有完整数据的情况下,通过有限的信息提前找到最佳策略。在我们的生活中,例如股市场的即时交易分析,还有导航路径的实时规划,都有在线算法的身影。不过没有完整数据,就意味着性能将受到限制;因此科学家们一直期待它能突破数据的桎梏,达到更高的效率。然而就在最近,来自微软研究院、牛津大学等机构的研究人员在进行了一场实验之后发现,这种算法的复杂度远远超过了人们的期待。他们也凭借着这篇论文,在今年的计算理论顶会STOC上获得了最佳论文奖。那么,他们获奖的这项研究,具体说了些什么呢?科学家们的“30年期待”这里我们
AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?!这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:就连单词也能被翻转出新效果,happy和holiday只在一旋转间:原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在HackerNews上爆火,热度飙至近800。英伟达高级AI科学家JimFan赞叹称:这是我近期见到最酷的扩散模型!还有网友感叹称:这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。要知道,创作一幅经过旋转、反色或变形后呈
1. 异常现象已成为常态1.1. 在NASA的文件中,反复出现的O形环问题被描述为“可接受的风险”,这是标准的做生意方式1.2. 冰水的温度与“挑战者”号发射时的环境温度类似,肉眼即可观测到,O形环失去了它的密封能力1.3. 尽管O形环损坏存在危险,但随着一次又一次飞行顺利完成,NASA开始对此习以为常,视野也变得越来越狭隘。1.4. 费曼将NASA的决策过程称为“俄罗斯轮盘赌”,由于那些存在O形环问题的航天飞机经过无数次飞行之后,并没有发生任何灾难性事件,所以NASA认为,“下一次飞行时,我们可以稍微降低一点标准,因为我们上次侥幸成功了”1.5. NASA内部人士所说的那样,随着时间的推移,
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!项目名为GPT-fast,加速效果观感是这样婶儿的:通畅,属实通畅!重点是,团队直接放出了代码以及详细“教程”。还是简笔画版的那种,特别好理解。开发团队成员@HoraceHe表示:我们不把它看作是库或者框架,更希望大家能把它当成个例子,根据自己的需求“复制粘贴”。网友直接炸开锅,英伟达AI科学家JimFan评价道:这是自AndrejKarpathy发布的minGPT以来最棒的教程式repo之一!开源世界需要更多minGPT、GPT-Fast这样的项目!那么GPT-fast究竟是如何给大模型提速的?
1. 开局与结局1.1. 我们学到了很多东西,知道以前很多做法是错误的,而学习有时会带来伤害。1.1.1. SpaceX高管汉斯·科尼格斯曼1.2. 单次失败和最终失败是有区别的1.2.1. 单次失败可以是开始而非结束1.2.2. 开局不一定要盛大,只要结局完美就行1.3. 时间改变了我们看待事件的方式,一些短期内看似失败的事物,在我们把目光放长远之后,就会发生逆转1.4. 突破性技术往往有一个进化的过程,它不是革命性的1.4.1. 只要研究任何一种科学发现,你就会注意到它不是凭空出现的,也不存在醍醐灌顶的时刻1.4.2. 科学由一个个失败积累而成,每个失败的版本都比以前的版本更好1.4.3.
1. 载人飞行任务中也发生过许多事故1.1. 在火箭科学中,失败可能意味着丧失生命,还可能让纳税人损失数亿美元资金1.2. 失败意味着数十年的工作烟消云散1.3. 没人会为太空竞赛期间发生的无数爆炸和不幸事件庆祝,它们实在令人尴尬,而且是灾难性的,人们不会视之如儿戏2. 过度害怕失败2.1. 我们天生就害怕失败2.1.1. 千万年前,若非害怕失败,我们早就被一只饿极了的灰熊捕食2.2. 与成功后兴奋感迅速消散不同,失败的刺痛一直挥之不去,有时甚至会持续一辈子3. 失败是可以选择的3.1. 火箭发射不可能没有风险,你要跟物理学一较高下3.2. 你可以为一些意外事故做好准备,但在太空中,总会遇到一