草庐IT

图数据挖掘:幂律分布和无标度网络

1幂律分布和指数分布我们在博客中《图数据挖掘(二):网络的常见度量属性》提到,节点度分布\(p(k)\)为关于\(k\)的函数,表示网络中度为\(k\)的节点占多大比例。我们发现,现实世界许多网络的节点度分布与幂函数乘正比:\[p(k)\proptok^{-\alpha}\]比如下图就是对Flick社交网络中\(p(k)\)的概率分布图像的可视化:由于对\(y=x^{-\alpha}\)两边取对数可以得到\(\log(y)=-\alpha\log(x)\),因此我们使用原数据在log-log尺度上绘制图像得到:可以看到此时幂律分布像一条斜率为\(-\alpha\)的直线。事实上,我们可以用该方

图数据挖掘:幂律分布和无标度网络

1幂律分布和指数分布我们在博客中《图数据挖掘(二):网络的常见度量属性》提到,节点度分布\(p(k)\)为关于\(k\)的函数,表示网络中度为\(k\)的节点占多大比例。我们发现,现实世界许多网络的节点度分布与幂函数乘正比:\[p(k)\proptok^{-\alpha}\]比如下图就是对Flick社交网络中\(p(k)\)的概率分布图像的可视化:由于对\(y=x^{-\alpha}\)两边取对数可以得到\(\log(y)=-\alpha\log(x)\),因此我们使用原数据在log-log尺度上绘制图像得到:可以看到此时幂律分布像一条斜率为\(-\alpha\)的直线。事实上,我们可以用该方

图数据挖掘:网络中的级联行为

1网络中的传播1.1一些传播的例子我们现在来研究网络中的传播。事实上,在网络中存在许多从节点到节点级联的行为,就像传染病一样。这在不同领域中都有所体现,比如:生物学传染性疾病信息技术级联故障,信息的传播社会学谣言、新闻、新技术的传播,虚拟市场下图就展示了一个信息经由媒体扩散(diffusion)的过程:1.2基于网络构建传播模型接下来我们看如何基于网络构建传播模型。以传染病为例,传染病会沿着网络的边进行传播。这种传播形成了一个传播树,也即级联,如下图所示:我们定义一些术语:将其中传播的对象为contagion;被传染这一事件称为adoption、infection或activation;已被传

图数据挖掘:网络中的级联行为

1网络中的传播1.1一些传播的例子我们现在来研究网络中的传播。事实上,在网络中存在许多从节点到节点级联的行为,就像传染病一样。这在不同领域中都有所体现,比如:生物学传染性疾病信息技术级联故障,信息的传播社会学谣言、新闻、新技术的传播,虚拟市场下图就展示了一个信息经由媒体扩散(diffusion)的过程:1.2基于网络构建传播模型接下来我们看如何基于网络构建传播模型。以传染病为例,传染病会沿着网络的边进行传播。这种传播形成了一个传播树,也即级联,如下图所示:我们定义一些术语:将其中传播的对象为contagion;被传染这一事件称为adoption、infection或activation;已被传

图数据挖掘:网络的基本概念和表示方法

最近《复杂网络建模》这门课要考试了,正好也在跟Stanford的《CS224W:MachineLearningWithGraphs》这门课,这里就一边整理笔记一边复习了。1.网络的定义网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices),用\(N\)表示;交互:链接(links)/边(edges),用\(E\)表示;对象和交互组成的系统我们就称为网络(或图,graph),用\(G(N,E)\)表示。一般而言,我们用术语网络来称呼一个真实的系统,如Web、社交网络、代谢网络等,此时伴随着术语节点和链接进行使用;而

图数据挖掘:网络的基本概念和表示方法

最近《复杂网络建模》这门课要考试了,正好也在跟Stanford的《CS224W:MachineLearningWithGraphs》这门课,这里就一边整理笔记一边复习了。1.网络的定义网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices),用\(N\)表示;交互:链接(links)/边(edges),用\(E\)表示;对象和交互组成的系统我们就称为网络(或图,graph),用\(G(N,E)\)表示。一般而言,我们用术语网络来称呼一个真实的系统,如Web、社交网络、代谢网络等,此时伴随着术语节点和链接进行使用;而

图数据挖掘:小世界网络模型和分散式搜索

1六度分隔理论先来看两个有趣的例子。我们建立一个好莱坞演员的网络,如果两个演员在电影中合作或就将他们链接起来。我们定义一个演员的贝肯数(baconnumber)是他们与演员凯文·贝肯有多少步的距离,贝肯数越高,演员离凯文·贝肯越远。研究发现,直到2007年12月,最高(有限)的贝肯数仅为\(8\),且大约只有12%的演员没有路径链接到凯文·贝肯。此外,在学术合作中,埃尔德什数(Erdősnumber)被用来描述数学论文中一个作者与PualErdős的“合作距离”(PualErdős就是我们在博客《图数据挖掘:Erdos-Renyi随机图的生成方式及其特性》中提到的那位巨佬)。菲尔茨奖获得者的埃

图数据挖掘:小世界网络模型和分散式搜索

1六度分隔理论先来看两个有趣的例子。我们建立一个好莱坞演员的网络,如果两个演员在电影中合作或就将他们链接起来。我们定义一个演员的贝肯数(baconnumber)是他们与演员凯文·贝肯有多少步的距离,贝肯数越高,演员离凯文·贝肯越远。研究发现,直到2007年12月,最高(有限)的贝肯数仅为\(8\),且大约只有12%的演员没有路径链接到凯文·贝肯。此外,在学术合作中,埃尔德什数(Erdősnumber)被用来描述数学论文中一个作者与PualErdős的“合作距离”(PualErdős就是我们在博客《图数据挖掘:Erdos-Renyi随机图的生成方式及其特性》中提到的那位巨佬)。菲尔茨奖获得者的埃

图数据挖掘!使用图分析+AI进行保险欺诈检测 ⛵

?作者:韩信子@ShowMeAI?机器学习实战系列:https://www.showmeai.tech/tutorials/41?本文地址:https://www.showmeai.tech/article-detail/307?声明:版权所有,转载请联系平台与作者并注明出处?收藏ShowMeAI查看更多精彩内容保险欺诈是一个巨大的问题,保险业长期以来一直在与欺诈作斗争。健康保险欺诈是一种作假骗保的行为,整个欺诈过程可能涉及患者、医生和受益人的同行的配合联合行动,联合欺诈的异常行为可能形成一个欺诈圈,普通机器学习AI算法很难基于基础信息发现欺诈活动。而这类场景有着强有效作用的,是关系网数据的挖

图数据挖掘!使用图分析+AI进行保险欺诈检测 ⛵

?作者:韩信子@ShowMeAI?机器学习实战系列:https://www.showmeai.tech/tutorials/41?本文地址:https://www.showmeai.tech/article-detail/307?声明:版权所有,转载请联系平台与作者并注明出处?收藏ShowMeAI查看更多精彩内容保险欺诈是一个巨大的问题,保险业长期以来一直在与欺诈作斗争。健康保险欺诈是一种作假骗保的行为,整个欺诈过程可能涉及患者、医生和受益人的同行的配合联合行动,联合欺诈的异常行为可能形成一个欺诈圈,普通机器学习AI算法很难基于基础信息发现欺诈活动。而这类场景有着强有效作用的,是关系网数据的挖