草庐IT

src挖掘

全部标签

oracle 19c 创建物化视图并测试logminer进行日志挖掘

1.创建物化视图altersessionsetcontainer=pdb;grantcreatematerializedviewtoscott;创建语法解释1."创建build"的方式(1)'immediate':立即生效,默认。(2)'deferred':延迟至第一次refresh时才生效2."刷新refresh"的方式(1)force:默认。如果可以'快速刷新'就'快速刷新',否则执行'完全刷新'(2)fast:'快速刷新'。只刷新'增量'部分(前提:创建'物化日志')(3)complete:'完全刷新'。刷新时更新全部数据,包括视图中已经生成的原有数据(4)never:从不刷新3."触发

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

在使用BI工具的时候,经常遇到的问题是:“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析?”而专业算法团队在做数据挖掘时,数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作,也是一个提效的好办法。同时,对于专业数仓团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?1. DataWind 可视化建模能力来了由火山引擎推出的BI平台DataWind智能数据洞察,推出了全新进阶功能——可视化建模。用户可通过可视化拖、拉、连线操作,将复杂的数

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

在使用BI工具的时候,经常遇到的问题是:“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析?”而专业算法团队在做数据挖掘时,数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作,也是一个提效的好办法。同时,对于专业数仓团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?1. DataWind 可视化建模能力来了由火山引擎推出的BI平台DataWind智能数据洞察,推出了全新进阶功能——可视化建模。用户可通过可视化拖、拉、连线操作,将复杂的数

时效准确率提升之承运商路由网络挖掘

1、引子履约时长是电商的生命线,直接关系到用户的消费体验。新华网[5]2022年双十一的报告显示,37.4%的受访者希望次日达,29.91%希望当日达。相较于其他物品,受访者对手机、电脑、数码产品的物流时效要求更高,更希望当日或1-2天内能收到货。得物履约场景中,主要的阶段包括仓库内生产和第三方承运商配送。在用户支付时,得物会根据仓库的生产情况和运配资源,给用户一个承诺时效。1.1为什么要预测承运商的线路时效在履约过程中,得物需要监控订单的流转,及时的发现可能超时的订单(与和用户承诺时效相比),这里包含仓库生产的监控和三方配送的监控。在实际过程中我们发现:配送节点发生变更时,承运商给的预测偏保

时效准确率提升之承运商路由网络挖掘

1、引子履约时长是电商的生命线,直接关系到用户的消费体验。新华网[5]2022年双十一的报告显示,37.4%的受访者希望次日达,29.91%希望当日达。相较于其他物品,受访者对手机、电脑、数码产品的物流时效要求更高,更希望当日或1-2天内能收到货。得物履约场景中,主要的阶段包括仓库内生产和第三方承运商配送。在用户支付时,得物会根据仓库的生产情况和运配资源,给用户一个承诺时效。1.1为什么要预测承运商的线路时效在履约过程中,得物需要监控订单的流转,及时的发现可能超时的订单(与和用户承诺时效相比),这里包含仓库生产的监控和三方配送的监控。在实际过程中我们发现:配送节点发生变更时,承运商给的预测偏保

【GEO数据库挖掘】一、了解GEO数据库及数据下载

找出文章GSE号,修改后缀即可。https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673使用RStudio小tips:新建文件夹拷贝project文件可以在R中快速定位文件夹位置。很方便。1下载原始数据RAW.tar。(并不推荐)image.pngRAW.tar使用affymetix包处理。不同数据库使用的R包也不一样。2下载表达矩阵Matrix。(推荐)image.png使用函数读取:a3在R中直接读取。(也和网络有关,不过我还是倾向第二种方法,下述代码仅作示例)##安装包source("http://www.bioconduct

【GEO数据库挖掘】一、了解GEO数据库及数据下载

找出文章GSE号,修改后缀即可。https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673使用RStudio小tips:新建文件夹拷贝project文件可以在R中快速定位文件夹位置。很方便。1下载原始数据RAW.tar。(并不推荐)image.pngRAW.tar使用affymetix包处理。不同数据库使用的R包也不一样。2下载表达矩阵Matrix。(推荐)image.png使用函数读取:a3在R中直接读取。(也和网络有关,不过我还是倾向第二种方法,下述代码仅作示例)##安装包source("http://www.bioconduct

GEO数据挖掘基本流程与代码

写在前面:本文内容出自生信技能树的生信入门系列课程笔记,感谢小洁老师、Jimmy老师的分享。GEO数据挖掘分析思路:1.找数据,找到GSE编号2.下载数据(表达矩阵、临床信息、分组信息)3.数据探索(分组之间是否有差异,PCA、整个数据的热图)4.limma差异分析及可视化(P值、logFC,火山图、差异基因的热图)5.富集分析KEGG、GO注意:该标准流程只适用于表达芯片分析,甲基化、SNP等芯片的流程详见生信技能树专题。GEO表达芯片分析的要点:解决probe_id与genesymbol、样本编号GSM与分组之间的对应关系。GO富集的3个方面:1.分子功能(MolecularFunctio

GEO数据挖掘基本流程与代码

写在前面:本文内容出自生信技能树的生信入门系列课程笔记,感谢小洁老师、Jimmy老师的分享。GEO数据挖掘分析思路:1.找数据,找到GSE编号2.下载数据(表达矩阵、临床信息、分组信息)3.数据探索(分组之间是否有差异,PCA、整个数据的热图)4.limma差异分析及可视化(P值、logFC,火山图、差异基因的热图)5.富集分析KEGG、GO注意:该标准流程只适用于表达芯片分析,甲基化、SNP等芯片的流程详见生信技能树专题。GEO表达芯片分析的要点:解决probe_id与genesymbol、样本编号GSM与分组之间的对应关系。GO富集的3个方面:1.分子功能(MolecularFunctio

一篇数据挖掘文章的图表复现-1

0.文章文章标题:Characterizationofanendoplasmicreticulumstress‐relatedsignaturetoevaluateimmunefeaturesandpredictprognosisinglioma期刊:JCellMolMed影响因子:5.3虽然是个小小的5分文章,但涉及到的分析非常丰富,图表也很多样,我把他的数据拿来做例子进行分析,开启一段更新咯。流程图构建模型部分的主要结果:图A是四个数据集中,用两种算法(log-ranktest和单因素cox)p图D是结合逐步回归法,选出的16个基因构成的多因素cox模型。可以看到C-index值是0.86