草庐IT

样本数

全部标签

java - 如何在我的 Oracle 数据库中生成随机样本数据?

有谁知道可以检查指定模式并根据该模式的表和列生成随机数据的工具? 最佳答案 另一种选择是SwingbenchDataGenerator使用SAMPLE很有用子句(例如为订单和产品的随机组合生成订单行) 关于java-如何在我的Oracle数据库中生成随机样本数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/6189275/

python - 向数据添加更多样本点

给定一些形状为20x45的数据,其中每一行都是一个单独的数据集,比如20条不同的正弦曲线,每条有45个数据点,我将如何获得相同的数据,但形状为20x100?换句话说,我有一些形状为20x45的数据A和一些长度为20x100的数据B,我希望A的形状为20x100,以便更好地比较它们。这适用于Python和Numpy/Scipy。我假设它可以用样条曲线来完成,所以我正在寻找一个简单的例子,可能只是2x10到2x20或类似的东西,其中每一行只是一条线,来演示解决方案。谢谢! 最佳答案 当我输入这个例子时,Ubuntu打败了我,但他的例子只

python - 如何在 Scikit-Learn 的随机森林分类器中设置子样本大小?特别是对于不平衡数据

目前,我正在Sklearn中为我的不平衡数据实现RandomForestClassifier。我不太清楚RF在Sklearn中究竟是如何工作的。以下是我的担忧:根据文档,似乎没有办法为每个树学习器设置子样本大小(即小于原始数据大小)。但实际上,在随机森林算法中,我们需要得到每棵树的样本子集和特征子集。我不确定我们能否通过Sklearn实现这一目标?如果是,如何?下面是Sklearn中对RandomForestClassifier的描述。“随机森林是一种元估计器,它在数据集的各种子样本上拟合多个决策树分类器,并使用平均来提高预测准确性和控制过度拟合。子样本大小为始终与原始输入样本大小相同

python - 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用pythonscikit-learn库在5000多个样本上安装了k-means算法。我想将最接近聚类中心的50个样本作为输出。我如何执行此任务? 最佳答案 如果km是k-means模型,则数组X中每个点到第j个质心的距离是d=km.transform(X)[:,j]这给出了一个len(X)距离数组。最接近质心j的50个索引是ind=np.argsort(d)[::-1][:50]所以离质心最近的50个点是X[ind](或者使用argpartition,如果你有足够新的NumPy,因为这样会快很多)。

利用AI+大数据的方式分析恶意样本(四十六)

FromGrimRealitytoPracticalSolution:MalwareClassificationinReal-WorldNoise西北大学,XinyuXing恶意软件数据集由于样本标记所需的专业知识和经验的短缺,不可避免地包含了错误的标签。先前的研究表明,训练集中存在错误标记的样本将导致模型学习的不准确。为解决这个问题,研究人员提出了各种噪声学习方法来抵消错误标记样本的影响,在图像识别和文本挖掘等应用中,这些方法表现出了很好的效果。在这项工作中,我们将代表性和最先进的噪声学习方法应用于现实世界的恶意软件分类任务。令人惊讶的是,我们观察到现有方法都不能最小化错误标签的影响。通过精

python - 有没有办法在决策树的每个叶子下获取样本?

我使用数据集训练了决策树。现在我想看看哪些样本落在树的哪片叶子下。从这里我想要红色圆圈的样本。我正在使用Python的Sklearn决策树实现。 最佳答案 如果你只想要每个样本的叶子,你可以使用clf.apply(iris.data)array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,14,5,

python - 找到包含 0 个样本 (shape=(0, 40)) 的数组,而至少需要 1 个

我正在使用Python2.7、sklearn0.17.1、numpy1.11.0测试一个简单的预测程序。我从LDA模型中获得了概率矩阵,现在我想创建RandomForestClassifier以通过概率预测结果。我的代码是:maxlen=40props=[]fordocincorpus:topics=model.get_document_topics(doc)tprops=[0]*maxlenfortopicintopics:tprops[topics[0]]=topics[1]props.append(tprops)ntheta=np.array(props)ny=np.array(

python - 解决方案适用于样本数据,但在线判断给出错误?

这是我要解决的问题:B:TheFoxen'sTreasureThereareN(1≤N≤4)Foxenguardingacertainvaluabletreasure,whichyou'dlovetogetyourhandson.Theproblemis,theFoxencertainlyaren'tabouttoallowthat-atleast,notwhilethey'reawake.Fortunately,throughcarefulobservation,you'veseenthateachFoxhasaregularsleepcycle.Inparticular,theit

python - 为什么随机抽样与数据集而不是样本量成比例? ( Pandas .sample() 示例)

当我从不同大小的分布中随机抽样时,我惊讶地发现执行时间似乎主要与被抽样的数据集的大小成比例,而不是被抽样的值的数量。示例:importpandasaspdimportnumpyasnpimporttimeastm#generateasmallandalargedatasettestSeriesSmall=pd.Series(np.random.randn(10000))testSeriesLarge=pd.Series(np.random.randn(10000000))sampleSize=10tStart=tm.time()currSample=testSeriesLarge.sa

python - scikit 学习中的样本权重和类权重选项有什么区别?

我有类(class)不平衡问题,想使用成本敏感学习来解决这个问题。欠采样和过采样赋予类权重以使用修改后的损失函数问题Scikitlearn有2个选项,称为类权重和样本权重。样本权重实际上是在执行选项2)和类别权重选项1)。选项2)是处理类不平衡的推荐方法。 最佳答案 这是相似的概念,但使用sample_weights可以强制估计器更加关注某些样本,使用class_weights可以强制估计器关注某些特定类进行学习。sample_weight=0或class_weight=0基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因