草庐IT

cluster-analysis

全部标签

java - 克洛贾尔/Java : Java libraries for spectrum analysis of sound?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭2年前。Improvethisquestion我正在寻找一个可以接受大量音频数据并返回给定频带内随时间变化的平均振幅的库。我已经在comp.dsp上问过这个问题,但我很清楚,获得使用基本FFT库自行构建它的知识将需要比我现在更多的时间和精力当下。这是我的原始问题,更详细:http://groups.google.com/group/comp.dsp/browse_thread/thread/e04f78d439e

玩转 PI 系列-看起来像服务器的 ARM 开发板矩阵-Firefly Cluster Server

前言基于我个人的工作内容和兴趣,想要在家里搞一套服务器集群,用于容器/K8s等方案的测试验证。考虑过使用二手服务器,比如DellR730,还搞了一套配置清单,如下:DellR7303.5尺寸规格硬盘CPU:2686v4*2内存:16g*8存储:480Gintelssd系统盘+6tsas希捷*2个数据盘RAID卡:h730卡电源:单电750w盘架满价格大约是3130元再来套服务器机柜。..但是考虑到功率和噪音太大了,家里也没有适合放服务器的这么大的地,最终放弃了。😂也考虑过用单片的arm开发板,但是需要搞好几片,然后编译系统、刷机、装合适的壳子、找电源线和网线,再接入家庭网络。..一台一台折腾,

python - scipy.cluster.vq.kmeans2 中的 "Matrix is not positive definite"错误

我正在尝试对128维点(图像中兴趣点的描述符)执行kmeans聚类。当我使用scipy.cluster.vq.kmeans2函数时,有时会出现以下错误:File"main.py",line21,inlevel_routinecurrent.centroids,current.labels=cluster.vq.kmeans2(current.descriptors,k)File"/usr/lib/python2.7/dist-packages/scipy/cluster/vq.py",line706,inkmeans2clusters=init(data,k)File"/usr/lib

python - 聚类结构 3D 数据

假设我有许多对象(类似于蛋白质,但不完全相同),每个对象都由一个包含n个3D坐标的向量表示。这些物体中的每一个都指向空间中的某个地方。可以通过使用KabschAlgorithm对齐它们来计算它们的相似性。并计算对齐坐标的均方根偏差。我的问题是,以提取人口最多的集群(即大多数结构所属的集群)的方式对大量这些结构进行聚类的推荐方法是什么。另外,有没有办法在python中执行此操作。举例来说,这是一组简单的非聚类结构(每个结构都由四个顶点的坐标表示):然后是所需的聚类(使用两个聚类):我已经尝试将所有结构与引用结构(即第一个结构)对齐,然后使用Pycluster.kcluster对引用和对齐

python - 用于产品数据分析的最佳 Python 聚类库

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我收集了各种产品的字母数字产品代码。类似产品的代码没有内在相似性,即产品代码“A123”可能表示“HarryPotterVolume1DVD”,而“B123”可能表示“KellogsCornFlakes”。我实际上也没有产品的描述或标识。我所拥有的只是这段代码的“所有者”。因此,我的数据(以非正常方式)看起来像这样:所有者1:产品代码A123、B124、W555、M2

【IDEA大项目依赖分析卡死-解决方案】Processing build files for dependencies analysis...

最近一直在研究一个大型项目,在IDEA里面启动调试的时候,IDEA经常会进行Processingbuildfilesfordependenciesanalysis…(处理构建文件进行依赖分析),并且在这个步骤耗时太久甚至直接卡死。经过一些排查找到了解决方案。文章目录问题分析解决方案问题IDEA经常会进行Processingbuildfilesfordependenciesanalysis…(处理构建文件进行依赖分析),并且在这个步骤耗时太久甚至直接卡死。这种情况经常出现,查看IDEA的指标,发现cpu和内存都飙的很高。分析一度以为是IDEA的一个bug,甚至想向IDEA团队反馈,但是我构建了一

python - 使用空间和时间变量在 python(scipy) 中聚类

我的数据集的格式:[x-coordinate,y-coordinate,hour]hour是0到23之间的整数值。我现在的问题是,当我需要坐标的欧几里得距离度量,但小时需要一个不同的度量时,我如何对这些数据进行聚类(因为d(23,0)在欧几里得距离度量中为23)。是否可以为scipy中的每个特征使用不同距离度量的数据进行聚类?如何?谢谢 最佳答案 您需要定义自己的指标,以适当的方式处理“时间”。在scipy.spatial.distance.pdist的文档中你可以定义你自己的函数Y=pdist(X,f)Computesthedis

python - 算法 - 字符串相似度分数/哈希

有没有一种方法可以计算字符串的一般“相似性得分”?在某种程度上,我不是将两个字符串放在一起比较,而是为每个字符串获取一些数字/分数(散列),稍后可以告诉我两个字符串相似或不相似。两个相似的字符串应该具有相似(接近)的分数/哈希值。让我们以这些字符串和分数为例:HelloWorld1000世界,您好!1010你好地球1125富吧3250FooBarbar3750酒吧!3300世界啊!2350您可以看到Helloworld!和Helloworld相似,分数接近。这样,找到与给定字符串最相似的字符串将通过从其他分数中减去给定字符串分数然后对它们的绝对值排序来完成。我的最终目标是:将有流式日志

Python KMeans 聚类单词

我有兴趣对距离度量为Leveshtein的单词列表执行kmeans聚类。1)我知道有很多框架,包括具有kmeans实现的scipy和orange。然而,它们都需要某种向量作为数据,这并不适合我。2)我需要一个好的集群实现。我查看了python聚类并意识到它不会a)返回到每个质心的所有距离的总和,并且b)它没有任何类型的迭代限制或截止以确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不适用。有人能帮我找到一个好的库吗?Google不是我的friend 最佳答案 是的,我认为我需要的东西没有很好的实现。我有一些疯狂

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类,现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间,所以我假设我需要使用采样,即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过,我不太清楚什么是合适的抽样方法。给定矩阵的大小,是否有关于使用多大样本的经验法则?是取我的分析机可以处理的最大样本更好,还是取更多较小样本的平均值更好?我