草庐IT

MRI分类

全部标签

python - 字符串分类特征的一种热编码

我正在尝试对琐碎的数据集执行一次热编码。data=[['a','dog','red']['b','cat','green']]使用Scikit-Learn预处理这些数据的最佳方法是什么?首先,您会看向Scikit-Learn的OneHotEncoder.但是一个热门的编码器不支持字符串作为特征;它只离散整数。那么你将使用LabelEncoder,它将字符串编码为整数。但是随后您必须将标签编码器应用到每一列并存储这些标签编码器中的每一个(以及应用它们的列)。这感觉非常笨重。那么,在Scikit-Learn中最好的方法是什么?请不要建议pandas.get_dummies.这就是我现在通常

python 心脏病可视化和分类预测

一、问题分析的背景和意义背景:心脏病是人类健康的头号杀手,全世界1/3的人口死亡是心脏病引起的。而我国,每年有几十万人死于心脏病。如果可以通过提取人体相关的体测指标,通过数据挖掘方式来分析不同特征对于心脏病的影响,将对预防心脏病起到至关重要的作用。意义:此数据集可以用于分析患者患有心脏病是否与本身患有的其他疾病有关系,为预测心脏病提供决策支持。例如,通过分析心脏病分类预测数据集,我们可以得出结论,年龄越大、不运动的患者得心脏病的可能性越高,或者患者本身患有的某些疾病与心脏病之间存在显著的相关性等。二、数据来源数据文件heart.csv已经放入网盘里,需要可自行下载链接:https://pan.

神经网络的 Python 实时图像分类问题

我正在尝试使用caffe和python进行实时图像分类。我在一个进程中使用OpenCV从我的网络摄像头流式传输,在一个单独的进程中,使用caffe对从网络摄像头拉取的帧执行图像分类。然后我将分类结果传回主线程,为网络摄像头流添加字幕。问题是,即使我有一个NVIDIAGPU并且正在GPU上执行caffe预测,主线程也会变慢。通常不做任何预测,我的网络摄像头流以30fps运行;但是,根据预测,我的网络摄像头流最多可以达到15fps。我已验证caffe在执行预测时确实使用了GPU,并且我的GPU或GPU内存没有达到最大值。我还验证了我的CPU内核在程序期间的任何时候都没有达到最大值。我想知道

神经网络的 Python 实时图像分类问题

我正在尝试使用caffe和python进行实时图像分类。我在一个进程中使用OpenCV从我的网络摄像头流式传输,在一个单独的进程中,使用caffe对从网络摄像头拉取的帧执行图像分类。然后我将分类结果传回主线程,为网络摄像头流添加字幕。问题是,即使我有一个NVIDIAGPU并且正在GPU上执行caffe预测,主线程也会变慢。通常不做任何预测,我的网络摄像头流以30fps运行;但是,根据预测,我的网络摄像头流最多可以达到15fps。我已验证caffe在执行预测时确实使用了GPU,并且我的GPU或GPU内存没有达到最大值。我还验证了我的CPU内核在程序期间的任何时候都没有达到最大值。我想知道

python - 开发Dilbert卡通图像分类算法的一般方法

作为一项自我发展的练习,我想开发一种简单的分类算法,在给定Dilbert卡通的特定单元格的情况下,能够识别出卡通中存在哪些字符(Dilbert,PHB,Ratbert等)。我认为最好的方法是(1)对图像应用某种算法,将其转换为一组特征;(2)使用训练集和许多可能的机器学习算法中的一种来关联存在性/在单元格中没有某些具有特定特征的特征。因此,我的问题是-(a)这是正确的方法吗,(b)由于要测试许多分类算法和ML算法,找到正确方法的最佳方法是什么,以及(c)您将开始使用哪种算法假设我们实质上是对卡通进行分类练习。 最佳答案 因此,我认为

python - 开发Dilbert卡通图像分类算法的一般方法

作为一项自我发展的练习,我想开发一种简单的分类算法,在给定Dilbert卡通的特定单元格的情况下,能够识别出卡通中存在哪些字符(Dilbert,PHB,Ratbert等)。我认为最好的方法是(1)对图像应用某种算法,将其转换为一组特征;(2)使用训练集和许多可能的机器学习算法中的一种来关联存在性/在单元格中没有某些具有特定特征的特征。因此,我的问题是-(a)这是正确的方法吗,(b)由于要测试许多分类算法和ML算法,找到正确方法的最佳方法是什么,以及(c)您将开始使用哪种算法假设我们实质上是对卡通进行分类练习。 最佳答案 因此,我认为

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

使用ENVI进行监督分类

目录1.用ENVI对地类进行监督分类1.1边界线1.2打开影像文件1.3辐射定标1.4按边界裁剪1.5大气校正1.6选择样本1.7支持向量机快速分类1.8栅格数据转矢量数据1.9.evf转.shp1.10制图2.快速监督分类1.用ENVI对地类进行监督分类1.1边界线将边界的.shp文件转为.evf文件。(直接打开.shp文件好像也可以)打开ENVIclassic,按如下步骤打开: 打开边界线的.Shp文件,出现如下窗口:点击OK,就在定义的位置出现了.evf的边界文件。1.2打开影像文件打开ENVI并打开文件,找到下载的影像压缩包,解压并打开MTL文件。1.3辐射定标软件右侧搜索“rad”出

python - 检查数据框列是否为分类

我似乎无法使用Pandas在v0.15+中改进的分类进行简单的dtype检查。基本上我只想要is_categorical(column)->True/False之类的东西。importpandasaspdimportnumpyasnpimportrandomdf=pd.DataFrame({'x':np.linspace(0,50,6),'y':np.linspace(0,20,6),'cat_column':random.sample('abcdef',6)})df['cat_column']=pd.Categorical(df2['cat_column'])我们可以看到分类列的dt