【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)

Lingxw_w 2023-05-26 原文

一、背景和挖掘目标

1、问题背景

从事渔业生产有经验的从业者可通过观察水色变化调控水质，用来维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断，存在主观性引起的观察性偏倚，使观察结果的可比性、可重复性降低，不易推广应用。当前，数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测等方面，数字图像处理技术是基于计算机视觉，以专家经验为基础，对池塘水色进行优劣分级，达到对池塘水色的准确快速判别。

2、水色分类

水色

浅绿色（清水或浊水）

灰蓝色

黄褐色

茶褐色

（姜黄、茶褐、红褐、褐中带绿等）

绿色

（黄绿、油绿、蓝绿、墨绿、绿中带褐等）

水质类别

3、原始数据

水产专家按水色判断水质分类,每个水质图片命名规则为“类别-编号.jpg”

4、挖掘目标

请根据水质图片，利用图像处理技术，通过水色图像实现水质的自动评价。

二、分析方法和过程

1、初步分析

通过对拍摄的水样，采集得到水样图像，而图像数据的维度过大，不容易分析，需要从中提取水样图像的特征，提取反映图像本质的一些关键指标，以达到自动进行图像识别或分类的目的。显然，图像特征提取是图像识别或分类的关键步骤，图像特征提取的效果如何直接影响到图像识别和分类的好坏。
图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。与几何特征相比，颜色特征更为稳健，对于物体的大小和方向均不敏感，表现出较强的鲁棒性。本案例中由于水色图像是均匀的，故主要关注颜色特征。
采集得到的水样图像，数据维度过大，不容易分析，需要从中提取水样图像的特征，提取反映图像本质的一些关键指标，以达到自动进行图像识别或分类的目的。
图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。本案例中由于水色图像是均匀的，故主要关注颜色特征。颜色处理常用的方法有颜色直方图法和颜色矩。
颜色直方图：反映的是图像中颜色的组成分布，即出现了哪些颜色以及各种颜色出现的概率。其优点在于它能简单描述一幅图像中颜色的全局分布，即不同色彩在整幅图像中所占的比例，特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于它无法描述图像中颜色的局部分布及每种色彩所处的空间位置，即无法描述图像中的某一具体的对象或物体。
颜色矩：图像中任何的颜色分布均可以用它的矩来表示。根据概率论，随机变量的概率分布可以由其各阶矩唯一的表示和描述。一副图像的色彩分布也可认为是一种概率分布，那么图像可以由其各阶矩来描述。颜色矩包含各个颜色通道的一阶距、二阶矩和三阶矩，对于一副RGB颜色空间的图像，具有R、G和B三个颜色通道，则有9个分量。
颜色直方图产生特征维数一般大于颜色矩的特征维数，为了避免过多变量影响后续的分类效果，在本案例采用颜色矩来提取水样图像的特征。

2、总体流程

第1步：数据预处理——图像切割

采集到的水样图像包含盛水容器，容器的颜色与水体颜色差异较大，同时水体位于图像中央，为了提取水色的特征，需要提取水样图像中央部分具有代表意义的图像，具体实施方式是提取水样图像中央101*101像素的图像。

设原始图像的大小是，则截取宽从第个像素点到第个像素点。

长从第个像素点到第个像素点的子图像。函数表示向0靠拢取整。

各阶颜色矩的计算公式：

1、一阶颜色矩：采用一阶原点矩，反映了图像的整体明暗程度。

其中Ei是在第i个颜色通道的一阶颜色矩，对于RGB颜色空间的图像i=1,2,3，Pij是第j个像素的第i个颜色通道的颜色值。

2、二阶颜色矩：采用二阶中心距的平方根，反映了图像颜色的分布范围。

其中Si是在第i个颜色通道的二阶颜色矩，Ei是在第i个颜色通道的一阶颜色矩。

3、三阶颜色矩：采用三阶中心距的立方根，反映了图像颜色分布的对称性。

其中Si是在第i个颜色通道的二阶颜色矩，Ei是在第i个颜色通道的一阶颜色矩。

import numpy as np
import pandas as pd
from sklearn import preprocessing
from PIL import Image
import os

def PicManage(path,i):
    pic = Image.open(path)
    pic.c_x, pic.c_y = (int(i/2) for i in pic.size)
    box = (pic.c_x-50, pic.c_y-50, pic.c_x+50, pic.c_y+50)
    #从图片中提取中心100*100的子矩形
    region = pic.crop(box)
    
    #切分RGB
    r, g, b = np.split(np.array(region), 3, axis = 2)
    
    #计算一阶矩
    r_m1 = np.mean(r)
    g_m1 = np.mean(g)
    b_m1 = np.mean(b)
    
    #二阶矩
    r_m2 = np.std(r)
    g_m2 = np.std(g)
    b_m2 = np.std(b)
    
    #三阶矩
    r_m3 = np.mean(abs(r - r.mean())**3)**(1/3)
    g_m3 = np.mean(abs(g - g.mean())**3)**(1/3)
    b_m3 = np.mean(abs(b - b.mean())**3)**(1/3)
    
    #将数据标准化，区间在[-1,1]
    typ = np.array([i])
    arr = np.array([r_m1,g_m1,b_m1,r_m2,g_m2,b_m2,r_m3,g_m3,b_m3])
    #df = pd.DataFrame(preprocessing.minmax_scale(arr,feature_range=(-1,1))).T
    df = pd.DataFrame(arr).T
    dn = pd.DataFrame(typ).T
    return df,dn

result = []
type_result = []
for i in os.listdir('images'):
    if i.endswith('.jpg'):
        df,dn = PicManage('images/'+i,int(i[0]))
        result.append(df)
        type_result.append(dn)
        
data = pd.concat(result)
typ = pd.concat(type_result)
data = pd.DataFrame(preprocessing.normalize(data,norm='l2'))   
data['type'] = typ.values
data.to_excel('picData.xls',index = False)

第2步：特征提取

颜色矩特征提取后的数据集：

第3步：构建模型

抽取80%作为训练样本，剩下的20%作为测试样本，用于水质评价检验。本案例采用支持向量机作为水质评价分类模型。

#-*- coding:utf-8 -*-
import pandas as pd

#datapath = './data/moment.csv'
#data = pd.read_csv(datapath,encoding = 'gbk')
data = data.values

#划分训练集和测试集
#cross_validation在sklearn0.20中改为model_selection
from sklearn.model_selection  import train_test_split
train, test, train_target, test_target = train_test_split(data[:,0:],data[:,-1],test_size=0.2)
train_target = train_target.astype(int)
test_target = test_target.astype(int)

#构建SVM模型
from sklearn import svm
model = svm.SVC()
model.fit(train*30,train_target)

#save model
from sklearn.externals import joblib
joblib.dump(model,'svcmodel.pkl')

#read model
model = joblib.load('svcmodel.pkl')

#混淆矩阵
from sklearn import metrics
cm_train = metrics.confusion_matrix(train_target, model.predict(train*30))
cm_test = metrics.confusion_matrix(test_target, model.predict(test*30))

train_accuracy = metrics.accuracy_score(train_target,model.predict(train*30))
test_accuracy = metrics.accuracy_score(test_target,model.predict(test*30))

print("train accuracy: %f"% train_accuracy) #1.000
print("test accuracy: %f"% test_accuracy) #0.9756

tr = pd.DataFrame(cm_train,index = range(1,6),columns = range(1,6)).to_excel('train.xls')
te = pd.DataFrame(cm_test,index = range(1,6),columns = range(1,6)).to_excel('test.xls')

由混淆矩阵，分类准确率为96.91%，分类效果较好，可应用模型进行水质评价。

预测值实际值	1	2	3	4	5
1	41	1	1	0	0
2	0	34	0	0	0
3	0	0	59	0	0
4	0	0	1	20	0
5	0	1	0	1

第4步：水质评价

取所有测试样本为输入样本，代入已构建好的LM神经网络模型，得到输出结果。

由混淆矩阵，分类准确率为95.12%，说明水质评价模型对于新增的水色图像的分类效果较好，可将模型应用到水质自动评价系统，实现水质评价。（注意，由于用随机函数来打乱数据，因此重复试验所得到的结果可能有所不同。）

预测值实际值	1	2	3	4	5
1	7	0	1	0	0
2	0	10	0	0	0
3	0	0	19	0	0
4	0	0	0	3	0
5	0	0	0	1	0

第5步：决策树模型对比实验

import numpy as np
import os, re
from PIL import Image


def get_ImgNames(path):
    """
    获取图片名称
    :param path: 路径
    :return: 名称列表
    """
    # os.listdir用于返回该路径下所包含的文件或文件夹的名字列表
    filenames = os.listdir(path=path)
    imgnames = []
    for i in filenames:
        # 在返回的文件名字中寻找正则表达式所匹配的所有字符串，如果不存在，返回空列表
        if re.findall('^\d_\d+\.jpg$', i) != []:
            imgnames.append(i)
    return imgnames


def Var(data=None):
    """
    获取三阶颜色矩
    :param p: 数据
    :return: 返回三阶颜色矩
    """
    x = np.mean((data - data.mean()) ** 3)
    return np.sign(x) * np.abs(x) ** 1 / 3


def imageCutting_FeatureExtraction(path, imgnames=None):
    """
    图像切割与基于颜色矩进行特征提取
    :param path: 路径
    :param imgnames: 所有图片的名称
    :return: 返回特征提取后的9个分量，以及对应标签
    """
    # 获取图片的数目
    n = len(imgnames)
    data = np.zeros((n, 9))  # 用来存放特征提取后的分量
    label = np.zeros((n))  # 用来存放样本标签

    # 对每一张图片进行图像分割，并计算9个分量
    for i in range(n):
        # 打开图像文件
        img = Image.open(path + imgnames[i])
        # 获取图片的尺寸
        M, N = img.size
        # 图像切割提取图样中间部分,img.crop返回图像的矩阵区域，参数为 (left, upper, right, lower)的元祖
        img = img.crop((M / 2 - 50, N / 2 - 50, M / 2 + 50, N / 2 + 50))
        # 将图像分割成3个通道，
        r, g, b = img.split()
        # 转化为数组数据并归一化，获得对应的像素矩阵
        rd = np.array(r, dtype=np.float32) / 255
        gd = np.array(g, dtype=np.float32) / 255
        bd = np.array(b, dtype=np.float32) / 255

        # 计算一阶颜色矩
        data[i, 0] = rd.mean()
        data[i, 1] = gd.mean()
        data[i, 2] = bd.mean()

        # 计算二阶颜色矩
        data[i, 3] = rd.std()
        data[i, 4] = gd.std()
        data[i, 5] = bd.std()

        # 计算三阶颜色矩
        data[i, 6] = Var(rd)
        data[i, 7] = Var(gd)
        data[i, 8] = Var(bd)

        # 获取样本标签-每个图片名的第一个数字代表类别
        label[i] = imgnames[i][0]
    return data, label


if __name__ == '__main__':
    # 获取所有图片的名称
    imgNames = get_ImgNames(path='images')
    # 图像切割与特征提取
    data, label = imageCutting_FeatureExtraction(path='images/', imgnames=imgNames)
    print(data)
    print(label)

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

# 划分数据集
# shuffle=True尽可能每一类别都取到或者采用分层抽样
data_tr, data_te, label_tr, label_te = train_test_split(data, label, test_size=0.2, shuffle=True)
model = DecisionTreeClassifier(random_state=1234)
model.fit(data_tr, label_tr)
# 预测
pred_te = model.predict(data_te)
# 混淆矩阵
cm = confusion_matrix(label_te, pred_te)
print('混淆矩阵为\n', cm)
# 准确率
acc = accuracy_score(label_te, pred_te)
print('准确率为\n', acc)

混淆矩阵和准确率：

三、总结和思考

我国环境质量评价工作是年代后才逐步发展起来的。发展至今，在评价指标体系及评价理论探索等方面均有较大进展。但目前我国环境评价实际工作中，所采用的方法通常是一些比较传统的评价方法，往往是从单个污染因子的角度对其进行简单评价。然而对某区域的环境质量如水质、大气质量等的综合评价一般涉及较多的评价因素，且各因素与区域环境整体质量关系复杂，因而采用单项污染指数评价法无法客观准确地反映各污染因子之间相互作用对环境质量的影响。
基于上述原因，要客观评价一个区域的环境质量状况，需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系，采用传统的方法存在着一定的局限性和不合理性。因此，从学术研究的角度对环境评价的技术方法及其理论进行探讨，寻求能更全面、客观、准确反映环境质量的新的理论方法具有重要的现实意义。

参考：《python数据分析和数据挖掘》

mdash 挖掘 style color span 数据挖掘计算机视觉人工智能

有关【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby-on-rails - 添加回形针新样式不影响旧上传的图像 - 2
我有带有Logo图像的公司模型has_attached_file:logo我用他们的Logo创建了许多公司。现在，我需要添加新样式has_attached_file:logo,:styles=>{:small=>"30x15>",:medium=>"155x85>"}我是否应该重新上传所有旧数据以重新生成新样式？我不这么认为……或者有什么rake任务可以重新生成样式吗？最佳答案参见Thumbnail-Generation.如果rake任务不适合你，你应该能够在控制台中使用一个片段来调用重新处理!关于相关公司
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf