【计算机视觉（CV）】基于高层API实现宝石分类

灵彧universe 2023-03-28 原文

【计算机视觉（CV）】基于高层API实现宝石分类

作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~ . 博客主页：ぃ灵彧が的学习日志 . 本文专栏：人工智能 . 专栏寄语：若你决定灿烂，山无遮，海无拦 .

(文章目录)

前言

(一)、任务描述

图像分类是根据图像的语义信息将不同类别图像区分开来，是计算机视觉中重要的基本问题

宝石识别属于图像分类中的一个细分类问题

实践平台：百度AI实训平台-AI Studio

实践环境：Python3.7，PaddlePaddle2.0

(二)、环境配置

本实践代码运行的环境配置如下：Python版本为3.7，PaddlePaddle版本为2.0.0，操作平台为ＡI Studio。大部分深度学习项目都要经过以下几个过程：数据准备、模型配置、模型训练、模型评估。

import paddle
import numpy as np
import matplotlib.pyplot as plt
print(paddle.__version__)

# cpu/gpu环境选择，在 paddle.set_device() 输入对应运行设备。
# device = paddle.set_device('gpu')

一、方案设计

(一)、深度神经网络(DNN)

深度神经网络（Deep Neural Networks，简称DNN）是深度学习的基础，其结构为input、hidden（可有多层）、output，每层均为全连接。

二、数据集介绍

数据集文件名为archive_train.zip,archive_test.zip。
该数据集包含25个类别不同宝石的图像。
这些类别已经分为训练和测试数据。
图像大小不一，格式为.jpeg。

请勿将本数据集用于商务用途。

三、数据集预处理

本案例主要分以下几个步骤进行数据预处理：

（1）解压原始数据集

（2）按照比例划分训练集与验证集

（3）乱序，生成数据列表

（4）定义数据读取器，转换图片

(一)、导入相关包

首先我们引入本案例需要的所有模块

#导入所需的包
import os
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import paddle
import paddle.nn as nn

(二)、生成图像列表

'''
参数配置
'''
train_parameters = {
    "input_size": [3, 224, 224],                           #输入图片的shape
    "class_dim": 25,                                     #分类数
    "src_path":"data/data55032/archive_train.zip",       #原始数据集路径
    "target_path":"/home/aistudio/data/dataset",        #要解压的路径 
    "train_list_path": "./train.txt",              #train_data.txt路径
    "eval_list_path": "./eval.txt",                  #eval_data.txt路径
    "label_dict":{},                                    #标签字典
    "readme_path": "/home/aistudio/data/readme.json",   #readme.json路径
    "num_epochs": 40,                                    #训练轮数
    "train_batch_size": 32,                             #批次的大小
    "learning_strategy": {                              #优化函数相关的配置
        "lr": 0.0001                                     #超参数学习率
    } 
}

输出结果如下图1所示：

(三)、定义数据集

通过继承paddle.io.Dataset对数据集进行定义

import paddle
import paddle.vision.transforms as T
import numpy as np
from PIL import Image


class FoodDataset(paddle.io.Dataset):
    """
    数据集类的定义
    """
    def __init__(self, mode='train_data'):
        """
        初始化函数
        """
        self.data = []
        with open(f'{mode}.txt') as f:
            lines = f.readlines()
            np.random.shuffle(lines)
            for line in lines:
                info = line.strip().split('\t')
                if len(info) > 0:
                    self.data.append([info[0].strip(), info[1].strip()])  
                      
    def __getitem__(self, index):
        """
        根据索引获取单个样本
        """
        image_file, label = self.data[index]
        img = Image.open(image_file) 
        img = img.resize((img_size, img_size), Image.ANTIALIAS)
        img = np.array(img).astype('float32')
        # img = img[:,:,:]
        img = img.transpose((2, 0, 1))[:3,:,:]     #读出来的图像是rgb,rgb,rbg..., 转置为 rrr...,ggg...,bbb...
        # print(img.shape)
        img = img[:,:,:]/255.0
        # if img.size!=img_size*img_size*3:
        #     print('error-----------------------',img.size,img.shape)
        return img, np.array(label, dtype='int64')

    def __len__(self):
        """
        获取样本总数
        """
        return len(self.data)

(四)、定义数据集训练器

# 训练的数据提供器
train_dataset = FoodDataset(mode='train_data')
# 测试的数据提供器
eval_dataset = FoodDataset(mode='test_data')

# 查看训练和测试数据的大小
print('train大小：', train_dataset.__len__())
print('eval大小：', eval_dataset.__len__())

# 查看图片数据、大小及标签
# for data, label in train_dataset:
#     print(data)
#     print(np.array(data).shape)
#     print(label)
#     break

输出结果如下图2所示：

三、定义模型

from paddle.nn import Linear
import paddle.nn.functional as F
import paddle

#定义DNN网络
class MyDNN(paddle.nn.Layer):
    def __init__(self):
        super(MyDNN,self).__init__()
        self.hidden1 = Linear(img_size,512)
        self.hidden2 = Linear(512,256)
        self.hidden3 = Linear(256,128)
        self.hidden4 = Linear(3*img_size*128,labels_number)
    
    def forward(self,input): 
        x = self.hidden1(input) 
        x =F.relu(x) 
        x = self.hidden2(x)
        x = F.relu(x) 
        x = self.hidden3(x)
        x = F.relu(x) 
        x = paddle.reshape(x, shape=[-1,3*img_size*128])  
        x = self.hidden4(x)
        y = F.softmax(x) 
        return y

四、模型封装

network = MyDNN()
model = paddle.Model(network)  # 模型封装

# 配置优化器、损失函数、评估指标
model.prepare(paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters()), 
              paddle.nn.CrossEntropyLoss(), 
              paddle.metric.Accuracy())

# 可视化模型结构
# paddle.summary(network, (3,225,225))

五、训练回调函数

# 训练可视化VisualDL工具的回调函数
visualdl = paddle.callbacks.VisualDL(log_dir='visualdl_log')   

# 启动模型全流程训练
model.fit(train_dataset,  # 训练数据集
          eval_dataset,   # 评估数据集
          epochs=20,       # 训练的总轮次
          batch_size=64,  # 训练使用的批大小
          verbose=1,      # 日志展示形式
          callbacks=[visualdl])  # 设置可视化

输出结果如下图5所示：

六、模型评估

# 模型评估，根据prepare接口配置的loss和metric进行返回
result = model.evaluate(eval_dataset, verbose=1)
print(result)

# 读取图片
def load_image(path):
    img = Image.open(path)
    img = img.resize((img_size, img_size), Image.ANTIALIAS)
    img = np.array(img).astype('float32')
    img = img.transpose((2, 0, 1))
    img = img/255.0
    print(img.shape)
    return img

七、模型预测

# 读取模型准备预测
model_state_dict = paddle.load('finetuning/model.pdparams')
model = MyDNN()
model.set_state_dict(model_state_dict) 
model.eval（)

# 读取图片并预测
data = load_image('data/data55032/test/Alexandrite/alexandrite_18.jpg')
ceshi = model(paddle.to_tensor(data))
id2label = {v:k for k,v in label2id.items()}
print('预测的结果为:',id2label[np.argmax(ceshi.numpy())])

总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟，其中代码均为基于百度飞桨开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【**学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。**】

高层 API quot img strong paddle 计算机视觉高层API 宝石分类人工智能深度学习人工智能yyds干货盘点

有关【计算机视觉（CV）】基于高层API实现宝石分类的更多相关文章

ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
ruby-on-rails - ActionController::RoutingError: 未初始化常量 Api::V1::ApiController - 2
我有用于控制用户任务的Rails5API项目，我有以下错误，但并非总是针对相同的Controller和路由。ActionController::RoutingError:uninitializedconstantApi::V1::ApiController我向您描述了一些我的项目，以更详细地解释错误。应用结构路线scopemodule:'api'donamespace:v1do#=>Loginroutesscopemodule:'login'domatch'login',to:'sessions#login',as:'login',via::postend#=>Teamroutessc
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
ruby-on-rails - Mandrill API 模板 - 2
我正在使用Mandrill的RubyAPIGem并使用以下简单的测试模板:testastic按照Heroku指南中的示例，我有以下Ruby代码:require'mandrill'm=Mandrill::API.newrendered=m.templates.render'test-template',[{:header=>'someheadertext',:main_section=>'Themaincontentblock',:footer=>'asdf'}]mail(:to=>"JaysonLane",:subject=>"TestEmail")do|format|format.h
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2
项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明：前端使用微信微信小程序开发工具：后端使用ssm：VU

【计算机视觉（CV）】基于高层API实现宝石分类

【计算机视觉（CV）】基于高层API实现宝石分类

前言

(一)、任务描述

(二)、环境配置

一、方案设计

(一)、深度神经网络(DNN)

二、数据集介绍

三、数据集预处理

(一)、导入相关包

(二)、生成图像列表

(三)、定义数据集

(四)、定义数据集训练器

三、定义模型

四、模型封装

五、训练回调函数

六、模型评估

七、模型预测

总结

有关【计算机视觉（CV）】基于高层API实现宝石分类的更多相关文章

随机推荐