草庐IT

python实现Lasso回归分析(特征筛选、建模预测)

V数据杂坛 2023-03-28 原文

实现功能:

python实现Lasso回归分析(特征筛选、建模预测)

输入结构化数据,含有特征以及相应的标签,采用Lasso回归对特征进行分析筛选,并对数据进行建模预测。

实现代码:

import numpy as np

import warnings

warnings.filterwarnings(action='ignore')

import pandas as pd

import matplotlib.pyplot as plt

from sklearn import metrics

from sklearn.metrics import mean_squared_error

from sklearn.linear_model import Lasso,LassoCV

import seaborn as sns

#=================================读取数据============================

class Solution():

    def __init__(self):

        feature = ['男', '女', '年龄', 'CCP-正常', 'CCP-异常', 'MCV-正常', 'MCV-异常',

'AKA-正常', 'AKA-异常','RF-正常', 'RF-异常', 'ANA-正常', 'ANA-异常',

'ds-DNA-正常', 'ds-DNA-异常','CRP-正常', 'CRP-异常', 'ESR-正常', 'ESR-异常',

'尿蛋白-正常', '尿蛋白-异常', '尿潜血-正常', '尿潜血-异常','尿红细胞-正常',

'尿红细胞-异常', 'WBC-正常', 'WBC-异常', 'Hb-正常', 'Hb-异常', 'PLT-正常',

'PLT-异常', 'ALT-正常', 'ALT-异常', 'AST-正常', 'AST-异常', 'r-GT-正常',

'r-GT-异常', 'TBIL-正常', 'TBIL-异常', 'ALB-正常','ALB-异常', 'GLB-正常',

'GLB-异常',  'A/O-正常', 'A/O-异常', 'Cr-正常', 'Cr-异常', 'BUN-正常',

'BUN-异常', 'UA-正常', 'UA-异常', 'C3-正常', 'C3-异常', 'C4-正常', 'C4-异常',

'IgA-正常', 'IgA-异常', 'IgG-正常','IgG-异常', 'IgE-正常', 'IgE-异常',

'晨僵正常', '晨僵异常', '发热正常', '发热异常', '雷诺正常', '雷诺异常',

'口眼干正常', '口眼干异常', '头晕正常', '头晕异常', '四肢正常', '四肢异常',

'胸部CT正常', '胸部CT异常', '肺结节正常', '肺结节异常', '诊断结果']

        self.feature=feature

    def Data_sort(self,file):

        data = pd.read_excel(file)

        data = pd.DataFrame(data)

        random_state_value = 90  # 随机种子

        sample_number = 82  # 欠采样数目

        def norm_2(x):

            return (x - stats['min']) / (stats['max']-stats['min'])

        gy_list=['年龄']

        data_gy=data[gy_list]

        stats = data_gy.describe()

        stats = stats.transpose()

        data[gy_list]=norm_2(data_gy)

        data1 = data[self.feature]

        data1 = data1.dropna()  # 删除含缺失值的行

        data1=data1[~data1['诊断结果'].isin([2])]

        print(len(data1))

        dataset=data1

        train_dataset = dataset.sample(frac=0.7, random_state=random_state_value)

        test_dataset = dataset.drop(train_dataset.index)

        print(len(test_dataset))

        train_dataset[train_dataset['诊断结果'].isin([1])]=\

            train_dataset[train_dataset['诊断结果'].isin([1])].iloc[:sample_number]

        train_NRA=train_dataset[train_dataset['诊断结果'].isin([0])]

        train_RA=train_dataset[train_dataset['诊断结果'].isin([1])]

        train_dataset=train_NRA.append(train_RA)

        train_dataset=train_dataset.sample(frac=1,random_state=0)

        print(len(train_dataset))

        train_labels =train_dataset.pop('诊断结果')

        test_labels =test_dataset.pop('诊断结果')

        return train_dataset,train_labels,test_dataset,test_labels

#=======================Lasso变量筛===============

    def optimal_lambda_value(self):

        Lambdas = np.logspace(-5, 2, 200)    #10的-5到10的2次方

        # 构造空列表,用于存储模型的偏回归系数

        lasso_cofficients = []

        for Lambda in Lambdas:

            lasso = Lasso(alpha = Lambda, normalize=True, max_iter=10000)

            lasso.fit(train_dataset, train_labels)

            lasso_cofficients.append(lasso.coef_)

        # 绘制Lambda与回归系数的关系

        plt.plot(Lambdas, lasso_cofficients)

        # 对x轴作对数变换

        plt.xscale('log')

        # 设置折线图x轴和y轴标签

        plt.xlabel('Lambda')

        plt.ylabel('Cofficients')

        # 显示图形

        plt.show()

        # LASSO回归模型的交叉验证

        lasso_cv = LassoCV(alphas = Lambdas, normalize=True, cv = 10, max_iter=10000)

        lasso_cv.fit(train_dataset, train_labels)

        # 输出最佳的lambda值

        lasso_best_alpha = lasso_cv.alpha_

        print(lasso_best_alpha)

        return lasso_best_alpha

    # 基于最佳的lambda值建模

    def model(self,train_dataset, train_labels,lasso_best_alpha):

        lasso = Lasso(alpha = lasso_best_alpha, normalize=True, max_iter=10000)

        lasso.fit(train_dataset, train_labels)

        return lasso

    def feature_importance(self,lasso):

        # 返回LASSO回归的系数

        dic={'特征':train_dataset.columns,'系数':lasso.coef_}

        df=pd.DataFrame(dic)

        df1=df[df['系数']!=0]

        print(df1)

        coef = pd.Series(lasso.coef_, index=train_dataset.columns)

        imp_coef = pd.concat([coef.sort_values().head(10), coef.sort_values().tail(10)])

        sns.set(font_scale=1.2)

        # plt.rc('font', family='Times New Roman')

        plt.rc('font', family='simsun')

        imp_coef.plot(kind="barh")

        plt.title("Lasso回归模型")

        plt.show()

        return df1

    def prediction(self,lasso):

        # lasso_predict = lasso.predict(test_dataset)

        lasso_predict = np.round(lasso.predict(test_dataset))

        print(sum(lasso_predict==test_labels))

        print(metrics.classification_report(test_labels,lasso_predict))

        print(metrics.confusion_matrix(test_labels, lasso_predict))

        RMSE = np.sqrt(mean_squared_error(test_labels,lasso_predict))

        print(RMSE)

        return RMSE

if __name__=="__main__":

    Object1=Solution()

    train_dataset, train_labels, test_dataset, test_labels=\

        Object1.Data_sort('F:\医学大数据课题\RA预测\RA预测\特征.xlsx')

    lasso_best_alpha=Object1.optimal_lambda_value()

    lasso=Object1.model(train_dataset, train_labels,lasso_best_alpha)

    feature_choose=Object1.feature_importance(lasso)

    RMSE=Object1.prediction(lasso)

实现效果:

# 绘制Lambda与回归系数的关系


   # 基于最佳的lambda值建模进行特征分析


   # 基于最佳的lambda值建模进行预测分析

喜欢记得点赞,在看,收藏,加关注(V订阅号:数据杂坛),将持续更新!

有关python实现Lasso回归分析(特征筛选、建模预测)的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - 建模收藏夹 - 2

    我希望将Favorite模型添加到我的User和Link模型。业务逻辑用户可以有多个链接(即可以添加多个链接)用户可以收藏多个链接(他们自己的或其他用户的)一个链接可以被多个用户收藏,但只有一个所有者我对如何为这种关联建模以及在模型就位后如何创建用户收藏夹感到困惑?classUser 最佳答案 下面的数据模型怎么样:classUser:destroyhas_many:favorite_links,:through=>:favorites,:source=>:linkendclassLink:destroyhas_many:favor

  3. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  4. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  5. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  6. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  7. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  8. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  9. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  10. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

随机推荐