spark熵权法验证

达微 2023-03-28 原文

指标权重计算流程

参考:https://www.zhihu.com/question/357680646/answer/1748591262

1、归一化

2、指标占比

3、计算熵

4、计算差异系数

5、计算权重

6、验证：权重和为1

样例：WeightScoreTest.scala


case class Room(name:String,x1:Double,x2:Double,x3:Double,x4:Double,x5:Double,x6:Double,x7:Double,x8:Double){

}
object Room{
 // def apply(name: String, x1: Double, x2: Double, x3: Double, x4: Double, x5: Double, x6: Double, x7: Double, x8: Double): Room = new Room(name, x1, x2, x3, x4, x5, x6, x7, x8)
  def apply(row:String)={
    val r = row.split(" ")
    new Room(r(0),r(1).toDouble,r(2).toDouble,r(3).toDouble,r(4).toDouble,r(5).toDouble,r(6).toDouble,r(7).toDouble,r(8).toDouble)
  }
}
object WeightScoreTest   {


  /** l1个科室9项整体护理评价指标得分表 */
  val samples =
    """
      |A    100 90  100 84  90  100 100 100 100
      |B    100 100 78.6    100 90  100 100 100 100
      |C    75  100 85.7    100 90  100 100 100 100
      |D    100 100 78.6    100 90  100 94.4    100 100
      |E    100 90  100 100 100 90  100 100 80
      |F    100 100 100 100 90  100 100 85.7    100
      |G    100 100 78.6    100 90  100 55.6    100 100
      |H    87.5    100 85.7    100 100 100 100 100 100
      |I    100 100 92.9    100 80  100 100 100 100
      |J    100 90  100 100 100 100 100 100 100
      |K    100 100 92.9    100 90  100 100 100 100
      |
    """.stripMargin
   
   def start(): Unit = {
     val sparkConf = new SparkConf().setAppName("WeightScoreTest")
     sparkConf.setMaster("local[*]")
     val sparkContext = new SparkContext(sparkConf)

     val sparkSessionBuilder = SparkSession.builder()
       .enableHiveSupport()
       .config(sparkConf)
       .appName(sparkContext.appName)
     val spark = sparkSessionBuilder.getOrCreate()
     spark.udf.register("sumofsquares", new Sumofsquares())
     val rooms = samples.split("\r\n").filter(StringUtils.isNoneBlank(_)).map(r=>{
      Room(r)
     }).toList.asJava
    val df = spark.createDataFrame(rooms)
    df.show(20)
     //TODO 对每一列指标进行归一化，
     val summary = df.summary("count", "mean", "max", "min", "stddev").cache()
     var features = summary.columns.filterNot(r => r == "summary" || r == "name" )
     val feaMaxMap = summary.filter("summary = 'max'").collect().head.getValuesMap[Double](features)
     val feaMinMap = summary.filter("summary = 'min'").collect().head.getValuesMap[Double](features)
     summary.show(20)
     val feaMeanMap = summary.filter("summary = 'mean'").collect().head.getValuesMap[String](features)
     val feaStdMap = summary.filter("summary = 'stddev'").collect().head.getValuesMap[String](features)

    val df2 = df.selectExpr(features.map{ f =>
       val maxVal = feaMaxMap.getOrElse(f, 1)
       val minVal = feaMinMap.getOrElse(f, 0)
       //s"($f - $minVal)/($maxVal - $minVal + 1e-6) as ${f}"  //
      if("name".equals(f)){
        s"${f}"
      }else {
        s"($f - $minVal)/($maxVal - $minVal ) as ${f}"
      }
    }:_*)
     df2.show(20)



     // 然后计算权重
     val diverse = features.map(f => calWeight(df2, f))
     val s = diverse.sum + 1e-6
     val weights = diverse.map(_ / s)
     println(s"weights,list:${JSON.toJSONString(weights,false)}")
     println(s"weights,sum:${weights.sum}")

     println("features:"+JSON.toJSONString(features,false))
     println("summary = 'max':"+JSON.toJSONString(feaMaxMap.asJava,false))
     println("summary = 'min':"+JSON.toJSONString(feaMinMap.asJava,false))
     println("summary = 'mean':"+JSON.toJSONString(feaMeanMap.asJava,false))
     println("summary = 'stddev':"+JSON.toJSONString(feaStdMap.asJava,false))
  }

  def calWeight(dataDF:DataFrame, field: String):Double={
    val scoreDf =  dataDF.rdd.map{_.getAs[Any](field).toString.toDouble}//.select(field)
    val sumIter=scoreDf.sum() + 1e-6
    val scalar = -1.0/math.log(scoreDf.count())
    val Ej = scoreDf.map{ v=>val l1value = math.abs(v)/sumIter
      l1value * math.log(l1value + 1e-6)
    }.sum * scalar
    println(s"sum:${Ej}")
    if(1 - Ej < 0) println("差异系数为负数")
    1 - Ej // 差异系数*/
  }

  def main(args: Array[String]): Unit = {

    start()
  }

计算结果

 /**数据集探索*/   
 val summary=
      """
        |+-------+----+----------------+-----------------+-----------------+-----------------+-----------------+------------------+------------------+-----------------+
        ||summary|name|              x1|               x2|               x3|               x4|               x5|                x6|                x7|               x8|
        |+-------+----+----------------+-----------------+-----------------+-----------------+-----------------+------------------+------------------+-----------------+
        ||  count|  11|              11|               11|               11|               11|               11|                11|                11|               11|
        ||   mean|null|96.5909090909091|97.27272727272727|90.27272727272727|98.54545454545455|91.81818181818181|  99.0909090909091| 95.45454545454545|             98.7|
        ||    max|   K|           100.0|            100.0|            100.0|            100.0|            100.0|             100.0|             100.0|            100.0|
        ||    min|   A|            75.0|             90.0|             78.6|             84.0|             80.0|              90.0|              55.6|             85.7|
        || stddev|null|8.08337238353579|4.670993664969138|9.180750613004465|4.824181513244218|6.030226891555272|3.0151134457776365|13.324591073377345|4.311612227462018|
        |+-------+----+----------------+-----------------+-----------------+-----------------+-----------------+------------------+------------------+-----------------+
        |
      """.stripMargin
     /**指标标准化矩阵*/   
     val standString =
       """
         |+---+---+-------------------+---+---+---+-----------------+------------------+
         || x1| x2|                 x3| x4| x5| x6|               x7|                x8|
         |+---+---+-------------------+---+---+---+-----------------+------------------+
         ||1.0|0.0| 1.0000000000000002|0.0|0.5|1.0|              1.0|0.9999999999999998|
         ||1.0|1.0|                0.0|1.0|0.5|1.0|              1.0|0.9999999999999998|
         ||0.0|1.0|0.33177570093457986|1.0|0.5|1.0|              1.0|0.9999999999999998|
         ||1.0|1.0|                0.0|1.0|0.5|1.0|0.873873873873874|0.9999999999999998|
         ||1.0|0.0| 1.0000000000000002|1.0|1.0|0.0|              1.0|0.9999999999999998|
         ||1.0|1.0| 1.0000000000000002|1.0|0.5|1.0|              1.0|               0.0|
         ||1.0|1.0|                0.0|1.0|0.5|1.0|              0.0|0.9999999999999998|
         ||0.5|1.0|0.33177570093457986|1.0|1.0|1.0|              1.0|0.9999999999999998|
         ||1.0|1.0| 0.6682242990654211|1.0|0.0|1.0|              1.0|0.9999999999999998|
         ||1.0|0.0| 1.0000000000000002|1.0|1.0|1.0|              1.0|0.9999999999999998|
         ||1.0|1.0| 0.6682242990654211|1.0|0.5|1.0|              1.0|0.9999999999999998|
         |+---+---+-------------------+---+---+---+-----------------+------------------+
       """.stripMargin

      val weightString =
        """
          |weights,list:[0.08110818342879658,0.23453511631130167,0.2904122876143106,0.07019980217824295,0.11258311168727239,0.07019980217824295,0.07076012846443831,0.07019980217824295]
          |weights,sum:0.9999982340408485
          |features:["x1","x2","x3","x4","x5","x6","x7","x8"]
          |summary = 'max':{"x8":"100.0","x3":"100.0","x7":"100.0","x2":"100.0","x5":"100.0","x6":"100.0","x1":"100.0","x4":"100.0"}
          |summary = 'min':{"x8":"85.7","x3":"78.6","x7":"55.6","x2":"90.0","x5":"80.0","x6":"90.0","x1":"75.0","x4":"84.0"}
          |summary = 'mean':{"x8":"98.7","x3":"90.27272727272727","x7":"95.45454545454545","x2":"97.27272727272727","x5":"91.81818181818181","x6":"99.0909090909091","x1":"96.5909090909091","x4":"98.54545454545455"}
          |summary = 'stddev':{"x8":"4.311612227462018","x3":"9.180750613004465","x7":"13.324591073377345","x2":"4.670993664969138","x5":"6.030226891555272","x6":"3.0151134457776365","x1":"8.08337238353579","x4":"4.824181513244218"}
        """.stripMargin

打分原理

根据分布情况求累积概率
累计概率（cumulativeprobability）即所有可能取值的概率之和。
正向指标 发生概率越大,分数越高
反向指标 发生概率越小,分数越高

```
import org.apache.commons.math3.distribution.{ExponentialDistribution, NormalDistribution}
NormalDist => new NormalDistribution(平均值, 标准差)
ExponDist => new ExponentialDistribution(平均值)
{if(-1 == effect) (1 - dist.cumulativeProbability(indexVal)) * 100
else 100 * dist.cumulativeProbability(indexVal)}.formatted("%.2f").toFloat
```

打分说明

反向指标打分：
求疲劳驾驶发生次数小于等于10次/100km的概率P(X <= 10) ,该指标分数 (1-p)*100
正向指标打分：
经济速度占比，经济负载占比

总分以及二级指标处理

总分：各个指标的分数*指标权重相加
二级指标:分数 * ( 权重占比即权重/二级权重之和 ) 相加

有关spark熵权法验证的更多相关文章

ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby - 具有身份验证的私有(private) Ruby Gem 服务器 - 2
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时，它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器？这是不可能的吗？谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
ruby-on-rails - 如果为空或不验证数值，则使属性默认为 0 - 2
我希望我的UserPrice模型的属性在它们为空或不验证数值时默认为0。这些属性是tax_rate、shipping_cost和price。classCreateUserPrices8,:scale=>2t.decimal:tax_rate,:precision=>8,:scale=>2t.decimal:shipping_cost,:precision=>8,:scale=>2endendend起初，我将所有3列的:default=>0放在表格中，但我不想要这样，因为它已经填充了字段，我想使用占位符。这是我的UserPrice模型:classUserPrice回答before_val
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - 跳过状态机方法的所有验证 - 2
当我的预订模型通过rake任务在状态机上转换时，我试图找出如何跳过对ActiveRecord对象的特定实例的验证。我想在reservation.close时跳过所有验证!叫做。希望调用reservation.close!(:validate=>false)之类的东西。仅供引用，我们正在使用https://github.com/pluginaweek/state_machine用于状态机。这是我的预订模型的示例。classReservation["requested","negotiating","approved"])}state_machine:initial=>'requested
ruby - 如何在 Rails 4 中使用表单对象之前的验证回调？ - 2
我有一个服务模型/表及其注册表。在表单中，我几乎拥有服务的所有字段，但我想在验证服务对象之前自动设置其中一些值。示例:--服务Controller#创建Action:defcreate@service=Service.new@service_form=ServiceFormObject.new(@service)@service_form.validate(params[:service_form_object])and@service_form.saverespond_with(@service_form,location:admin_services_path)end在验证@ser
ruby - 如何验证 IO.copy_stream 是否成功 - 2
这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同，而不是下载一半的损坏文件？documentation说IO.copy_stream返回它复制的字节数，但是当我还没有下
ruby-on-rails - ruby on rails 模型验证中的浮点精度 - 2
我正在尝试使用正则表达式验证美元金额:^[0-9]+\.[0-9]{2}$这工作正常，但每当用户提交表单并且美元金额以0(零)结尾时，ruby(或rails？)将0砍掉。所以500.00变成500.0，因此正则表达式验证失败。有没有办法让ruby/rails保持用户输入的格式，而不管尾随零？最佳答案我假设您的美元金额是小数类型。因此，用户在字段中输入的任何值在保存到数据库之前都会从字符串转换为适当的类型。验证适用于已转换为数字类型的值，因此在您的情况下，正则表达式并不是真正合适的验证过滤器。不过，您有几种可能性可以解决这个问
ruby-on-rails - 嵌套模型验证 - 错误不显示 - 2
关于这个有很多问题，但似乎都没有帮助。是的，我看过thisrailscast.我有一个作者，他有很多书，像这样:作者:classAuthor书:classBook我创建了以下表单以在authors#show中向作者添加一本书:#labelsandbuttons......使用以下authors_controller方法:defshow@author=Author.find(params[:id])@book=@author.books.buildend...以及以下books_controller方法:defcreate@author=Author.find(params[:autho

spark熵权法验证

指标权重计算流程

1、归一化

2、指标占比

3、计算熵

4、计算差异系数

5、计算权重

6、验证：权重和为1

计算结果

打分原理

打分说明

总分以及二级指标处理

有关spark熵权法验证的更多相关文章

随机推荐