草庐IT

labeledPoints

全部标签

hadoop - 如何将 Hive 表转换为 MLlib LabeledPoint?

我已经使用Impala构建了一个包含目标和数百个特征的表。我想使用SparkMLlib来训练模型。我知道为了通过Spark运行分布式监督模型,数据需要采用多种格式之一。LabeledPoint对我来说似乎是最直观的。使用PySpark将Hive表转换为标记点的最有效方法是什么? 最佳答案 这个问题的最佳解决方案可能是使用ml库及其模型,因为它们直接作用于数据帧。http://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=ml#module-pysp

python - 在 Python 中从 Spark DataFrame 创建 labeledPoints

我使用python中的什么.map()函数从spark数据帧创建一组labeledPoints?如果标签/结果不是第一列,但我可以引用其列名“状态”,那么符号是什么?我使用这个.map()函数创建Python数据框:defparsePoint(line):listmp=list(line.split('\t'))dataframe=pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()dataframe.insert(0,'status',dataframe['accepted'])if'NULL'indataframe.c