草庐IT

spark-ml

全部标签

python - Apache Spark 在遇到缺少的功能时抛出 NullPointerException

在对功能中的字符串列进行索引时,PySpark出现了一个奇怪的问题。这是我的tmp.csv文件:x0,x1,x2,x3asd2s,1e1e,1.1,0asd2s,1e1e,0.1,0,1e3e,1.2,0bd34t,1e1e,5.1,1asd2s,1e3e,0.2,0bd34t,1e2e,4.3,1'x0'有一个缺失值。首先,我使用pyspark_csv将csv文件中的特征读入DataFrame:https://github.com/seahboonsiew/pyspark-csv然后用StringIndexer索引x0:importpyspark_csvaspycsvfrompysp

python - Apache Spark 在遇到缺少的功能时抛出 NullPointerException

在对功能中的字符串列进行索引时,PySpark出现了一个奇怪的问题。这是我的tmp.csv文件:x0,x1,x2,x3asd2s,1e1e,1.1,0asd2s,1e1e,0.1,0,1e3e,1.2,0bd34t,1e1e,5.1,1asd2s,1e3e,0.2,0bd34t,1e2e,4.3,1'x0'有一个缺失值。首先,我使用pyspark_csv将csv文件中的特征读入DataFrame:https://github.com/seahboonsiew/pyspark-csv然后用StringIndexer索引x0:importpyspark_csvaspycsvfrompysp

AI测试101:测试AI系统的实用技巧&ML和AI自动化工具

基于人工智能的系统,也称为神经网络(NNNeuralNetworks),和其他应用程序一样是"系统",因此需要测试。本文将指导你测试AI和基于NN的系统,并理解相关概念。测试人工智能系统的不同之处是什么?"传统"的软件是建立在内部确定的算法基础上的。例如,对于将摄氏度转换为华氏度的系统,它将使用简单的F=1.8C+32公式。人工智能用于"公式"未知的情况,但你有足够的输入和输出的例子,可以根据例子来估计公式。最终,人工智能并不创造公式,而是根据以前的知识创造一个决策网络。如果人们知道这个公式,那么用人工智能来解决这个问题的价值就非常小。我们能一直使用一个公式吗?比如,这幅画里是一只企鹅吗?没有

AI测试101:测试AI系统的实用技巧&ML和AI自动化工具

基于人工智能的系统,也称为神经网络(NNNeuralNetworks),和其他应用程序一样是"系统",因此需要测试。本文将指导你测试AI和基于NN的系统,并理解相关概念。测试人工智能系统的不同之处是什么?"传统"的软件是建立在内部确定的算法基础上的。例如,对于将摄氏度转换为华氏度的系统,它将使用简单的F=1.8C+32公式。人工智能用于"公式"未知的情况,但你有足够的输入和输出的例子,可以根据例子来估计公式。最终,人工智能并不创造公式,而是根据以前的知识创造一个决策网络。如果人们知道这个公式,那么用人工智能来解决这个问题的价值就非常小。我们能一直使用一个公式吗?比如,这幅画里是一只企鹅吗?没有

python - SparkContext 错误 - 找不到文件/tmp/spark-events 不存在

通过API调用运行PythonSpark应用程序-提交申请时-回复-失败SSH进入Worker我的python应用程序存在于/root/spark/work/driver-id/wordcount.py错误可以在中找到/root/spark/work/driver-id/stderr显示如下错误-Traceback(mostrecentcalllast):File"/root/wordcount.py",line34,inmain()File"/root/wordcount.py",line18,inmainsc=SparkContext(conf=conf)File"/root/sp

python - SparkContext 错误 - 找不到文件/tmp/spark-events 不存在

通过API调用运行PythonSpark应用程序-提交申请时-回复-失败SSH进入Worker我的python应用程序存在于/root/spark/work/driver-id/wordcount.py错误可以在中找到/root/spark/work/driver-id/stderr显示如下错误-Traceback(mostrecentcalllast):File"/root/wordcount.py",line34,inmain()File"/root/wordcount.py",line18,inmainsc=SparkContext(conf=conf)File"/root/sp

五分钟了解Spark之RDD!!

Spark之探究RDD如何了解一个组件,先看看官方介绍!进入RDD.scala,引入眼帘的是这么一段描述文字(渣翻勿喷):​ RDD,弹性分布式数据集,是Spark中的基础抽象。代表了一个可以被并行化操作的不可变、可分区的要素集合。这个类包含了任何RDD都可使用的基本操作,例如map,filter。​ 此外,PairRDDFuncations声明了只有KV对RDD才可使用的操作,例如groupByKey、join;DoubleRDDFuncations声明了只有DoublesRDD才可使用的操作;SequenceFileRDDFuncations声明了只有可序列化RDD才可使用的操作。所有的操

python - 如何在 Spark SQL 中对多列进行透视?

我需要在PySpark数据框中旋转多个列。示例数据框:frompyspark.sqlimportfunctionsasFd=[(100,1,23,10),(100,2,45,11),(100,3,67,12),(100,4,78,13),(101,1,23,10),(101,2,45,13),(101,3,67,14),(101,4,78,15),(102,1,23,10),(102,2,45,11),(102,3,67,16),(102,4,78,18)]mydf=spark.createDataFrame(d,['id','day','price','units'])mydf.sh

python - 如何在 Spark SQL 中对多列进行透视?

我需要在PySpark数据框中旋转多个列。示例数据框:frompyspark.sqlimportfunctionsasFd=[(100,1,23,10),(100,2,45,11),(100,3,67,12),(100,4,78,13),(101,1,23,10),(101,2,45,13),(101,3,67,14),(101,4,78,15),(102,1,23,10),(102,2,45,11),(102,3,67,16),(102,4,78,18)]mydf=spark.createDataFrame(d,['id','day','price','units'])mydf.sh

python - AWS EMR Spark Python 日志记录

我在AWSEMR上运行一个非常简单的Spark作业,似乎无法从我的脚本中获取任何日志输出。我试过打印到stderr:frompysparkimportSparkContextimportsysif__name__=='__main__':sc=SparkContext(appName="HelloWorld")print('Hello,world!',file=sys.stderr)sc.stop()并使用所示的Spark记录器here:frompysparkimportSparkContextif__name__=='__main__':sc=SparkContext(appName