草庐IT

Pyspark-Cluster

全部标签

python - PySpark 在 RDD 上运行多个函数

你好,我有示例代码:forcolumninposition:myData=dataSplit.map(lambdaarr:(arr[column]))\.map(lambdaline:line.split(','))\.map(lambdafields:("Column",fields[0]))\.map(lambda(column,value):value)\.filter(lambdaline:filterWithAccum(line))\.map(lambda(value):float(value))\.persist(StorageLevel.MEMORY_AND_DISK)r

Azure HDInsight : what is head node in a hadoop cluster?

我刚刚在HDInsight中设置了一个Hadoop集群并尝试开始使用Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到hadoop集群。这让我很困惑。我有以下问题:当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到hadoop吗?第一个复制操作与第二个复制操作有何不同?什么是Hadoop中的头节点? 最佳答案 HDInsight集群中的头节点是运行构成Hadoop平台的一些服务的机器,包括名称节点和作业跟踪器。从广

python - Pyspark 从数据框中的列中删除空值

我的数据框如下所示ID,FirstName,LastName1,Navee,Srikanth2,,Srikanth3,Naveen,现在我的问题陈述是我必须删除行号2,因为名字为空。我正在使用下面的pyspark脚本join_Df1=Name.filter(Name.col(FirstName).isnotnull()).show()我得到的错误是File"D:\0\NameValidation.py",line13,injoin_Df1=filter(Name.FirstName.isnotnull()).show()TypeError:'Column'objectisnotcall

hadoop - 用于处理大数据的 MySQL Cluster 与 Hadoop

我想知道使用MySQL集群和使用Hadoop框架的优点/缺点。什么是更好的解决方案。我想听听您的意见。我认为使用MySQL集群的优点是:高可用性良好的可扩展性高性能/实时数据访问您可以使用商用硬件而且我看不出有什么缺点!有没有Hadoop没有的缺点?Hadoop和Hive的优点是:也有很好的可扩展性您也可以使用商用硬件在异构环境中运行的能力使用MapReduce框架进行并行计算使用HiveQL的Hive缺点是:没有实时数据访问。分析数据可能需要几分钟或几小时。所以在我看来,对于处理大数据,MySQL集群是更好的解决方案。为什么Hadoop是处理大数据的chalice?你怎么看?

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

hadoop - 如何从 pyspark 连接到 Teradata?

我正在尝试从Pyspark连接到Teradata和DB2。我正在使用以下jar:tdgssconfig-15.10.00.14.jarteradata-connector-1.4.1.jarterajdbc4-15.10.00.14.jar&db2jcc4.jar连接字符串:df1=sqlContext.load(source="jdbc",driver="com.teradata.jdbc.TeraDriver",url=db_url,user="db_user",TMODE="TERA",password="db_pwd",dbtable="U114473.EMPLOYEE")df

python - 尝试使用 pyspark 从 S3 获取数据时出现空指针异常

当我尝试使用pyspark从S3获取数据时,出现空指针异常。我正在使用hadoop2.4运行spark1.6.1。我尝试同时使用s3n和s3a。也尝试通过以下方式设置配置:hadoopConf=sc._jsc.hadoopConfiguration()hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3n.awsAccessKeyId","aws-key")hadoopConf.set("fs.s3n.awsSecretAccessKey"

分布在不同子网的Hadoop Cluster(Docker + Flannel)

我想使用Docker在多裸机集群中安装Hadoop2.3.0。我有一个主容器和一个从属容器(在第一个设置中)。当Master和Slave容器位于同一主机(因此位于同一Flannel子网)时,Hadoop可以完美运行。但是,如果主节点和从节点位于不同的裸机节点(因此,不同的法兰绒子网),它根本不起作用(我收到连接被拒绝的错误)。两个容器都可以相互ping和ssh,因此不存在连接问题。出于某种原因,hadoop似乎需要集群中的所有节点都在同一个子网中。有没有办法规避这个?谢谢 最佳答案 我认为将节点置于单独的法兰绒子网中会引入一些与NA

hadoop - pyspark.sql.utils.AnalysisException : u'Path does not exist

我正在使用标准的hdfs运行amazonemr的spark作业,而不是S3来存储我的文件。我在hdfs://user/hive/warehouse/中有一个配置单元表,但在运行我的spark作业时找不到它。我配置了spark属性spark.sql.warehouse.dir以反射(reflect)我的hdfs目录的属性,而yarn日志确实显示:17/03/2819:54:05INFOSharedState:Warehousepathis'hdfs://user/hive/warehouse/'.稍后在日志中说(页面末尾的完整日志):LogType:stdoutLogUploadTime