草庐IT

hadoop - Pyspark:将数据帧保存到 hadoop 或 hdfs 而不会溢出内存?

我正在开发一个管道,该管道读取多个配置单元表并将它们解析为一些DenseVectors,以便最终在SparkML中使用。我想进行大量迭代以找到最佳训练参数,包括模型输入和计算资源。据说我正在使用的数据帧介于50-100gb之间,分布在YARN集群上动态数量的执行程序中。每当我尝试保存到parquet或saveAsTable时,我都会收到一系列失败的任务,然后最终完全失败并建议提高spark.yarn.executor.memoryOverhead。每个id都是一行,不超过几kb。feature_df.write.parquet('hdfs:///user/myuser/featured

java - Spark 流输出未保存到 HDFS 文件

我正在尝试将Spark流输出保存到HDFS上的文件中。现在,它没有保存任何文件。这是我的代码:StreamingExamples.setStreamingLogLevels();SparkConfsparkConf=newSparkConf().setAppName("MyTestCOunt");JavaStreamingContextssc=newJavaStreamingContext(sparkConf,newDuration(1000));JavaReceiverInputDStreamlines=ssc.socketTextStream(args[0],Integer.par

scala - 如何在 spark-scala 中将 Iterable[String] 保存到 hdfs

valordersRDD=sc.textFile("/user/cloudera/sqoop_import/orders");valordersRDDStatus=ordersRDD.map(rec=>(rec.split(",")(3),1));valcountOrdersStatus=ordersRDDStatus.countByKey();valoutput=countOrdersStatus.map(input=>input._1+"\t"+input._2);如何将Iterable[String]的输出保存到spark-scala中的hdfs。可迭代[字符串]注意:ouput

hadoop - 将 Spark RDD 保存到 Hive 表

在spark中,我想将RDD对象保存到配置单元表中。我正在尝试使用createDataFrame但这是抛出Exceptioninthread"main"java.lang.NullPointerExceptionvalproducts=sc.parallelize(evaluatedProducts.toList);//hereproductsareRDD[Product]valproductdf=hiveContext.createDataFrame(products,classOf[Product])我使用的是Spark1.5版本。 最佳答案

hadoop - 如何将 PySpark worker 中的 numpy 数组保存到 HDFS 或共享文件系统?

我想在PySpark中高效地将numpy数组从工作机器(函数)保存到HDFS或从工作机器(函数)读取numpy数组。我有两台机器A和B。A有master和worker。B有一名worker。例如我想实现如下目标:if__name__=="__main__":conf=SparkConf().setMaster("local").setAppName("Test")sc=SparkContext(conf=conf)sc.parallelize([0,1,2,3],2).foreachPartition(func)deffunc(iterator):P=>forxiniterator:P

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时,它们会承担这个IAM角色,并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据,就像我为EMR所做的那样JobFlow

python - 如何使用python将数据从hadoop保存到数据库

我正在使用hadoop处理一个xml文件,所以我用python编写了mapper文件,reducer文件。假设需要处理的输入是test.xmlma​​pper.py文件importsysimportcStringIOimportxml.etree.ElementTreeasxmlif__name__=='__main__':buff=Noneintext=Falseforlineinsys.stdin:line=line.strip()ifline.find("reducer.py文件importsysif__name__=='__main__':forlineinsys.stdin:

scala - 如何将 Spark RDD 保存到本地文件系统

我可以使用saveAsTextFile将文件保存到本地系统吗?句法?这就是我编写语法来保存文件的方式:insert_df.rdd.saveAsTextFile("")当我尝试执行此操作时,由于没有权限而出现错误,但我拥有对该特定本地路径的所有权限,看起来它正在将该文件视为HDFS文件。 最佳答案 我认为您应该尝试使用"file:///localpath"而不是"/localpath"。 关于scala-如何将SparkRDD保存到本地文件系统,我们在StackOverflow上找到一个类

hadoop - 如何直接将 mapper-reducer 的输出发送到另一个 mapper-reducer 而无需将输出保存到 hdfs

问题最终得到解决在底部查看我的解决方案最近我正在尝试运行MahoutinAction的第6章(list6.1~6.4)中的推荐系统示例。但是我遇到了一个问题,我已经用谷歌搜索了但找不到解决方案。问题来了:我有一对mapper-reducerpublicfinalclassWikipediaToItemPrefsMapperextendsMapper{privatestaticfinalPatternNUMBERS=Pattern.compile("(\\d+)");@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextco

hadoop - 使用 Hive Sink 将水槽输出保存到 Hive 表

我正在尝试使用Hive配置flume,以将flume输出保存到HiveSink类型的hive表。我有单节点集群。我使用maprhadoop发行版。这是我的flume.confagent1.sources=source1agent1.channels=channel1agent1.sinks=sink1agent1.sources.source1.type=execagent1.sources.source1.command=cat/home/andrey/flume_test.dataagent1.sinks.sink1.type=hiveagent1.sinks.sink1.chan