sample_dataframe

amazon-web-services - 保存时挂起的 Spark Dataframe

我一直在努力找出我的spark作业有什么问题，它无限期地卡在我尝试将其写出到S3或HDFS(约100GParquet格式的数据)的地方。导致挂起的行:spark_df.write.save(MY_PATH,format='parquet',mode='append')我已经在覆盖和追加模式下尝试过此操作，并尝试保存到HDFS和S3，但无论如何作业都会挂起。在Hadoop资源管理器GUI中，它显示spark应用程序的状态为“正在运行”，但看起来似乎Spark实际上没有做任何事情，当我查看SparkUI时，没有作业在运行。让它起作用的一件事是在集群处于挂起状态时增加集群的大小(我在AWS上

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时，它们会承担这个IAM角色，并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据，就像我为EMR所做的那样JobFlow

Dataframe scala code 凭据 section amazon-web-services hadoop apache-spark amazon-s3

java - foreach 函数在 Spark DataFrame 中不起作用

根据DataFramesAPI，定义是:publicvoidforeach(scala.Function1f)将函数f应用于所有行。但是当我想这样的时候Dataframedf=sql.read().format("com.databricks.spark.csv").option("header","true").load("file:///home/hadoop/Desktop/examples.csv");df.foreach(x->{System.out.println(x);});我收到编译时错误。有什么错误吗？最佳答案

DataFrame foreach section code java hadoop apache-spark spark-dataframe

apache-spark - Spark Dataframe 丢失分区

我在读取spark数据帧时发现了这个奇怪的问题。我将数据框重新分区为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark2.0时，底层的rdd只有2143个分区。于是我去了我保存重新分区数据的路径，发现hfs-ls/repartitionedData/|wc-l50476因此它在保存数据时创建了50k个分区。但是对于spark2.0，vald=spark.read.parquet("repartitionedData")d.rdd.getNumPartitionsres4:Int=2143但是对于spark1.5，vald=spark.read.parque

apache-spark Dataframe section spark code hadoop apache-spark-sql bigdata

scala - 将 Spark Dataframe 中的一列转换为多列

我有一个具有这种结构的大数据框(或多或少1.2GB):+---------+--------------+------------------------------------------------------------------------------------------------------+|country|date_data|text|+---------+--------------+------------------------------------------------------------------------------------------

多列 Dataframe 34 text code scala apache-spark hadoop apache-spark-sql

hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机？

我已经用Spark(1.4.0)配置了Hive(1.13.1)，我可以从hive访问所有数据库和表，我的仓库目录是hdfs://192.168.1.17:8020/用户/hive/仓库但是，当我尝试使用df.saveAsTable("df")函数通过Spark-Shell(使用master)将Dataframe保存到Hive中时，我遇到了这个错误。15/07/0314:48:59INFOaudit:ugi=userip=unknown-ip-addrcmd=get_database:default15/07/0314:48:59INFOHiveMetaStore:0:get_table

saveAsTable DataFrame apache spark org hadoop apache-spark hdfs apache-spark-sql

java - 在 Spark java 中将 JavaRDD 转换为 DataFrame

我正在尝试处理日志文件。首先，我读取日志文件并根据我的要求拆分这些文件，并将每一列保存到单独的JavaRDD中。现在我需要将这些JavaRDD转换为DataFrames以供将来操作。这是我到目前为止尝试过的代码:SparkConfconf=newSparkConf().setAppName("AuctionBid").setMaster("local");JavaSparkContextsc=newJavaSparkContext(conf);JavaRDDdiskfile=sc.textFile("/Users/karuturi/Downloads/log.txt");JavaRDD

java DataFrame code section JavaRDD apache-spark hadoop apache-spark-sql

scala - Spark - 将 CSV 文件加载为 DataFrame？

我想在spark中读取CSV并将其转换为DataFrame并使用df.registerTempTable("table_name")将其存储在HDFS中我试过:scala>valdf=sqlContext.load("hdfs:///csv/file/dir/file.csv")我得到的错误:java.lang.RuntimeException:hdfs:///csv/file/dir/file.csvisnotaParquetfile.expectedmagicnumberattail[80,65,82,49]butfound[49,59,54,10]atparquet.hadoop

DataFrame scala collection parallel apache-spark hadoop apache-spark-sql hdfs

php - 为 pdftk sample.pdf burst 设置输出位置

我有一个问题，我正在使用tdftk从php中拆分pdf文件的页面。使用以下命令$command=escapeshellcmd("pdftk").escapeshellarg("/var/www/card/card.pdf")."".escapeshellcmd("burst");$result=passthru($command);它运行良好，并将页面拆分为文件。现在我的问题是我可以设置突发文件应该存储的输出位置。默认情况下，它会将文件放置在站点Web根目录下，而我希望将文件放置在/var/www/card/pages/目录中。在PDFTK中有什么方法可以做到这一点吗？请帮我解决这个问

sample pdftk section burst php

android - 无赖 : something went wrong trying to "Ping Bluemix" from helloAuthentication Android sample app

与helponthisforum，我终于能够运行“bms-samples-hellototodo-advanced”，它使用带有Facebook身份验证的MCA。我仍然对“bms-samples-helloauthentication”感到不满意，它使用MCA和Google身份验证。我正在使用Genymotion模拟器使用AndroidStudio进行构建和调试。我正在按照这些说明操作:bms-samples-android-helloauthenticationREADME.mdhttps://console.ng.bluemix.net/docs/services/mobileac

helloAuthentication 无赖 Google section li android ibm-cloud google-authentication ibm-mobile-services

79 80 818283 84 85