草庐IT

r - sparkR 中的 Hadoop 配置

我在使用sparkR配置hadoop以便从amazonS3读取/写入数据时遇到一些问题。例如,这些是在pyspark中工作的命令(用于解决相同的问题):sc._jsc.hadoopConfiguration().set("fs.s3n.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId","myaccesskey")sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecr

hadoop - SparkR 作业 100 分钟超时

我编写了一个有点复杂的sparkR脚本并使用spark-submit运行它。脚本基本上做的是逐行读取一个大的基于hive/impalaparquet的表并生成具有相同行数的新parquet文件。但似乎工作在大约100分钟后停止,这似乎有些超时。对于多达500K行的脚本,它可以完美运行(因为它需要不到100分钟)对于1、2、3或更多行,脚本在100分钟后退出。我检查了所有我知道并测试过的值在100分钟范围内的可能参数。但找不到任何解决方案。[user@localhostR]$timespark-submitsparkr-pre.RLoadingrequiredpackage:method

java - SparkR filterRDD 和 flatMap 不工作

在花了很长时间研究如何安装SparkR之后,我认为该软件包可能存在一些问题...请记住,我是spark的新手,所以不确定我是否做对了。我从一个新的EC2ubuntu64位实例安装了R和JDK我git克隆了apachespark存储库并使用以下命令构建它:gitclonehttps://github.com/apache/spark.gitcdsparkbuild/mvn-DskipTests-Psparkrpackage然后我更改了我的.Rprofile以通过包含以下行来引用R目录....Sys.setenv(SPARK_HOME="/home/ubuntu/spark").libPa
12