草庐IT

apache-spark-1.3

全部标签

java.lang.UnsatisfiedLinkError : org. apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0 问题

我无法解决这个异常,我已经阅读了hadoop文档和我能找到的所有相关的stackoverflow问题。我的fileSystem.mkdirs(***)抛出:Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)Vatorg.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMod

apache-spark - 如何在 spark shell 中启用或获取跟踪 URL?

当我给spark-shell或Spark-shell--masteryarn时,我在控制台上找不到跟踪Url。假设我更改了执行程序的编号和执行程序内存,我想使用跟踪URL验证这些更改。如果我知道如何获取这个跟踪URL将会很有帮助 最佳答案 您可以通过编程方式获取SparkUIURL:valurl=spark.sparkContext.uiWebUrl 关于apache-spark-如何在sparkshell中启用或获取跟踪URL?,我们在StackOverflow上找到一个类似的问题:

apache-spark - HadoopPartitions 的 Spark 的默认分区是如何计算的?

我正在阅读JacekLaskowski'sonlinebookaboutApacheSpark,关于分区,他说Bydefault,apartitioniscreatedforeachHDFSpartition,whichbydefaultis64MB我对HDFS不是很熟悉,但是我在复制这个声明时遇到了一些问题。我有一个名为Reviews.csv的文件,它是大约330MB的亚马逊食品评论文本文件。给定默认的64MBblock,我希望ceiling(330/64)=6分区。但是,当我将文件加载到我的SparkShell中时,我得到了9个分区:scala>valtokenized_logs=

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

总结:1、FlinkShufflePipelinedShuffle:上游Subtask所在TaskManager直接通过网络推给下游Subtask的TaskManager;BlockingShuffle:HashShuffle-将数据按照下游每个消费者一个文件的形式组织;Sort-MergeShuffle-将上游所有的结果写入同一个文件,文件内部再按照下游消费者的ID进行排序并维护索引,下游读取数据时,按照索引来读取大文件中的某一段;HybridShuffle:支持以内存或文件的方式存储上游产出的结果数据,原则是优先内存,内存满了后spill到文件,无论是在内存还是文件中,所有数据在产出后即对

hadoop - 无法执行目标 org.apache.maven.plugins :maven-antrun-plugin:1. 6:在项目 hadoop-project-dist 上运行(pre-dist):

我需要帮助,因为我在过去2-3天试图解决这个问题..我正在Windows-7(64位)机器上设置Hadoop。这是为了尝试R与Hadoop的集成。我按照URL-http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os中给出的Hadoop安装说明进行操作环境变量如下JAVE_HOME:C:\ProgramFiles\Java\jdk1.6.0_45M2_HOME:C:\Hadoop\apache-maven-3.1.1路径:C:\cyg

python - 如何使用 Spark 和 Python 在 HDP 2.2 中更新 python 2.7

我正在尝试在HDP2.2中使用Ipython和Spark,但似乎只有python2.7支持ipython。我已经安装了Spark并测试了很好,但是在使用yum命令安装ipython之后,python的版本是一个问题。[root@sandboxspark12]#ipythonPython2.6.6(r266:84292,Jan222014,09:42:36)Type"copyright","credits"or"license"formoreinformation.IPython0.13.2--AnenhancedInteractivePython.?->Introductionando

hadoop - 为 spark 输出文件设置 S3 输出文件受赠者

我在AWSEMR上运行Spark,但在获取输出文件的正确权限时遇到了一些问题(rdd.saveAsTextFile(''))。在配置单元中,我会在开头添加一行setfs.s3.canned.acl=BucketOwnerFullControl这将设置正确的权限。对于Spark,我尝试运行:hadoopjar/mnt/var/lib/hadoop/steps/s-3HIRLHJJXV3SJ/script-runner.jar\/home/hadoop/spark/bin/spark-submit--deploy-modecluster--masteryarn-cluster\--conf

hadoop - 在 Windows 7 32 位上安装 Apache Spark

我刚刚开始研究apachespark。我做的第一件事是尝试在我的机器上安装spark。我使用hadoop2.6下载了预构建的spark1.5.2。当我运行sparkshell时出现以下错误java.lang.RuntimeException:java.lang.NullPointerExceptionatorg.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)atorg.apache.spark.sql.hive.client.ClientWrapper.(ClientWrapper.scal

hadoop - Spark : Saving RDD in an already existing path in HDFS

我可以使用saveAsTextFile方法将RDD输出保存到HDFS。如果文件路径已经存在,此方法将抛出异常。我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有一种方法可以将新的RDD数据附加到同一路径中已经存在的数据中? 最佳答案 自Spark1.6以来可用的一种可能的解决方案是使用具有text格式和append模式的DataFrames:valoutputPath:String=???rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

hadoop - 如何将注册为 Spark 表的表放入数据框中

我已经使用spark-thriftserverjdbc连接将表从PostgreSQL数据库导入到spark-sql中,现在我可以从直线上看到这些表。有什么方法可以将这些表转换为spark数据框。 最佳答案 这适用于Spark>2.0:df=spark.table('表格') 关于hadoop-如何将注册为Spark表的表放入数据框中,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/