spark-thriftserver

apache-spark - 使用 spark sql 创建 hive 表

在使用spark-sql读取数据框后，我正在尝试创建一个具有Parquet文件格式的配置单元表。表是在配置单元中使用序列文件格式而不是Parquet文件格式创建的。但是在表路径中我可以看到Parquet文件已创建。我无法从配置单元查询这个文件。这是我用过的代码。df.write.option("path","/user/hive/warehouse/test/normal").format("parquet").mode("Overwrite").saveAsTable("test.people")我正在使用spark2.3和hive2.3.3以及MapRDistribution显示创

spark apache-spark section 39 hive hadoop pyspark

scala - 如何在 Scala/Spark 中将文件从 Hadoop (hdfs) 复制到远程 SFTP 服务器？

在Hadoop的文件系统中，我有Excel文件。我的任务是将该文件从Hadoop复制到我的Scala/Spark应用程序中的远程SFTP服务器。我认为直接这样做是行不通的。如果我的担心是正确的，我需要采取后续步骤:1)从Hadoop中删除excel文件到本地目录。例如，我可以使用ScalaDSL来实现:importscala.sys.process._s"hdfsdfs-copyToLocal/hadoop_path/file_name.xlsx/local_path/"!2)从本地目录发送文件到远程SFTP服务器。您可以为这项任务推荐哪种图书馆？我的推理正确吗？解决我的问题的最佳方法

何在 Hadoop code section strong scala apache-spark

apache-spark - 如何将 hadoop conf 目录指定为 conf 属性以启动应用程序

是否有一个spark属性，我们可以在执行spark提交时设置它指定hadoop配置路径，专门指向自定义hdfs-site.xml和core-site.xml文件最佳答案首选的方法是在spark-submit之前设置Hadoop配置目录，而不是单独配置这些文件。exportHADOOP_CONF_DIR=/your/hadoop/dir但如果必须使用sparkConfig来设置，可以按如下方式设置，sparkConfig.set("spark.hadoop.yarn.resourcemanager.hostname","XXX")

conf 定为 section spark hadoop apache-spark

unit-testing - 在 Windows 上运行 spark 单元测试

我正在尝试在Spark上运行一些转换，它在集群(YARN、linux机器)上运行良好。但是，当我尝试在本地计算机(Windows7)上运行单元测试时，出现错误:java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.atorg.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)atorg.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)ato

unit-testing testing section hadoop strong apache-spark

java - 将 Apache Spark 添加到 Eclipse Maven 项目时出现问题

我正在尝试将ApacheSparkMLlib添加为Eclipse中Maven项目的依赖项。我有Maven插件，所以添加依赖项通常就像输入地址一样简单(甚至不必触摸pom.xml)。当我尝试添加MLlib时，出现错误:“无法读取所需库的存档(spark-corejar的位置)或者不是有效的zip文件”所以我也去添加那个jar作为依赖项，但是错误继续发生，只是不同的jar(接下来是hadoop，然后是snappy-java等)需要添加越来越多的依赖项。最终，我似乎已经添加了所有必需的依赖项，但错误只是循环回到hadoop中:“无法读取所需库的存档(hadoopjar的位置)......”当

时出 Eclipse section code Maven java hadoop apache-spark

hadoop - 在 hadoop 2.4 中使用 yarn 在集群模式下运行 Spark 时出现 InvalidResourceRequestException Yarn Exception

使用Apachespark1.1.0和hadoop2.4另外，我的集群在CDH5.1.3上我尝试使用以下命令启动sparkwithyarn。./spark-shell--masteryarn./spark-shell--masteryarn-client我得到以下异常:14/10/1521:33:32INFOcluster.YarnClientSchedulerBackend:ApplicationreportfromASM:appMasterRpcPort:0appStartTime:1413388999108yarnAppState:RUNNING14/10/1521:33:44E

时出 hadoop apache java bigdata apache-spark hadoop-yarn

hadoop - Spark - 连接 2 个 PairRDD 元素

你好，有一个包含2个元素的JavaRDDPair:("TypeA",List),("TypeB",List)我需要将2对组合成1对类型:("TypeA_B",List)我需要将2个列表合并为1个列表，其中每2个json(1个A类型和1个B类型)有一些我可以加入的公共(public)字段。考虑到类型A的列表明显小于另一个，并且连接应该是内部的，因此结果列表应该与类型A的列表一样小。最有效的方法是什么？最佳答案 rdd.join(otherRdd)为您提供第一个rdd的内部连接。要使用它，您需要将两个RDD转换为PairRDD，该Pa

PairRDD hadoop section code json bigdata apache-spark

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表，并行化列表对于每个文件夹，读取其下的文件-这些是gzip文件对于每个文件，提取内容-这些是行，每行代表一个事件，字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型，有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对，使用表示某种输出结构(例如:事件类型/日期/事件)的键，然后将其写入FS。对请求和用户事件做同样的事情(对于推荐，无法根据用户

hadoop Spark String ObjectNode gt bigdata apache-spark google-hadoop

java - Spark 异常 : local class incompatible

我正在尝试将spark作业从客户端提交到cloudera集群。在集群中，我们使用的是CDH-5.3.2，它的spark版本是1.2.0，hadoop版本是2.5.0。因此，为了测试我们的集群，我们提交了从spark网站获取的wordcount示例。我们可以成功提交我们用java编写的spark作业。但是，我们无法将结果写入hdfs上的文件。我们收到以下错误，20/06/2509:38:16INFODAGScheduler:Job0failed:saveAsTextFileatSimpleWordCount.java:36,took5.450531sExceptioninthread"m

incompatible Spark ObjectInputStream java hadoop apache-spark cloudera cloudera-manager

java - 从 apache Spark 运行 java 程序时出现 ClassNotFound 异常

我已编译Java程序并尝试使用spark运行，但它显示ClassNotFound异常，即使那里存在类文件也是如此。packageorg.apache.spark.examples;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function;publicfinalclassJavaHelloWorld{publicstatic

时出 java section apache spark hadoop apache-spark pyspark

182 183 184185186 187 188