草庐IT

apache-spark-2.3

全部标签

windows - 我正在尝试在 Windows 7 x64 上构建 Apache Hadoop 2.5.0,但我一直遇到未知错误

[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar(module-javadocs)onprojecthadoop-maven-plugins:MavenReportException:Errorwhilecreatingarchive:[ERROR]Exitcode:1-C:\hsc\hadoop-maven-plugins\src\main\java\org\apache\hadoop\maven\plugin\util\Exec.java:45:error:unknow

spark 使用python语言操作(基于pycharm的安装使用)

本文是关于如何使用pycharm下面执行spark相关操作,spark搭建的是单机模式。1.安装单机模式的spark1.1下载spark下载地址:https://archive.apache.org/dist/spark/我选取的是spark-3.1.2-bin-hadoop3.2.tgz1.2上传压缩包将下载好的spark压缩包通过xftp传输到hadoop102的/opt/module(集群节点)目录下面直接拖到过去就行了1.3解压缩包tar-zxvfspark压缩包-C解压路径我使用的是tar-zxvfspark-3.1.2-bin-hadoop3.2.tgz-C/opt/softwar

hadoop - java.lang.Exception : java. lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

我在使用Hadoop2.4.0和Nutch2.2时遇到了这个异常。当我尝试运行这个命令时:./hadoopjarapache-nutch-2.2.1.joborg.apache.nutch.crawl.Crawlerurls-solr//:8983-depth2我得到:Java.lang.Exception:java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.TaskAttemptContext,butclasswasexpectedatorg.apache.hadoop.ma

Apache Hbase 安装

我正在尝试在ubuntu12.04环境中安装Hbase(hbase-0.94.8)。我按照本页给出的步骤完全相同http://hbase.apache.org/book/quickstart.html我能够启动Hbase并进入shell,但是当我从shell中键入“create'test','cf'”时,抛出了以下错误hbase(main):001:0>create'test','cf'13/06/1113:01:40ERRORclient.HConnectionManager$HConnectionImplementation:Checkthevalueconfiguredin'zo

apache - 使用反射将 pojo 写入 parquet 文件

HI正在寻找API来使用我拥有的Pojos编写parquest。我能够使用反射生成avro模式,然后使用AvroSchemaConverter创建Parquet模式。此外,我无法找到将Pojos转换为GenericRecords(avro)的方法,否则我本可以使用AvroParquetWriter将Pojos写入Parquet文件。有什么建议吗? 最佳答案 如果你想通过avro,你有两个选择:1)让avro生成您的pojo(参见教程here)。生成的pojo扩展了SpecificRecord,然后可以将其与AvroParquetWr

hadoop - Spark 是否支持静态加密?

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它?我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗? 最佳答案 是的,Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密,这意味着您的所有JavaAPI和命令行界面都像以前一样工作,无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop - 如何将 spark rdd 保存到 avro 文件

我正在尝试将rdd保存到avro格式的文件中。这是我的代码的样子:valoutput=s"/test/avro/${date.toString(dayFormat)}"rmr(output)//deleteingthepathrdd.coalesce(64).saveAsNewAPIHadoopFile(output,classOf[org.apache.hadoop.io.NullWritable],classOf[PageViewEvent],classOf[AvroKeyValueOutputFormat[org.apache.hadoop.io.NullWritable,Pag

scala - 使用 org.apache.hadoop/* dependencies 离线编译 sbt 的问题

使用依赖于org.apache.hadoop包的sbt进行离线编译时遇到了很多麻烦。一个简单的build.sbt:name:="Test"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.hadoop"%"hadoop-yarn-api"%"2.2.0"在线时工作正常但离线运行时出现以下错误,而包存在于ivy缓存中(在~/ivy2/cache/org.apache.hadoop/...下):[info]Loadingprojectdefinitionfrom/home/martin/Dev/S/pr

hadoop - 将 Spark 添加到 Oozie 共享库

默认情况下,Oozie共享库目录提供了Hive、Pig和Map-Reduce的库。如果我想在Oozie上运行Spark作业,最好将Sparklibjar添加到Oozie的共享库而不是将它们复制到应用程序的lib目录。如何将Sparklibjar(包括spark-core及其依赖项)添加到Oozie的共享库中?任何评论/回答表示赞赏。 最佳答案 Sparkaction计划与Oozie4.2.0一起发布,尽管文档似乎有点落后。在此处查看相关的JIRA:OozieJIRA-AddsparkactionexecutorCloudera的CD

hadoop - Apache Spark JDBCRDD 使用 HDFS 吗?

ApacheSparkJDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点?我们正在使用JdbcRDD与apachespark上的数据库进行交互。我们想知道ApacheSpark是使用HDFS来分发和存储数据库表记录还是工作节点直接与数据库交互。 最佳答案 JdbcRDD不使用HDFS,直接从JDBC连接读取数据到worker内存中的RDD。如果您想要HDFS上的结果,您必须明确地将RDD持久化到HDFS。你可以在这里看到JdbcRDD是如何运作的https://github.com/apache/spark/blob