草庐IT

apache-spark-2.3

全部标签

java - 错误: org. apache.hadoop.mapred.InvalidInputException:输入路径不存在

我是nutch和solr集成方面的新手。我想抓取新的url,所以我在ubuntu中安装了solr4.6.0版和nutch1.6版。首先我从一些配置开始,但我仍然得到这个错误:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:File:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetchInputpathdoesnotexist:file:/home/cloudera/apache-nutch-1.6/bin/2015052903

启动Spark-Shell实现词频统计

1.启动spark和Hadoop#根目录下启动Hadoop集群start-all.sh在spark的sbin目录下输入shstart-all.sh2.运行Spark-Shell命令在spark/bin目录下,执行Spark-Shell命令进入Spark-Shell交互式环境spark-shell--master上述命令中,--master表示指定当前连接的Master节点,用于指定Spark的运行模式,下图为master-url可取参数 如需查询Spark-Shell更多的使用方式可以执行“--help”命令 3.运行Spark-Shell读取HDFS文件通过启动Spark-Shell,并且使

hadoop - Oozie 无法检测 XML 中的 Spark workflow-app 标签

我正在尝试安排每天运行的Oozie作业。在shell中,我正在使用这个命令——ooziejob-oozie$OOZIE_URL-run-verbose\-config$PWD/this_file_is_a_formality.properties\-Doozie.coord.application.path="hdfs:///path/to/file/aggregates_workflow.xml"\-Dstart="$START"\-Dend="$END"(假设所有环境变量都设置正确。)我收到这个错误:错误:E0701:E0701:XML模式错误,cvc-elt.1.a:找不到元素“

scala - Apache Spark 中的转换和操作

我有scala代码,它使用通配符从HDFS获取多个输入文件,每个文件都进入一个函数,在该函数中对每个文件单独进行处理。importde.l3s.boilerpipe.extractors.KeepEverythingExtractorvaldata=sc.wholeTextFiles("hdfs://localhost:port/akshat/folder/*/*")valfiles=data.map{case(filename,content)=>filename}defdoSomething(file:String):(String,String)={//logicofproces

scala - 在 Hadoop 上使用 Spark 运行 Scala 程序

我已经创建了一个在文本文件中搜索单词的Scala程序。我用eclipse创建文件scala,然后用sbt和sbtassembly编译并创建一个jar。之后我在本地运行带有Spark的.jar并且它运行正确。现在我想尝试在hadoop上使用Spark运行这个程序,我有1台主机和2台工作机。我必须更改代码?我用主人的外壳做什么命令?我创建了一个存储桶,并将文本文件放入hadoop这是我的代码:importscala.io.Sourceimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importo

hadoop - 如何使用spark for map-reduce flow来选择文件夹下所有csv文件的N列,前M行?

具体来说,假设我们有一个包含10k制表符分隔的csv文件的文件夹,这些文件具有以下属性格式(每个csv文件大约10GB):idnameaddresscity...1Mattadd1LA...2Willadd2LA...3Lucyadd3SF......而且我们有一个基于上面“name”的查找表namegenderMattMLucyF...现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:idnamegender1MattM...我们可以使用pyspark来有效地处理这个问题吗?如何并行处理这些10k的csv文件? 最佳答案

maven - 在 Microsoft Windows 8.1 中运行 Apache Hadoop 2.7.0

首先,我下载最新版本的HadoopApache2.7.0-src.tar.gz其次,我将它解压并移动到C。然后我使用了这个SDK7.1命令行:hdfs>mvnpackage-Pdist,native-win-DskipTests-Dtar这是我得到的输出:Downloading:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3.3/plexus-3.3.pomDownloaded:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3

java - 编写 MapReduce 时 Apache Phoenix 双数据类型问题

我正在使用ApachePhoenix在Hbase中创建表,因为它提供二级索引功能以及类似sql的数据类型。我使用phoenix创建了一个包含Double和Varchar列的表。CREATETABLEINVOICE(ROWKEYVARCHARNOTNULLPRIMARYKEY,CF1.INVOICEIDVARCHAR,CF1.TOTALAMOUNTDOUBLE,CF1.STATUSVARCHAR,CF1.CREATEDATEDATE);Phoenix将Double值作为ByteArray存储在Hbase中,如下所示column=CF1:TOTALAMOUNT,timestamp=1434

hadoop - 启动 spark-submit 时出错,因为 avro

我正在用spark创建一个应用程序。我在Hadoop2的HDFS中使用avro文件。我使用maven并像这样包含avro:org.apache.avroavro-mapred1.7.6hadoop2我做了一个单元测试,当我使用mvntest时,一切正常。但是当我用spark启动时提交没有!我有这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure:Losttask1.0inst

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS,下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中?我应该将它复制到名称节点还是数据节点?dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案 您使用的是什么版本