作业队

hadoop - Spark 作业的输出可以用作另一个 Spark 作业的输入吗？

我想将一个Spark作业的输出用作其他Spark作业的输入数据。可能吗？最佳答案是的。只要输出存储在某处。关于hadoop-Spark作业的输出可以用作另一个Spark作业的输入吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/32899311/

Spark 用作 section stackoverflow hadoop apache-spark real-time spark-streaming pyspark

hadoop - 如何使用 jdb 调试 hadoop jar 作业？

我正在运行类似this的hadoop作业:bin/hadoopjar/usr/joe/wordcount.jarorg.myorg.WordCount/usr/joe/wordcount/input/usr/joe/wordcount/output我的问题:如何使用jdb进行调试？我不需要远程调试。该作业在我要调试的同一台机器上运行。最佳答案您始终可以将jdb连接到正在运行的进程。在Debug模式下运行Java应用程序的简单方法是使用调试参数运行它:“-agentlib:jdwp=transport=dt_socket,serv

hadoop jdb section wordcount

hadoop - 用于 Hadoop 作业的 Cassandra 与 HBase

在MapReduce作业方面，Cassandra相对于HBase有哪些优势？我有很多小文件想从HDFS移动到数据库，这些文件将作为MapReduce作业的输入。我不会获取所有文件，而是针对某个用户，所以可能是整行，至少是一个列族。我可以拿走某个时期的文件。我知道HBase是Hadoop数据库，所以我希望它能很好地满足我的需求，但我还了解到Cassandra的性能要好得多。但是我想知道当你将它用作MapReduce作业的输入时是什么情况。性能是否仍然比HBase好很多？我必须强调，我不是在寻找一般的HBase和Cassandra的比较，而是在MapReduce作业的具体案例中。类似thi

Cassandra hadoop HBase section

java - 作业提交失败，出现异常 'java.io.FileNotFoundException(Apache Hive 1.2.1)

我的问题与HiveUDF有关，我创建了一个将Stringdate转换为juliandate的UDF，当我执行select查询时它工作正常但在使用命令Createtabletempas时抛出错误。CreatefunctionconvertToJulianas'com.convertToJulian'Usingjar'hdfs:/user/hive/'.执行选择查询:SELECTname,dateFROMcustTableWHEREnameisnotnullandconvertToJulian(date)输出:convertingtolocalhdfs:/user/hive/udf.jar

FileNotFoundException java DistributedFileSystem section code mysql hadoop

hadoop - 从作业日志中查找 reducers 的数量

在mapreduce中，我想从程序日志中找出mappers和reducers的数量。作为输入，我将三个文件传递给程序，并将缩减器的数量明确设置为5(仅用于测试目的)。程序:publicclassWordCount{publicstaticclassMapextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,Inter

reducers hadoop IntWritable Number bytes mapreduce

hadoop - Hive MapReduce 作业拆分文件

我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时，这工作得很好。但是当文件很大时，工作就是拆分文件，我的工作失败了。我在IsSplittable方法的自定义输入格式类中返回false。我还尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了自定义输入格式、输出格式和SerDe类，并在创建此表时使用了它们。在我的工作日志中，我仍然看到split正在发生。Processingsplit:Paths:/user/test/testfile1:0+134217728,

MapReduce hadoop section 自定 code hive

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业，但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

ClassNotFoundException scala java ConnectionQueryServicesImpl apache hadoop apache-spark hadoop-yarn apache-phoenix

hadoop - 完成 MapReduce 作业后，RunJar 仍然处于事件状态

我在hadoop集群上执行了几个mapreduce程序。程序成功执行并给出了所需的输出。使用jps命令我注意到RunJar仍在作为进程运行。我停止了我的集群，但进程ID仍然存在。我知道Hadoopjar调用基础Runjar来执行jar，但即使在作业完成后进程启动是否正常？enterimagedescriptionhere如果是，那么多个Runjar实例将继续运行，我如何确保在作业完成后运行jar甚至停止(我不想终止进程) 最佳答案 RunJar进程通常是某人或某物运行“hadoopjar”的结果你可以通过以下方式终止进程:kill1

MapReduce 处于 section blockquote hadoop

hadoop - 无法使用 oozie 运行示例 spark 作业

我正在尝试在CDH5.7集群上设置oozie。我已经按照cloudera文档中的步骤安装和配置了所有内容。最后，我提取了oozie-examples.tar.gz，将其放入hdfs并尝试运行一些示例。MR示例运行良好，但sparkone失败并出现以下错误:Resourcehdfs://cluster/user/hdfs/.sparkStaging/application_1462195303197_0009/oozie-examples.jarchangedonsrcfilesystem(expected1462196523983,was1462196524951我用来运行示例的命令是

hadoop oozie gt lt apache-spark cloudera-cdh

hadoop - Gobblin Kafka 到 HDFS pull 作业报错

我正在尝试使用Gobblin将数据从Kafka提取到HDFS.Gobblin版本(使用命令sudo./gradlewcleanbuild-PuseHadoop2-PhadoopVersion=2.7.1-xtest从github源代码编译):0.6.2-546-g431188bHadoop版本:Hadoop2.7.1.2.4.2.0-258Subversiongit@github.com:hortonworks/hadoop.git-r13debf893a605e8a88df18a7d8d214f571e05289Compiledbyjenkinson2016-04-24T16:02Z

Gobblin hadoop java apache-kafka hadoop-yarn

159 160 161162163 164 165