草庐IT

start-mapred

全部标签

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生,因为我才上第二个学期,我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法,但它仍然给我'nosuchfileordirectory'。我关闭了安全模式,检查了目录,甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展,而sparkRM运算符允许进行fp-growth,从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

hadoop - 尝试在 HDP Sandbox 2.6 中执行 kylin.sh start 时出错

我按照官方安装指南安装了ApacheKylinhttp://kylin.apache.org/docs/install/index.html,在HDP沙盒2.6中当我运行脚本时,$KYLIN_HOME/bin/kylin.shstart,我得到以下错误:我该怎么做才能解决这个错误?提前致谢 最佳答案 检查Hive服务是否在你的ambari中启动,当Hive服务关闭时,Kylin找不到它并给出错误。还要检查.bash_profile。当这两个问题得到解决时,kylin应该能够找到hive依赖项的位置。

hadoop - 在 MapR 集群之间切换

我在mapr-clusters.conf中指定了两个集群cluster1secure=truecldb1:7222cldb2:7222cldb3:7222cluster2secure=truecldb4:7222cldb5:7222cldb6:7222在某些情况下,我想将数据加载到cluster1中。在其他场合,我想在cluster2中加载数据。默认情况下,MapR客户端将第一个指定为默认客户端。如何告诉MapR客户端使用第二个指定的集群?这样hadoopfs-put目标集群2? 最佳答案 通常,MapR支持HDFSAPI的/map

hadoop - org.apache.hadoop.mapred.Mapper 中的 'key K1' 有什么用?

我正在学习ApacheHadoop并且正在查看WordCount示例org.apache.hadoop.examples.WordCount.我已经理解这个例子,但是我可以看到变量LongWritablekey没有在中使用(...)publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizeritr=newStringTokenizer(line);while(itr.h

运行 start-all.sh 时出现 hadoop ClassNotFoundException

我尝试运行./hadoopstart-all.sh不幸的是抛出了这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:start/all/shCausedby:java.lang.ClassNotFoundException:start.all.shatjava.net.URLClassLoader$1.run(URLClassLoader.java:217)atjava.security.AccessController.doPrivileged(NativeMethod)atjava.net.URLClassLoader

java - 即使在命令行上告诉为 -D mapred.reduce.tasks=0 后,hadoop reduce 任务仍在运行

我有一个MapReduce编程为publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableuno=newIntWritable(1);privateIntWritablecitationCount=newIntWritable();publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{citationCount.set(Integer.par

hadoop - DSE 与 Hadoop : Error in getting started

我在使用Hadoop的DSE中遇到问题。让我描述一下设置,包括一些详细步骤,以便您能够帮助我。我建立了一个DSE的三节点集群,集群名称为“training”。所有三台机器都运行Ubuntu14.04、64位、4GBRAM。DSE是使用GUI安装程序(sudo命令)安装的。安装完成后修改cassandra.yaml文件rpc_address=0.0.0.0三个节点一一启动。创建了replication_factor=3的键空间。从任何其他节点成功插入和访问数据。然后DSE安装在第四台机器上(让我们称这台机器为HadoopMachine),再次使用相同的配置,使用GUI安装程序(sudo)

xml - 改变 mapred.reduce.tasks

我应该在哪个文件中设置reducer的数量和设置mapred.reduce.tasks参数?我的conf文件夹中只有以下文件,没有一个有这个参数:ubuntu@group-3-vm1:~/conf$lscapacity-scheduler.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlcore-site.xmlhive-site.xmltez-site.xml 最佳答案 所有Hadoop配置属性都分为以下几组。Hadoop-1.X.X:核心-core-site.xmlhdfs-hdfs-si

java - 在 MAPR 中找不到 Hadoop FS API 文件问题

我在运行hadoopfsapi删除目录时遇到问题。即使我有适当的配置,程序也会抛出异常。需要帮助解决问题。我正在使用下面的maven依赖项hadoop-common2.4.1-mapr-1408hadoop-核心2.4.1-mapr-1408hadoop客户端2.7.1repo:http://repository.mapr.com/maven/packagecom.cisco.installbase.hiveconnector;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.a