草庐IT

create-cluster

全部标签

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用?

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合,但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中,因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

hadoop - "Got error creating database manager"- sqoop 导入查询出错

场景:我正在尝试从sqlserver导入到HDFS,但出现以下错误:错误:hadoop@ubuntu:~/sqoop-1.1.0/bin$./sqoopimport--connect'jdbc:sqlserver://192.168.230.1;username=xxx;password=xxxxx;database=HadoopTest'--tablePersonInfo--target-dir/home/hadoop/hadoop-0.21.0/11/12/1012:13:20ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanag

regex - 使用 REGEX 在 Hive Create 和 Load Query 中获取空值

我有一个日志文件,我需要在其中使用REGEX存储数据。我尝试了下面的查询,但加载了所有NULL值。我已经用http://www.regexr.com/检查了正则表达式,它对我的​​数据工作正常。CREATEEXTERNALTABLEIFNOTEXISTSavl(imeiSTRING,packetSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="(IMEI\\s\\d{15}(\\b(\\d{15})([A-Z0-9]+)))"

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后,“jps”没有列出任何节点。那么,即使在使用公共(public)hadoopAMI之后,我们还必须为主服务器和从服务器设置hadoop吗?master怎么知道slave的IP地址??谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗?谢谢。 最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

hadoop - s3distcp : can not create path from empty string

从S3到HDFS运行s3distcp时:sudo-uhdfshadoopjar/usr/lib/hadoop/lib/s3distcp.jar--srcs3n://workAAAA-KKKK-logs/production-logs/Log-XXXX-click/Log-XXXXX-click-2013-03-27_06-21-19_i-7XXb2x39_00037.gz--desthdfs:///test/我得到以下异常。我的路径语法(s3n://;hdfs:///)有问题吗?以前有人遇到过这个问题吗?13/04/0412:10:52INFOs3distcp.S3DistCp:Usi

hadoop - 将 Pig 与 Hadoop 一起使用时出现 "Failed to create DataStorage"错误

我一直在尝试让Pig0.9.0使用ApacheHadoop0.20.203.0运行。我在谷歌和邮件列表中查看了高低,甚至这个问题:cantrunpigwithsinglenodehadoopserver,但我仍然无法让PigshellGrunt在集群设置中运行(当然,我可以在本地模式下正常运行提示符)。我已经尝试了给出的解决方案-在没有hadoop的情况下重新编译,将hadoop库和pig-withouthadoop.jar添加到我的PIG_CLASSPATH变量中......没有任何效果。我刚得到错误2011-08-0210:56:00,709[main]ERRORorg.apach

Java Hadoop : How can I create mappers that take as input files and give an output which is the number of lines in each file?

我是Hadoop的新手,我已经设法运行了wordCount示例:http://hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.html假设我们有一个包含3个文件的文件夹。我希望每个文件都有一个映射器,这个映射器将只计算行数并将其返回给缩减器。然后,reducer会将每个映射器的行数作为输入,并将所有3个文件中存在的总行数作为输出。所以如果我们有以下3个文件input1.txtinput2.txtinput3.txt映射器返回:mapper1->[input1.txt,3]mapper2->[input2.txt,4]mappe

apache-spark - 有关 yarn-cluster 模式下 Spark 驱动程序(及其 YARN 容器)的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署Yarn时,SparkDriver是否是单点故障。因此,我想在这种情况下更好地了解有关SparkDriver的YARN容器的故障转移过程的内部结构。我知道Spark驱动程序将在Yarn容器内的SparkApplicationMaster中运行。如果需要,SparkApplicationMaster将向YARNResourceManager请求资源。但是我还没有找到足够详细的文档来说明在SparkApplicationMaster(和Spark驱动程序)的YARN容器发生故障时的故障转移过程。我试图找到一些详细的资源,这些资源可以让我回答与以下场景相关的一些问题

hadoop - Spark : saveAsTextFile() only creating SUCCESS file and no part file when writing to local filesystem

我正在使用以下命令将RDD写入文件:rdd.coalesce(1).saveAsTextFile(FilePath)当FilePath是HDFS路径(hdfs://node:9000/folder/)时一切正常。当FilePath是本地路径(file:///home/user/folder/)时,一切似乎都正常。输出文件夹已创建,SUCCESS文件也已存在。但是我没有看到任何包含输出的part-00000文件。没有其他文件。spark控制台输出也没有错误。我还尝试在调用saveAsTextFile()之前调用RDD上的collect,为输出文件夹提供777权限,但没有任何效果。请帮忙。

hadoop - 我可以通过在 Hive 中通过 "CREATE TABLE AS SELECT....."创建的表进行聚类/分桶吗?

我正在尝试在Hive中创建一个表CREATETABLEBUCKET_TABLEASSELECTa.*FROMTABLE1aLEFTJOINTABLE2bON(a.key=b.key)WHEREb.keyISNUllCLUSTEREDBY(key)INTO1000BUCKETS;此语法失败-但我不确定是否可以执行此组合语句。有任何想法吗? 最佳答案 遇到这个问题,发现没有提供答案。我进一步查看并在Hive文档中找到了答案。这永远行不通,因为CTAS有以下限制:目标表不能是分区表。目标表不能是外部表。目标表不能是列表分桶表。来源:htt