with-zlib-dir

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分，我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书，名为“使用ApacheGiraph进行实用图形分析；作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”，我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然，书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行？原帖:运行

Quickstart amp gt lt apache java maven hadoop cloudera-quickstart-vm giraph

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群，将(日志)数据存储在hdfs中。我们获取csv格式的数据，每天一个文件。在hadoop中对这些文件运行MR作业没问题，只要文件的“架构”(尤其是列数)不变即可。但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet，并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

amp 34 section stackoverflow 的 csv hadoop bigdata avro parquet

hadoop - Importtsv 命令给出 : Container exited with a non-zero exit code 1 error

我正在尝试将tsv文件加载到现有的hbase表中。我正在使用以下命令:/usr/local/hbase/bin$hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,cf:value'-Dtable_name.separator=\t'Table-name/hdfs-path-to-input-file但是当我执行上面的命令时，出现如下错误Containerid:container_1434304449478_0018_02_000001Exitcode:1Stacktrace

Importtsv Container hadoop java apache hbase classpath hadoop-yarn

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统，但磁盘空间很大(200TB)。在我的pig脚本中，我每月加载几个文件，每个文件的大小约为200Gb。我注意到，如果我在我的pig脚本中加载大约一年的数据，Pig会创建大约15k个mappers，整个过程大约需要3个小时(包括reduce步骤)。相反，如果我加载三年的数据(大约5TB)，那么Pig会创建大约30k个mappers，基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈？或者我应该使用一些默认选项？我的pig脚本非常基本:我分组，我数数。非常感谢! 最佳答案

cluster optimal strong section code hadoop apache-pig cloudera

hadoop - 运行时异常 : Error in configuring object with null pointer exception while running my UDAF?

我一直在尝试编写一个UDAF来计算加权平均值。我用类似于现有UDAF的方式编写它来计算平均值，但它似乎只适用于我的本地机器。我不确定出了什么问题....有人遇到过类似的问题吗以下是生成的错误:java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)atorg.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)

configuring exception java hadoop apache hive

hadoop - 克伯罗斯 |云时代 | Krb异常 : Encryption type AES256 CTS mode with HMAC SHA1-96

我一直在尝试为CDH4.5设置Kerberos，这是使用ClouderaManager安装程序设置的。说明来自以下链接:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs_topic_4.html设置和KDC后，我将Java6文件的JCE策略复制到以下位置:/usr/java/jdk1.6.0_31/lib/security/以下是我的“/var/kerberos/krb5

Encryption hadoop security Server java kerberos cloudera cloudera-manager

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖，所以如果我做错了什么，我深表歉意。我最近建立了一个新的hadoop集群，这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)

IOException initialize hadoop jar 01 java hadoop-yarn hadoop2

exception - 索引 7 : hdfs://localhost:9000 with hadoop 处的权限中的非法字符

我正在尝试连接到hdfs。Configurationconfiguration=newConfiguration();configuration.set("fs.default.name",this.hdfsHost);fs=FileSystem.get(configuration);hdfsHost是127.0.0.1:9000。但是在FileSystem.get()中得到这个异常；我有另一个项目运行相同的代码，但运行良好。谁能提出任何建议？非常感谢异常跟踪:Exceptioninthread"main"java.lang.IllegalArgumentExceptionatjava

exception localhost java section URI hadoop hdfs

oracle - 异常 : Job Failed with status:3 when copying data from Oracle to HDFS through sqoop2

我正在尝试使用Sqoop2将数据从Oracle11g2服务器复制到HDFS。Oracle的链接似乎有效，因为如果我使用无效的凭据，它会提示。定义如下:linkwithid14andnameOLink(Enabled:true,Createdbyxxxat2/9/162:48PM,Updatedbyxxxat2/11/1610:08AM)UsingConnectorgeneric-jdbc-connectorwithid4LinkconfigurationJDBCDriverClass:oracle.jdbc.driver.OracleDriverJDBCConnectionString

copying through java apache oracle hadoop sqoop2

hadoop - "Delegation Token can be issued only with kerberos or web authentication"空闲后重启 spark context

我尝试将spark应用程序部署到由YARN控制的kerberizedhadoop集群。Spark版本为1.5.0-cdh5.5.2。在超过10秒的空闲时间后停止SparkContext并初始化一个新的时，我遇到了一个奇怪的异常。我尝试做一些类似于this的事情开发人员，并明确指定了hdfs名称节点地址，但没有帮助。更令人困惑的是，如果我根本不重置SparkContext或在此spark上下文中执行最后一个命令后不到10秒内重置它，一切都会正常工作。我该如何解决？这是遇到问题的最小化情况:packagedemo;importorg.apache.spark.SparkConf;impor

authentication Delegation section spark strong hadoop apache-spark hadoop-yarn kerberos gssapi

141 142 143144145 146 147