草庐IT

single-version-externally-managed

全部标签

hadoop - 如何在 S3 上指定 Hive EXTERNAL TABLE 数据的文件大小

我可以在Hive中创建一个EXTERNALTABLE,其中数据以Gzip格式存储在S3存储桶中。但是,这些文件非常大(每个超过6GB)。能否配置Hive使EXTERNALTABLE中的文件具有特定大小,比如512MB? 最佳答案 这对我来说听起来很奇怪,默认情况下,我的外部表通常有大约300MB的文件大小。无论如何,最简单的调整方法是使用PARTITIONBY键(可能是基于时间戳的东西),这将强制文件变小,并且具有使数据更容易的附加优势查询。此外,您应该考虑使用像Parquet这样的可拆分格式,因为这样文件大小就不再重要了。

hadoop - N 个 hadoop 节点中哪个节点正在运行 Cloudera Manager?

我有一个大型hadoop集群(24个节点)。我可以通过CLI访问这些节点。前几个没有运行ClouderaManager(cloudera-scm-server)。如何找出哪个节点正在运行ClouderaManager?感谢任何帮助。 最佳答案 ClouderaManager将有两个服务。一个是服务器,另一个是代理。正如您所说,您可以通过CLI访问所有节点。因此,在所有节点上运行以下命令以查找哪个是服务器并打开(服务器将仅在一台机器上运行)sudoservicecloudera-scm-serverstatus另一种简单的查找CDHS

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2,它在ClouderaManager中看起来没问题,直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作,我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

hadoop - 运行 sqoop 导入时出错 - ERROR manager.OracleManager : Failed to rollback transaction

我正在使用sqoop将数据从oracledb加载到hive规范:CDH-5.5.1Sqoop1.4.2初始化:exportSQOOP_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoopexportHIVE_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/hiveexportHADOOP_CLASSPATH=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoop/lib/ojdbc7.

maven - 在 Maven 中, `package:artifact:jar:version` 和包 :artifact:jar:tests:version`? 有什么区别

使用Maven3.0.5我正在尝试从com.holdenkarau获取spark-testing-base以使用Hadoop3.1。霍登卡劳的dependencytree包括Hadoop2.8.3;这就是为什么我认为我收到错误。从我的mvndependency:tree我看到以下几行:[INFO]+-org.apache.hadoop:hadoop-common:jar:3.1.0:provided...[INFO]|+-org.apache.hadoop:hadoop-common:jar:tests:2.8.3:test这些行来自pom.xml文件中的这两行:org.apache.

java - Cloudera Manager 4.0 字数统计示例

我安装了ClouderaManager并将2个节点连接到一个主节点。我正在尝试使用cloudera在此链接提供的教程运行wordcount程序:https://ccp.cloudera.com/display/SUPPORT/Hadoop+Tutorial#HadoopTutorial-InputsandOutputsCloudera说要编译我在命令提示符下使用nano创建的WordCount.java文件。我创建了目录Wordcount_Classes并将wordcount.java文件放在那里。我不知道是否应该将该目录移动到cloudera目录之一的某个位置以使java代码工作?或

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例,并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例,但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例,因为我想重用这些实例。如何停止这些实例? 最佳答案 由于您的实例来自实例存储支持的AMI,您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题,您可以从您的实例创建一个AMI,然后使用新的AMI重新启动您的环境,这样您就可以选择停止您的实例。

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后,我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/,我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时,我看到了这个设置,这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗?davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

hadoop - 在windows : 'hive' is not recognized as an internal or external command,可运行程序或批处理文件上安装Hive

我已经在Windows上安装了Hadoop2.7.3,并且可以启动集群。现在我想要配置单元并完成以下步骤:1.下载db-derby-10.12.1.1-bin.zip,解压并启动startNetworkServer-h0.0.0.0.2.从镜像站点下载apache-hive-1.1.1-bin.tar.gz并解压。创建的hive-site.xml具有以下属性:javax.jdo.option.ConnectionURLjavax.jdo.option.ConnectionDriverNamehive.server2.enable.impersonationhive.server2.au

hadoop - 如何从 Cloudera Manager REST API 获取事件名称节点主机名?

我能够访问Cloudera管理器restAPI。curl-uusername:passwordhttp://cmhost:port/api/v10/clusters/clusterName如何找到事件的namenode和resourcemangarer主机名?我无法从API文档中找到任何相关内容。http://cloudera.github.io/cm_api/apidocs/v10/index.html注意:集群配置高可用 最佳答案 您需要使用此端点:http://cloudera.github.io/cm_api/apidocs