草庐IT

master-data-management

全部标签

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例,并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例,但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例,因为我想重用这些实例。如何停止这些实例? 最佳答案 由于您的实例来自实例存储支持的AMI,您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题,您可以从您的实例创建一个AMI,然后使用新的AMI重新启动您的环境,这样您就可以选择停止您的实例。

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后,我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/,我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时,我看到了这个设置,这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗?davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

hadoop - 无法启动master和slave,日志中出现名为 "bogon"的奇怪东西

我下载了一个新的预构建sparkforhadoop2.2文件。正在关注this文件,我想在我的单机上启动我的主人。解压文件后,我进入sbin和start-master,但我遇到了这个奇怪的问题,这是日志:SparkCommand:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java-cp:/opt/spark-0.9.0-incubating-bin-hadoop2/conf:/opt/spark-0.9.0-incubating-bin-hadoop2/assembly/target/scal

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr

java - : java. lang.ClassNotFoundException : org. apache.hive.hcatalog.data.JsonSerDe.引起的如何解决?

我正在尝试将选择查询的结果插入到其他表中。解释:我尝试了不同的解决方法来解决这个问题,但没有一个对我有用。我已经使用addjar命令将serdes添加到hiveshell类路径。我已将所有必需的jar文件从/usr/local/hive/lib移动到位于hadoop的hdfs文件系统上的hive类路径。我还在我的.bashrc文件中添加了环境变量。在所有这些尝试之后,我仍然遇到同样的错误。任何帮助将不胜感激。查询:insertoverwritetableoutbound_log_eventpartition(batch)selectc_ip,mdatetime,mdate,mtime,

hadoop - 如何从 Cloudera Manager REST API 获取事件名称节点主机名?

我能够访问Cloudera管理器restAPI。curl-uusername:passwordhttp://cmhost:port/api/v10/clusters/clusterName如何找到事件的namenode和resourcemangarer主机名?我无法从API文档中找到任何相关内容。http://cloudera.github.io/cm_api/apidocs/v10/index.html注意:集群配置高可用 最佳答案 您需要使用此端点:http://cloudera.github.io/cm_api/apidocs

hadoop - SQOOP 从 Teradata 导入 : Create table Ok but without data

我使用sqoop通过我的TD数据库拨号。当我尝试这个时,一切正常(我的表是在默认配置单元数据库中创建的)sqoopimport\-libjars$LIB_JARS\-Dteradata.db.input.job.type=hive\-Dteradata.db.input.target.table=hive_table\-Dteradata.db.input.target.table.schema="c1bigint"\-m1\--connectjdbc:teradata://PRD/Database=database\--connection-managerorg.apache.sqo

java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个AWS实例的集群上运行HadoopMapReduceJava应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个reducer任务处理了多少数据? 最佳答案 您应该能够从JobTrackerWebUI中找到此信息。有一个名为“Reduceshufflebytes”的计数器详细说明了被打乱的总字节数-参见https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。对于每个reducer计数,深入到已完成的

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori