master-data-management

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例，并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例，但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例，因为我想重用这些实例。如何停止这些实例？最佳答案由于您的实例来自实例存储支持的AMI，您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题，您可以从您的实例创建一个AMI，然后使用新的AMI重新启动您的环境，这样您就可以选择停止您的实例。

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后，我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/，我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时，我看到了这个设置，这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗？davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

Cloudera Manager root drwxr-xr-x drwxr hadoop hdfs

hadoop - 无法启动master和slave，日志中出现名为 "bogon"的奇怪东西

我下载了一个新的预构建sparkforhadoop2.2文件。正在关注this文件，我想在我的单机上启动我的主人。解压文件后，我进入sbin和start-master，但我遇到了这个奇怪的问题，这是日志:SparkCommand:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java-cp:/opt/spark-0.9.0-incubating-bin-hadoop2/conf:/opt/spark-0.9.0-incubating-bin-hadoop2/assembly/target/scal

amp 名为 code section spark hadoop apache-spark

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

SoldToAddr2 postgresql 34 char decimal hadoop external-tables hawq

hadoop - 在配置 EMR 后，如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR？

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前，我如何告诉DataPipeline将文件复制到EMR？我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案如果您可以选择修改Pig脚本，则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则，您可以使用在Emr

EMR Pipeline section PigActivity https hadoop amazon-web-services amazon-s3 amazon-emr

java - : java. lang.ClassNotFoundException : org. apache.hive.hcatalog.data.JsonSerDe.引起的如何解决？

我正在尝试将选择查询的结果插入到其他表中。解释:我尝试了不同的解决方法来解决这个问题，但没有一个对我有用。我已经使用addjar命令将serdes添加到hiveshell类路径。我已将所有必需的jar文件从/usr/local/hive/lib移动到位于hadoop的hdfs文件系统上的hive类路径。我还在我的.bashrc文件中添加了环境变量。在所有这些尝试之后，我仍然遇到同样的错误。任何帮助将不胜感激。查询:insertoverwritetableoutbound_log_eventpartition(batch)selectc_ip,mdatetime,mdate,mtime,

ClassNotFoundException java apache hadoop hive

hadoop - 如何从 Cloudera Manager REST API 获取事件名称节点主机名？

我能够访问Cloudera管理器restAPI。curl-uusername:passwordhttp://cmhost:port/api/v10/clusters/clusterName如何找到事件的namenode和resourcemangarer主机名？我无法从API文档中找到任何相关内容。http://cloudera.github.io/cm_api/apidocs/v10/index.html注意:集群配置高可用最佳答案您需要使用此端点:http://cloudera.github.io/cm_api/apidocs

Cloudera Manager code section hadoop cloudera-manager

hadoop - SQOOP 从 Teradata 导入 : Create table Ok but without data

我使用sqoop通过我的TD数据库拨号。当我尝试这个时，一切正常(我的表是在默认配置单元数据库中创建的)sqoopimport\-libjars$LIB_JARS\-Dteradata.db.input.job.type=hive\-Dteradata.db.input.target.table=hive_table\-Dteradata.db.input.target.table.schema="c1bigint"\-m1\--connectjdbc:teradata://PRD/Database=database\--connection-managerorg.apache.sqo

Teradata without section database Dteradata hadoop import hive sqoop

java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个AWS实例的集群上运行HadoopMapReduceJava应用程序。我想知道是否有可能在混洗阶段知道数据集的大小，即总共有多少数据被混洗。另外，是否可以知道每个reducer任务处理了多少数据？最佳答案您应该能够从JobTrackerWebUI中找到此信息。有一个名为“Reduceshufflebytes”的计数器详细说明了被打乱的总字节数-参见https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。对于每个reducer计数，深入到已完成的

MapReduce processed section https reducer java hadoop shuffle

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori

Scalding tutorial section scala hadoop

395 396 397398399 400 401