master-data-management

hadoop - hbase.master 与使用 Java API 的 HBase 连接中的 zookeeper 详细信息

两者都有什么好处hbase.masterhbase.zookeeper.quorum&hbase.zookeeper.property.clientPort使用JavaAPI创建与HBase的连接？示例代码:ConfigurationhBaseConfig=HBaseConfiguration.create();hBaseConfig.set("hbase.master",hbaseHost+":"+port);hBaseConfig.set("hbase.zookeeper.quorum",zookeeperHost);hBaseConfig.set("hbase.zookeeper

amazon-web-services - AWS Data Pipeline 中有任何东西可以通过决策脚本停止执行特定事件吗？

我们的数据管道中有5个管道，它们在以下基础上执行:管道1-管道4=每天管道5-月底。我们正在考虑为管道5创建单独管道的选项，因为它对其他管道没有任何依赖性。有没有什么办法可以执行除管道5之外的所有管道，就像我们在OOZIE中所做的那样，它可以成功地忽略管道5的执行并完成管道而没有任何“错误”/“等待依赖项”状态？最佳答案您最好创建多个管道并将它们设置在不同的时间表上。如果您想让事情变得有趣，您可以使用Cloudwatch调度和AWSLambda以类似cron的方式安排管道创建/删除。您还可以使用AWSStep函数来定义每个组件的

amazon-web-services Pipeline section 数来管道 hadoop amazon-data-pipeline

java - 在 master :8088 中找到 hadoop 2.7.2 中每个任务的容器

在hadoop2.7.2上用两个slave跑完一个job后，我想知道每个tasks的容器。在master:8088我们可以看到最大和最小分配。当我点击applicatio....004时，它显示了这张图片，其中显示了memmory0和vcore0。我想知道如何找到容器的属性。最佳答案由于您的应用程序已完成，上面的第二个屏幕显示了聚合资源分配。要在运行时查看容器状态，请在“URL:8042/node/allContainers”打开Web浏览器，其中URL是集群的公共(public)DNS。您将看到所有正在运行的应用程序的容器。单

容器 hadoop section noreferrer java maven hadoop-yarn hadoop2

azure - HDInsight 和 Talend Open Studio for Big Data

我目前正在开展一个项目，我需要将TalendopenStudioforBigData(v6.3.1)连接到Azure的HDInsight(3.5)Hadoop集群。到目前为止，我正在尝试一个简单的例子，它包括创建一个Hive表。为此，我使用了下图:配置单元连接配置如下:...请在下面找到tHiveCreateTable_1节点的规范:通过运行这个过程:·创建了指定的容器和部署Blob(见下图)——这让我相信Windows存储配置一切正常·但是tHiveCreateTable_1节点有错误(见下图)·我坚信它与主机名和端口有关；·我尝试使用集群的主机名和我们可以在Ambari中找到的Hi

HDInsight Talend image noreferrer noopener azure hadoop hive azure-hdinsight

hadoop - thrift 在我的 HBase master 上运行吗？如何与Happybase连接？

我正在以伪分布式模式运行krejcmat/hadoop-hbasedocker。那就是主从在同一台机器上的不同容器中运行。启动Hadoop集群和HBase后，我在主节点上启动thrift服务器:hbasethriftstart-threadpool我还公开了节点9090(以--expose=9090开头的默认Thrift端口)。我想使用Happybase库通过ThriftAPI从我的主机连接到Hadoop集群中运行的Hbase。这是我使用的命令:connection=happybase.Connection('hadoop-hbase-master',9090)但我收到错误:TTran

Happybase hadoop code section 中运 hbase thrift

hadoop - 从 spark master UI 清除 Spark Job 历史记录

我正在处理spark，我想通过清除所有以前失败/完成的作业来清除我的sparkmasterUI。我不知道该怎么做？我试过从hdfs中删除日志，但作业条目仍然显示在UI上。最佳答案您需要重新启动masterspark进程。来自spark的sbin目录，运行./stop-master.sh和./start-master.sh它应该修复。关于hadoop-从sparkmasterUI清除SparkJob历史记录，我们在StackOverflow上找到一个类似的问题：

hadoop master section code apache-spark hadoop-yarn spark-hive

json - AWS Data Pipeline - 在创建 EMR 期间设置 Hive 站点值

我们正在将我们的数据管道版本从3.3.2升级到5.8，因此旧AMI版本上的那些引导操作已更改为使用配置设置并在分类/属性定义下指定它们。所以我的Json如下所示{"enableDebugging":"true","taskInstanceBidPrice":"1","terminateAfter":"2Hours","name":"ExportCluster","taskInstanceType":"m1.xlarge","schedule":{"ref":"Default"},"emrLogUri":"s3://emr-script-logs/","coreInstanceType"

Pipeline json 34 section hive amazon-web-services hadoop amazon-data-pipeline

hadoop - 安装cloudera manager后无法执行任何hadoop命令

我已经成功地设置了我的cdh集群(5.14.0)，其中包括4个节点，并安装了包括hdfs、yarn、zookeeper和impala在内的服务。cloudera管理器网页工作正常。但是当我打开一个终端并尝试运行任何hadoop命令时，比如hadoop、impala或任何东西，shell提示“找不到命令”。我使用hadoop用户安装了CM，并使用默认用户cloudera-scm在singer用户模式下运行所有服务。我知道CM应该为我设置环境变量，但似乎没有。非常感谢您的帮助! 最佳答案确保从cloudera管理器服务器下载CDH

hadoop cloudera section deployClientConfig

hadoop - Sqoop 导出失败。无法解析输入数据 :'<data>'

当我从终端运行sqoopexport命令时，它工作正常。但是，如果我从oozie工作流程运行相同的命令，则会抛出以下错误。ror:java.io.IOException:Can'texportdata,pleasecheckfailedmaptasklogsatorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:122)atorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)atorg.apache.had

amp hadoop java apache adjust_jazz_compare sqoop oozie

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

398 399 400401402 403 404