hadoop-release

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题，事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面，Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西，SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因，请告诉我。试试这个，查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是，当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时，它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站？作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

Apache Hadoop 1457865367374 ordered section java apache-pig

hadoop - 使用 HIVE 添加列

我有以下数据表。IDsalaryoccupation15000Engineer26000Doctor38000Pilot41000Army13000Engineer24000Teacher32000Engineer11000Teacher31000Engineer15000Doctor现在我想向该表添加另一个列标志，使其看起来如下所示。IDsalaryoccupationFlag15000Engineer026000Doctor038000Pilot041000Army013000Engineer124000Teacher132000Engineer111000Teacher23100

hadoop HIVE Engineer section code apache-spark hiveql

hadoop - 在 PIG 中完全外部连接后丢弃空值

需要帮助丢弃pigLatin中完全外部连接结果中的空值。下面是两个数据集:答:(BOS,2)(BUR,81)(LAS,8)乙:(BUR,56)(EWR,2)(LAS,88)完全外连接后:丙:(BOS,2,,)(BUR,81,BUR,56)(,,EWR,2)(LAS,8,LAS,88)我需要得到以下格式的输出:(BOS,2)(BUR,137)(EWR,2)(LAS,96)尝试了groupby、flatten、bagtotuple的不同组合……但无法找到解决方案。非常感谢您的帮助。airline=load'/demo/data/airline/airline.csv'usingPigSto

丢弃 hadoop traffic code section join apache-pig

hadoop - datanode在hdfs下没有 "namenode"目录

所以我有一个小型Hadoop集群，其中有1个主服务器和5个工作服务器。我的masters和workers的hdfs-site.xml看起来像这样:dfs.replication3dfs.namenode.name.dirfile:/home/username/hadoop/yarn/hdfs/namenodedfs.datanode.data.dirfile:/home/username/hadoop/yarn/hdfs/datanode我的集群运行平稳，所有守护进程运行良好。我能够访问HDFS以导入、导出数据、运行字数统计作业等......但是在我的工作人员中，“/home/user

amp datanode section gt lt hadoop hadoop-yarn

hadoop - 使用cloudera quickstart vm 在配置单元中创建表被卡住了

我正在尝试使用clouderaquickstartvm的配置单元CLI在配置单元中创建一个表。该命令被卡住，甚至在很长一段时间后也没有发生任何事情。我错过了什么吗？如果有人可以为此提供帮助，我们将不胜感激。[cloudera@quickstart~]$配置单元使用jar:file:/usr/jars/hive-common-1.1.0-cdh5.5.0.jar!/hive-log4j.properties中的配置初始化日志记录警告:HiveCLI已弃用，建议迁移到Beeline。hive>创建表test_dept(department_idint，department_namestri

中创配置单 section hadoop hive sqoop hiveql cloudera-quickstart-vm

hadoop - 关于 oozie 启动器作业的说明

我需要一些关于oozie启动器作业的说明。1)启动器作业是按工作流应用程序(具有多个操作)启动的还是按工作流应用程序中的每个操作启动的？2)用例:我的工作流程包含多个shellAction(在内部执行spark、hive、pigAction等)。使用shell的原因是因为可以使用自定义逻辑计算分区日期等其他参数，并使用.q文件将其传递给配置单元示异常(exception)壳文件:hive-hiveconfDATABASE_NAME=$1-hiveconfMASTER_TABLE_NAME=$2-hiveconfSOURCE_TABLE_NAME=$3-hiveconf-f$4示例.q文

启动器 hadoop code section oozie

hadoop - 霍顿工厂 : start datanode failed

我已经使用ambari2.2安装了一个新的集群HDP2.3。问题是namenode服务无法启动，每次尝试时，我都会收到followwing错误。当我试图找到问题时，我发现了另一个更明确的错误(使用了端口50070，我认为名称节点使用了这个端口)。任何人以前解决过这个问题吗？谢谢resource_management.core.exceptions.Fail:Executionof'ambari-sudo.shsuhdfs-l-s/bin/bash-c'ulimit-cunlimited;/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.

霍顿 datanode section hadoop namenode

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置，我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark，以便我可以从s3存储桶中读取数据，然后写回它。使用客户端运行jar/应用程序工作正常，很好，很好，因为它进入存储桶并创建一个文件并再次返回。然而，我需要它在集群模式下工作，以便它更接近我们的生产环境，但它总是失败——我能看到的日志中没有真正有意义的消息，也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手，所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop spark application 1458817514983 Client amazon-web-services amazon-s3 apache-spark

hadoop - 如何将Hadoop文件系统保存在hadoop安装盘以外的物理盘中？

我正在尝试在多节点集群环境中安装hadoop。我已经在SSD上安装了ubuntu15.10。我想在SSD上安装hadoop2.6.2，并将我的HDFS放在单独的SATA硬盘上。为此，我应该遵循哪些步骤？我在SSD中安装了hadoop，在hdfs-site.xml中配置如下。因此，我将属性dfs.datanode.data.dir设置为file:///media/coea23/HDFS/hdfs/datanode。但是在执行jps时数据节点没有显示，而名称节点显示在已完成hadoop安装的SSD中。dfs.datanode.data.dirfile:///media/coea23/HDF

hadoop strong section dfs hdfs

166 167 168169170 171 172