草庐IT

hadoop-release

全部标签

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题,事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面,Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西,SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因,请告诉我。试试这个,查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是,当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时,它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站?作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

hadoop - 使用 HIVE 添加列

我有以下数据表。IDsalaryoccupation15000Engineer26000Doctor38000Pilot41000Army13000Engineer24000Teacher32000Engineer11000Teacher31000Engineer15000Doctor现在我想向该表添加另一个列标志,使其看起来如下所示。IDsalaryoccupationFlag15000Engineer026000Doctor038000Pilot041000Army013000Engineer124000Teacher132000Engineer111000Teacher23100

hadoop - 在 PIG 中完全外部连接后丢弃空值

需要帮助丢弃pigLatin中完全外部连接结果中的空值。下面是两个数据集:答:(BOS,2)(BUR,81)(LAS,8)乙:(BUR,56)(EWR,2)(LAS,88)完全外连接后:丙:(BOS,2,,)(BUR,81,BUR,56)(,,EWR,2)(LAS,8,LAS,88)我需要得到以下格式的输出:(BOS,2)(BUR,137)(EWR,2)(LAS,96)尝试了groupby、flatten、bagtotuple的不同组合……但无法找到解决方案。非常感谢您的帮助。airline=load'/demo/data/airline/airline.csv'usingPigSto

hadoop - datanode在hdfs下没有 "namenode"目录

所以我有一个小型Hadoop集群,其中有1个主服务器和5个工作服务器。我的masters和workers的hdfs-site.xml看起来像这样:dfs.replication3dfs.namenode.name.dirfile:/home/username/hadoop/yarn/hdfs/namenodedfs.datanode.data.dirfile:/home/username/hadoop/yarn/hdfs/datanode我的集群运行平稳,所有守护进程运行良好。我能够访问HDFS以导入、导出数据、运行字数统计作业等......但是在我的工作人员中,“/home/user

hadoop - 使用cloudera quickstart vm 在配置单元中创建表被卡住了

我正在尝试使用clouderaquickstartvm的配置单元CLI在配置单元中创建一个表。该命令被卡住,甚至在很长一段时间后也没有发生任何事情。我错过了什么吗?如果有人可以为此提供帮助,我们将不胜感激。[cloudera@quickstart~]$配置单元使用jar:file:/usr/jars/hive-common-1.1.0-cdh5.5.0.jar!/hive-log4j.properties中的配置初始化日志记录警告:HiveCLI已弃用,建议迁移到Beeline。hive>创建表test_dept(department_idint,department_namestri

hadoop - 关于 oozie 启动器作业的说明

我需要一些关于oozie启动器作业的说明。1)启动器作业是按工作流应用程序(具有多个操作)启动的还是按工作流应用程序中的每个操作启动的?2)用例:我的工作流程包含多个shellAction(在内部执行spark、hive、pigAction等)。使用shell的原因是因为可以使用自定义逻辑计算分区日期等其他参数,并使用.q文件将其传递给配置单元示异常(exception)壳文件:hive-hiveconfDATABASE_NAME=$1-hiveconfMASTER_TABLE_NAME=$2-hiveconfSOURCE_TABLE_NAME=$3-hiveconf-f$4示例.q文

hadoop - 霍顿工厂 : start datanode failed

我已经使用ambari2.2安装了一个新的集群HDP2.3。问题是namenode服务无法启动,每次尝试时,我都会收到followwing错误。当我试图找到问题时,我发现了另一个更明确的错误(使用了端口50070,我认为名称节点使用了这个端口)。任何人以前解决过这个问题吗?谢谢resource_management.core.exceptions.Fail:Executionof'ambari-sudo.shsuhdfs-l-s/bin/bash-c'ulimit-cunlimited;/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置,我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark,以便我可以从s3存储桶中读取数据,然后写回它。使用客户端运行jar/应用程序工作正常,很好,很好,因为它进入存储桶并创建一个文件并再次返回。然而,我需要它在集群模式下工作,以便它更接近我们的生产环境,但它总是失败——我能看到的日志中没有真正有意义的消息,也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手,所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop - 如何将Hadoop文件系统保存在hadoop安装盘以外的物理盘中?

我正在尝试在多节点集群环境中安装hadoop。我已经在SSD上安装了ubuntu15.10。我想在SSD上安装hadoop2.6.2,并将我的HDFS放在单独的SATA硬盘上。为此,我应该遵循哪些步骤?我在SSD中安装了hadoop,在hdfs-site.xml中配置如下。因此,我将属性dfs.datanode.data.dir设置为file:///media/coea23/HDFS/hdfs/datanode。但是在执行jps时数据节点没有显示,而名称节点显示在已完成hadoop安装的SSD中。dfs.datanode.data.dirfile:///media/coea23/HDF