草庐IT

HADOOP_PREFIX

全部标签

hadoop - 为什么在使用 hadoop fs -put 命令时 mapreduce 没有启动?

请原谅这个基本问题。但我想知道为什么当我们尝试加载一些大小大于block大小时的mapreduce作业没有启动。我在某个地方了解到MapReduce将负责将数据集从LFS加载到HDFS。那为什么当我给hadoopfs-put命令时我无法在控制台上看到mapreduce日志?提前致谢。 最佳答案 您正在考虑将生成MapReduce作业的hadoopdistcp。https://hadoop.apache.org/docs/stable/hadoop-distcp/DistCp.htmlDistCpVersion2(distribute

hadoop - Gradle 不下载完整的依赖项

我正在尝试下载和构建spring-data-hadoop2.4.0.RELEASE在我的dependencies.gradle中使用以下decleration:dependencies{...//compile('org.springframework.data:spring-data_hadoop:2.4.0.RELEASE')compilegroup:'org.springframework.data',name:'spring-data-hadoop',version:'2.4.0.RELEASE'...}刷新gradle现在会导致下载新添加的依赖项但是数据不一致。下载后得到如下

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询,我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

hadoop - PIG 右移问题

我有一个CSV文件,其中包含以下方式的数据:data_id,data_text,data_author1,"heresometext...",anurag2,"Hi,iamapsc...",apsc3,"iamlivingin"NYC"",anotheruser我正在执行以下步骤来加载正确的数据方法1.temp=LOAD'filepath'USINGPigStorage(',');当我转储温度时,数据右移,因为第二条记录中有一个额外的逗号。方法二:使用新行作为分隔符加载数据temp=LOAD'filepath'USINGPigStorage('\n');它在1个包中给我1个记录。我再次

hadoop - 如何将文件复制到HDFS?

我正在尝试在我的本地机器上启动一个hadoop单节点集群。我根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本start-dfs.sh然后运行命令jps(在运行start-dfs.sh之后)我看到数据节点已启动并正在运行:15735Jps15548DataNode15660SecondaryNameNode15453NameNode几秒钟后,我

Hadoop加密区远程异常

我正在尝试在空目录/enc_zone2中创建一个加密区域。这是我正在使用的命令hdfscrypto-createZone-keyNamekey2-path/enc_zone2当我尝试使用查看键列表时hadoopkeylist-metadata我能够看到key2的元数据。但是,我在创建区域时遇到的错误是"RemoteException:Can'tcreateanencryptionzonefor/tempsincenokeyproviderisavailable."但是,KMS服务器已启动并在端口16000上运行。此外,列出key和列出区域的命令正在运行,这意味着key提供程序正在运行。

hadoop - SQOOP 在本地文件系统中导入存储数据而不是在 HDFS 中

我正在尝试通过sqoop将数据从mysql导入到hdfs,但是在将其存储数据导入到我的/home//文件夹中而不是hdfs中之后。sqoopimport-fslocal\-jtlocal\-libjars/tmp/sqoop-amar/compile/00992af844025da3f2ee7d83cb03a6b3/user_account.jar\--create-hive-table--connectjdbc:mysql://localhost/ecom\--usernameroot--password123456\--hive-import--tableuser_account

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析,我计划使用Spark来分析故障趋势,并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒,我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业,以进行性能矩阵故障趋势分析。关于这个问题,考虑到上述情况,我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。 最佳答案

hadoop - 有关如何从 Hive 查询中设置 Hive 属性的示例

我需要一个快速示例来说明如何使用查询更改配置单元中的属性,例如,我想更改属性“mapred.reduce.tasks”,因此,如何在查询中执行此更改。我正在为HDPCD考试训练自己,考试的目标之一是“从Hive查询中设置Hadoop或Hive配置属性”所以我想这与在Hive控制台中执行类似的操作不同:setmapred.reduce.tasks=2; 最佳答案 要更改Hadoop和Hive配置变量,您需要在Hive查询中使用set。所做的更改将仅适用于该查询sessionset-v打印所有Hadoop和Hive配置变量。SETmap

hadoop - 从日期字段 Hive 获取星期几

需求是从日期字段中获取星期几,日期字段是"MM/dd/yyyy",需要转换成"yyyy-MM-dd"我认为可以使用Unix_Timestamp完成日期转换但是如何从修改日期字段中获取星期几?在这方面的任何帮助都是有用的 最佳答案 从Hive2.2.0开始,使用extract(fieldFROMsource)获取星期几。例如:selectextract(dayofweekfrom"2016-10-2005:06:07")结果为5。更多信息请引用日期函数手册:https://cwiki.apache.org/confluence/dis