草庐IT

hadoop - HIVE 拆分字符串

hive:-我有一列changeContext==>"A345|Fq*A|2017-05-01|2017-05-01"(字符串),我需要从中提取A345作为另一列。有什么建议吗?附言我已经尝试过regexp_extract(遇到顶点故障)所以任何其他解决方案都是完美的。 最佳答案 withtas(select"A345|Fq*A|2017-05-01|2017-05-01"aschangeContext)selectsubstring_index(changeContext,'|',1)option_1,split(changeCo

hadoop - 如何找出所有队列配置参数hadoop

我们正在使用CapacityScheduler进行资源分配/管理。我正在努力找出队列的所有配置参数,我尝试了以下命令,它只返回了几个参数。hadoopqueue-infoxyzqueue输出QueueName:root.xyzqueueQueueState:runningSchedulingInfo:Capacity:1.8867924,MaximumCapacity:UNDEFINED,CurrentCapacity:0.35409614如何找到hadoopwiki上显示的其他参数排队?谢谢 最佳答案 您应该为此使用RMRESTA

hadoop - 为什么在使用 hadoop fs -put 命令时 mapreduce 没有启动?

请原谅这个基本问题。但我想知道为什么当我们尝试加载一些大小大于block大小时的mapreduce作业没有启动。我在某个地方了解到MapReduce将负责将数据集从LFS加载到HDFS。那为什么当我给hadoopfs-put命令时我无法在控制台上看到mapreduce日志?提前致谢。 最佳答案 您正在考虑将生成MapReduce作业的hadoopdistcp。https://hadoop.apache.org/docs/stable/hadoop-distcp/DistCp.htmlDistCpVersion2(distribute

hadoop - Gradle 不下载完整的依赖项

我正在尝试下载和构建spring-data-hadoop2.4.0.RELEASE在我的dependencies.gradle中使用以下decleration:dependencies{...//compile('org.springframework.data:spring-data_hadoop:2.4.0.RELEASE')compilegroup:'org.springframework.data',name:'spring-data-hadoop',version:'2.4.0.RELEASE'...}刷新gradle现在会导致下载新添加的依赖项但是数据不一致。下载后得到如下

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询,我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

hadoop - PIG 右移问题

我有一个CSV文件,其中包含以下方式的数据:data_id,data_text,data_author1,"heresometext...",anurag2,"Hi,iamapsc...",apsc3,"iamlivingin"NYC"",anotheruser我正在执行以下步骤来加载正确的数据方法1.temp=LOAD'filepath'USINGPigStorage(',');当我转储温度时,数据右移,因为第二条记录中有一个额外的逗号。方法二:使用新行作为分隔符加载数据temp=LOAD'filepath'USINGPigStorage('\n');它在1个包中给我1个记录。我再次

hadoop - 如何将文件复制到HDFS?

我正在尝试在我的本地机器上启动一个hadoop单节点集群。我根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本start-dfs.sh然后运行命令jps(在运行start-dfs.sh之后)我看到数据节点已启动并正在运行:15735Jps15548DataNode15660SecondaryNameNode15453NameNode几秒钟后,我

Hadoop加密区远程异常

我正在尝试在空目录/enc_zone2中创建一个加密区域。这是我正在使用的命令hdfscrypto-createZone-keyNamekey2-path/enc_zone2当我尝试使用查看键列表时hadoopkeylist-metadata我能够看到key2的元数据。但是,我在创建区域时遇到的错误是"RemoteException:Can'tcreateanencryptionzonefor/tempsincenokeyproviderisavailable."但是,KMS服务器已启动并在端口16000上运行。此外,列出key和列出区域的命令正在运行,这意味着key提供程序正在运行。

hadoop - SQOOP 在本地文件系统中导入存储数据而不是在 HDFS 中

我正在尝试通过sqoop将数据从mysql导入到hdfs,但是在将其存储数据导入到我的/home//文件夹中而不是hdfs中之后。sqoopimport-fslocal\-jtlocal\-libjars/tmp/sqoop-amar/compile/00992af844025da3f2ee7d83cb03a6b3/user_account.jar\--create-hive-table--connectjdbc:mysql://localhost/ecom\--usernameroot--password123456\--hive-import--tableuser_account

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析,我计划使用Spark来分析故障趋势,并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒,我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业,以进行性能矩阵故障趋势分析。关于这个问题,考虑到上述情况,我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。 最佳答案