草庐IT

Cross-Site

全部标签

json - 为什么 Pig 中的 CROSS 会使数据变平?

我有几个pig别名:a:{f1:long,f2:float}b:{f1:long,f2:float}c:{f1:long,f2:float}每个只包含一个记录(它们由foreach(group...all)generate...创建)我想通过将以上内容合并为一个来创建一个“总摘要”别名(使用JsonStorage存储并使用hadoopfs-get收集,然后加载到Python中...)为此我愿意grand=CROSSabc;我明白了grand:{a::f1:long,a::f2:float,b::f1:long,b::f2:float,c::f1:long,c::f2:float}但是,

hadoop - hdfs-site.xml 用于添加新的数据节点

我已经在伪分布式模式下安装了hadoop2.7.2(machine-1)。我想向它添加一个新的数据节点以使其成为一个集群。作为,但问题是两台机器都有不同的磁盘分区。我在新的数据节点(machine-2)中安装了相同版本的hadoop2.7.2,也可以与machine-1ssh。在谷歌搜索了很多网站之后,都有共同的教程提到,我们必须在里面有相同的配置文件/etc/hadoop/文件夹。综上所述,我在machine-1中的现有配置是:核心站点.xmlhadoop.tmp.dir/home1/tmpAbaseforothertemporarydirectoriesfs.default.nam

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值?我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件,但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。 最佳答案 找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖,然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

hadoop - Oozie java-action 不包含 core-site.xml

在新安装的HadoopHDP2.2.2.4上运行Ooziejava操作时,例如尝试访问hdfs,它会访问错误的文件系统:java.lang.IllegalArgumentException:错误的FS:hdfs:/tmp/text.txt,预期:file:///可以通过在Oozie操作中包含core-site.xml来修复:hdfs:/path-to-core-site.xml-on-hdfs但是原因是什么,正确的解决方法是什么? 最佳答案 core-site.xml不包含在java-action的类路径中的原因是属性mapredu

hadoop - Cloudera Manager 和 hdfs-site.xml

使用ClouderaManager时,我可以通过以下方式访问hdfs-site.xml文件:ClouderaManager>Cluster>HDFS>Instances>(NameNode,例如)>Processes配置文件>hdfs-site.xml然后URL指向:http://quickstart.cloudera:7180/cmf/process/8/config?filename=hdfs-site.xml这个文件是否可以通过文件系统直接访问,如果可以,它位于何处 最佳答案 ClouderaManager中设置的配置存储在C

java - mapred-site.xml 未覆盖 mapred-default.xml 中的参数

我正在使用Hadoop版本0.20.2(Cloudera发行版cdh3u6)并发现问题。据我了解,如果我在/etc/hadoop/conf/mapred-site.xml中设置一个值,它应该自动覆盖Hadoop默认值。所以我设置了一个变量如下:mapred.child.java.opts-Xmx1024m但是,这没有任何效果。现在,我知道hadoop正在读取该文件,因为如果我将变量设置为final(true),则该设置确实适用于我的工作。但是,据我了解,这不是必需的,因为mapred-site.xml应该在mapred-default.xml之后加载所以它应该简单地覆盖它。您可能会问,

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

java - 配置pentaho的hdfs-vfs来获取hdfs-site.xml

我刚开始使用Pentaho'sHDFSVFS并且对这个项目了解不多。我正在尝试从外部位置读取我的Hadoop配置文件。这似乎适用于除hdfs-site.xml之外的所有文件.尝试通过PentahoHDFSVFS项目与HDFS通信时,故障发生在VFS层。我的直觉告诉我pentaho正在通过一些环境变量或其他外部指针读取这个文件,但我似乎无法在他们的源代码中找到它。当我手动将hdfs-site.xml文件放入已编译的war时一切正常文件,但这对我来说不够,因为我需要将此文件放在外部位置,以便其他进程可以更改它。有没有人处理过这个问题?有人可以让我知道如何告诉pentaho从哪里获取这个文件

hadoop - 如果没有在hdfs-site.xml中定义,namenode和datanode安装在哪里?

我的hdfs-site.xml只有以下内容:dfs.replication1问题。NameNode和DataNode安装在哪里?我在装有Windows10的MSFTSurface笔记本电脑上使用Hadoop3.0.3版本。 最佳答案 在hdfs-default.xmldfs.datanode.data.dir默认值为file://${hadoop.tmp.dir}/dfs/data和dfs.namenode.name。目录file://${hadoop.tmp.dir}/dfs/name并且在core-default.xmlhado

hadoop - 编辑 yarn-site.xml 时需要重新加载 yarn 吗?

我已经在我的集群上编辑了yarn-site.xml。具体来说,我编辑了yarn.scheduler.minimum-allocation-mb设置。我是否需要以某种方式重新加载配置,或者重新启动资源管理器或其他东西才能生效,或者这些配置文件是否会自动监视和重新加载? 最佳答案 是的,你有。您还可以使用Ambari验证这一点。yarn-site.xml文件中的一项编辑会触发某些服务重新启动。YARN就是其中之一 关于hadoop-编辑yarn-site.xml时需要重新加载yarn吗?,我