hadoop-examples

bash - Ubuntu Hadoop 找不到 JAVA_HOME

echo$JAVA_HOME给我/usr/lib/jvm/java-8-oracle我在/usr/local/hadoop/etc/hadoop/hadoop-env.sh中有exportJAVA_HOME=/usr/lib/jvm/java-8-oracle。但是，当我运行/usr/local/hadoop/bin/hadoop时，出现以下错误:/usr/local/hadoop/etc/hadoop/hadoop-env.sh:line25:export:`/usr/lib/jvm/java-8-oracle':notavalididentifierError:JAVA_HOMEi

hadoop - 如何从 Hadoop 中的一个特定机架获取 block 报告？

我想知道是否有可能只从hadoop中的一个机架获取block报告？我知道我可以使用以下命令获得整个区block的报告:hdfsfsck/-files-blocks-racks但是，当你的集群很大时，运行命令会花费很多时间。我只想查看位于特定机架中的block。有没有办法只从一个机架上获取报告？(即指定机架而不是路径)提前致谢最佳答案不，不幸的是你不能。您可以在上游提交JIRA以将其添加到hdfsfsck。但是，请记住，HDFS文件复制总是试图保留一个在不同的机架上复制以获得更好的容错性，因此即使您可以针对一个机架，您仍然指的是分

hadoop section block https hdfs fsck

mysql - 使用 hadoop 将数据从 Mysql 导入到 hdfs 时出错？

我正在尝试使用hadoop将数据从Mysql导入到hdfs，并尝试创建表和数据库是hive。我正在尝试使用以下命令sqoopimport--connectjdbc:mysql://localhost/Mobile--usernameroot--password12345678--tableAccesories--target-dir/user/harsh/Mobile1--fields-terminated-by","--hive-import--create-hive-table--hive-tablemob.custMobile是我的数据库，Accessories是我要导入的表。E

时出 hadoop HiveImport hive 17 mysql sqoop

hadoop - Spark 提交，客户端无法通过 :[TOKEN, KERBEROS 进行身份验证]；

我用kerberos设置了hadoop集群，但是当我运行spark-submit时，它抛出了异常。17/10/1908:46:53WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,192.168.92.4,executor1):java.io.IOException:Failedonlocalexception:java.io.IOException:org.apache.hadoop.security.AccessControlException:Clientcannotauthenticatevia:[TOKEN,KER

KERBEROS hadoop apache java apache-spark

hadoop - Hive 加入 2 个表，一个有分区，另一个没有

我必须对表格假设表格一是X，表格二是Z。表Z有一个分区谓词。表X是一个国家/地区表，具有以下字段country_id,country_name表Z包含一些数据，我想将该表的country_id映射到表X。我试过了selectc.country_id,c.country_name,s.sales_id,s.sales_ctry_idfromx_tablecjoinz_tableson(c.country_id=s.sales_ctry_id)但是因为表Z是按日期字段分区的，所以我无法让这个连接工作。有什么建议吗？最佳答案您应该使用

hadoop Hive code section country join hiveql

hadoop - 为子分区创建 Hive 表

我有一个带日期分区的配置单元表。这些日期从2017年1月1日开始。HDFS位置是按日期分区的。我如何创建一个仅考虑来自上述HDFS位置的5个日期的Hive表？最佳答案 createtablenewtableasselectcolumn1,column2,column3fromoldtablewhereDateStamp>='2017-01-01'andDateStamp 关于hadoop-为子分区创建Hive表，我们在StackOverflow上找到一个类似的问题：

hadoop Hive section column stackoverflow hdfs

hadoop - Kylo 服务启动失败

我尝试在我现有的HDP2.6.2Hadoop集群上安装Kylo。我关注KyloDocument但是当我尝试启动Kylo时，它显示正在启动，但几秒钟后启动失败并且状态变为停止。[root@~]#servicekylo-servicesstartStartingkylo-services...usingNiFiprofile:nifi-v1.2[root@~]#servicekylo-servicesstatusRunning.Herearetherelatedprocesses:29294java[root@~]#servicekylo-servicesstatusRunning.Her

hadoop Kylo code KYLO_EDGE_NODE

Hadoop 用户/文件夹权限

我想为每个用户创建目录。我看了几个操作方法，他们说了不同的话，我希望它尽可能简单(我不关心加密，因为用户将使用他们的sshkey登录机器)我找到了这个小指南:hadoopuserfilepermissions但有几个问题，我是否也需要在每个从属/节点机器上创建目录和用户？/user/myuser文件夹到底是什么？它应该是$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件中的/opt/hadoop/dfs/name/data(dfs.data.dir)文件夹吗？我是否还需要为每个用户提供/创建一个dfs.name.dir目录？创建用户和目录后，是否需要在用户的

Hadoop 用户 section code

hadoop - 通过 spark job 创建 hive 表

我正在尝试在hadoop集群(BigInsight4.1发行版)上创建hive表作为我的spark(1.5.1版)作业的输出，但我面临权限问题。我的猜测是spark使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表，因此未能这样做。我尝试自定义hive-site.xml文件以设置一个经过身份验证的用户，该用户有权创建配置单元表，但这没有用。我还尝试将Hadoop用户变量设置为经过身份验证的用户，但它也没有用。我想避免保存txt文件然后创建配置单元表以优化性能并通过orc压缩减小输出的大小。我的问题是:有什么方法可以调用sparkdataframeapi的write函

hadoop spark section code 配置单 apache-spark hive hivecontext

hadoop - Parquet 行组比文件中预期的太多

我目前正在使用mapreduce编写parquet，我将行组大小配置为256M，hdfsblock大小也设置为256M。输出文件大小约为每个文件1G。所以我应该期望生成的文件中有4个行组。但是当我使用时:parquet-tools元路径/to/my/file|grep“行组”它给了我63个不同大小和行数的行组:rowgroup1:RC:69816TS:244168913rowgroup2:RC:35111TS:117407826rowgroup3:RC:18488TS:60107388rowgroup4:RC:10357TS:33260415rowgroup5:RC:7905TS:24

Parquet hadoop group row RC mapreduce

169 170 171172173 174 175