hadoop-examples

hadoop - 过滤 hive 复杂数据类型

我使用配置单元创建了一个表我想过滤数据createtablestudent(idbigint,namestring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','STOREDASTEXTFILE;和类似的数据100student1java,.net,hadoop101student2.net,hadoop102student3java,hadoop103student4.net,hadoop104student5java,.net105student6java,.net

hadoop - 分区 hive 数据复杂数据类型，同时插入数据它显示错误

我使用hive创建了一个表，我想根据位置对数据进行分区createtablestudent(idbigint,namestring,locationstring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','storedastextfile;和类似的数据100student1ongolejava,.net,hadoop101student2hyderabad.net,hadoop102student3vizagjava,hadoop103student4ongole.n

hadoop hive student code section hiveql

shell - Curl，Hadoop 上的 Kerberos 身份验证文件副本

我们需要在HDFS位置、HDFS文件夹之间建立一个文件副本。我们目前在shell脚本循环中使用了curl命令，如下所示。/usr/bin/curl-v--negotiate-u:-XPUT":/webhdfs/v1/busy/rg/stg/"$1"/"$table"/"$table"_"$3".dsv?op=RENAME&destination=/busy/rg/data/"$1"/"$table"/"$table"_$date1.dsv"不过这样就实现了文件的移动。我们需要建立一个文件副本，以便将文件保留在原始暂存位置。想知道有没有相应的curl操作？op=RENAME&destin

Kerberos Hadoop code hello shell curl webhdfs

hadoop - 只有一个文件从带有水槽的kafka到hdfs

我正在尝试通过水槽将数据从kafka放入hdfs。kafka_producer每10秒发送一条消息。我会在hdfs上的一个文件中收集所有消息。这是我使用的flume配置，但它在hdfs上存储了很多文件(一个用于消息):agent1.sources.kafka-source.type=org.apache.flume.source.kafka.KafkaSourceagent1.sources.kafka-source.zookeeperConnect=localhost:2181agent1.sources.kafka-source.topic=provaagent1.sources.

水槽 hadoop agent1 agent hdfs apache-kafka flume

hadoop - 使用 Flume 获取推文时出现问题

我可以使用flume获取推文，但是，流式传输所使用的语言不是我想要的。下面是flume.conf文件我收到的推文如下所示:任何人都可以建议我需要进行的更改吗？最佳答案 ApacheFlume中的TwitterSource目前不支持语言过滤。这个先前的问题描述了一个过程(公认的复杂)，您可以通过该过程部署您自己的具有语言支持的代码补丁版本:Flume-TwitterSourcelanguagefilter我认为ApacheFlume支持语言过滤将是一个有值(value)的增强。我鼓励您在FLUME中的ApacheJIRA中提交请求项

时出 hadoop section noreferrer noopener flume

hadoop - 如何使用一个配置单元结果作为另一个配置单元查询的条件？

我有一个问题。我有两个配置单元表，第一个有条件。需要在sec查询中动态查找条件。例如第一个查询:selectcol1,col2fromtable1.willreturnaccount='abc'在第二个查询中，我需要使用这个作为条件，例如:select*fromtable2whereaccount='abc'有人知道吗？提前致谢最佳答案 ApacheHive支持使用join根据相关列合并来自多个表的行。在此示例中，有一个accounts表和一个orders表。该查询使用联接查找与每个帐户对应的所有订单，过滤到仅account1和a

配置单 hadoop account account_name order hive

hadoop - crontab 作业未执行

我在centOS系统上安装了hadoop。我有一个shell脚本，它将在某个特定时间文件夹位置生成的所有HDFS小文件合并到hdfs另一个位置的一个文件中。调用时，shell工作正常。然后我将shell作为cron作业在每天凌晨01:30运行。我输入了crontab-e并粘贴了这个:301***/home/hadoop/tmp/cron-merge-files.sh>/home/hadoop/tmp/cron-merge-files.txt但是合并操作并没有发生。我在/var/log/cron文件中看到该条目在凌晨01:30出现，但我看不到这些文件在hdfs中合并。当我简单地执行she

crontab hadoop section cron-merge-files cron hdfs

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时，出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行？我使用本地文件作为输入。我必须使用HDFS文件吗？我相信RDD是并行化的，输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

AccessControlException hadoop apache code apache-spark

hadoop - 无法在 Hadoop 集群上启动 H2O - ClassNotFound 异常

我正在尝试在Hadoop集群上启动H2O。可悲的是，它不起作用，并给我一个错误，即找不到类water.hadoop.h2omapper。Hadoop环境是2.6版本的HDP，包括5个节点，其中1个运行YARN资源管理器，3个节点是带有YARN客户端的数据节点。每个数据节点都有32GBRAM和4个CPU内核的资源。它们上没有运行其他应用程序。我在Ambari中的每个节点上为每个YARN应用程序配置了最多16GB和3个内核。我从终端启动H2O集群(尝试了所有节点，到处都是同样的错误)，输出如下:[root@host3h2o-3.14.0.6-hdp2.6]#sudo-uhdfshadoop

ClassNotFound hadoop java apache hadoop-yarn h2o

hadoop nodemanager 未启动，slave 不满足最小分配

当运行start-all.sh我的slave1和slave2在jps中找不到nodemanager使用VMvirtualbox在Ubuntu16.04上工作主人yunchi@master:~$jps15920Jps15505SecondaryNameNode15659ResourceManager15293NameNode奴隶1yunchi@slave1:~$jps7587DataNode7945Jps奴隶2yunchi@slave2:~$jps7138DataNode7374Jps这是我的nodemanager-slave1.log2017-10-1217:26:59,662错误or

nodemanager 不满 gt lt property hadoop hadoop-yarn

168 169 170171172 173 174