HADOOP

shell - 使用 shell 脚本的 Cron 作业

我正在尝试每2分钟使用cronjob运行一个shell脚本。我打开我的终端然后输入crontab-e一旦我执行了这个命令，我就在写我的命令*/2****/home/test/test/test.sh但是我得到了一个错误E486:Patternnotfound:2****请帮忙，因为我是新手，我不知道为什么会这样。如果你给我任何关于hwo的链接和代码来执行cronjob，那将会有所帮助。最佳答案如评论中所述，出现以下错误:E486:Patternnotfound:2****是因为你编辑不当造成的。也就是说，您正确地输入了cront

hadoop - MapReduce shuffle 阶段瓶颈

我正在阅读原始的MapReduce论文。我的理解是，当处理数百GB的数据时，传输如此多数据的网络带宽可能成为MapReduce作业的瓶颈。对于map任务，我们可以通过在已经包含任何给定拆分数据的worker上安排map任务来减少网络带宽，因为从本地磁盘读取不需要网络带宽。然而，shuffle阶段似乎是一个巨大的瓶颈。reduce任务可能会从所有map任务接收中间键/值对，并且几乎所有这些中间键/值对都将通过网络流式传输。当处理数百GB或更多的数据时，有必要使用组合器来实现高效的MapReduce作业吗？最佳答案如果Combine

MapReduce shuffle section Combiner hadoop

java - Hadoop:是否可以将多个文件放在一起？

我有包含许多文件的输入。它们的大小大于blockSize。每个文件在被处理后，至少诱导一个InputSplit来处理它。一个问题是:是否可以一次处理多个文件？基于FileInputFormat代码，它不是:for(FileStatusfile:files){337Pathpath=file.getPath();338longlength=file.getLen();339if(length!=0){340BlockLocation[]blkLocations;341if(fileinstanceofLocatedFileStatus){342blkLocations=((Located

Hadoop java section bytesRemaining blkLocations

csv - Pig CSVExcelStorage 双引号逗号

我正在将csv格式的文件(字段以逗号分隔并用双引号引起来)接收到HDFS中，并开发了一个pig脚本，该脚本在我使用HQL脚本将数据插入Hive之前删除了标题行并去掉了双引号。这个过程一直运行良好；但是，今天我发现其中一个表存在数据问题。该表的文件特别有一个字符串字段，可以在双引号内包含多个逗号。这会导致某些记录的数据被错误地加载到Hive中的错误列中。我无法更改源文件的格式。目前我正在使用PiggyBankCSVExcelStorage来处理csv格式，如下所示。可以修改它以产生正确的结果吗？我还有哪些其他选择？我注意到现在还有一个CSVLoader，但还没有找到任何示例来说明如何使用

引号 CSVExcelStorage 34 Sample Name csv hadoop apache-pig delimiter

hadoop - 动态计算oozie参数(MR Action 的reducer数量)

在我的oozie工作流程中，我动态创建了一个配置单元表，比如T1。此配置单元操作之后是映射减少操作。我想将reducers属性(mapred.reduce.tasks)的数量设置为等于字段的不同值，比如(T1.group)。关于如何动态设置某些oozie参数的值以及如何从hive不同操作获取参数值到oozie参数的任何想法？最佳答案希望对您有所帮助:像您已经做的那样创建配置单元表。执行另一个Hive查询，计算列的不同值并将其写入hdfs中的文件。创建一个Shell操作，它将读取文件并以key=value的形式回显值。为shell

reducer hadoop code section 配置单 oozie

hadoop - 我们可以在 pig 中通过::分隔符拆分文件列吗

我正在尝试读取一个分隔符为双冒号(::)的文件。我正在使用CSVExcelStorage，但它给出的错误如下:couldnotinstantiate'org.apache.pig.piggybank.storage.CSVExcelStorage'witharguments'[::]'那么有什么方法可以使用自定义分隔符读取文件吗？最佳答案您可以使用PigStorage使用您的自定义分隔符。关于hadoop-我们可以在pig中通过::分隔符拆分文件列吗，我们在StackOverflo

中通 hadoop section 自定 CSVExcelStorage apache-pig

mysql - 使用Sqoop将MySQL导入Hive时如何指定字段分隔符？

我尝试使用Sqoopv1.4将MySQL表导入Hivesqoopimport--connectjdbc:mysqll//localhost:3306/mysqldb\--usernameuser--passwordpwd--tablemysqltbl\--hive-import--hive-overwrite\--hive-tablehivedb.hivetbl-m1\--null-string'\\N'\--null-non-string'\\N'\mysqltbl中有100行，其中一个字段text包含\t和\n，导致Sqoop错误地解析数据，即hivetbl中有超过100行并且字段

mysql Sqoop code hive import hadoop

sql - Hive 和选择不匹配的记录

我有两个表，如表A、B，我需要选择A与B的不匹配记录(即A减去B)。A有多列，B是单列(ID)。我试过如下，但是花费了太多时间Select*fromAwhereA.ID(selectB.IDfromB).我也试过了Select*fromAleftouterjoinonBwhereA.ID=B.IDANDB.IDISNULL显示错误的结果请帮我确定解决方案。谢谢。最佳答案使用where子句进行过滤。Select*fromAleftouterjoinBonA.ID=B.IDwhereB.IDISNULL

Hive sql section code pre hadoop mapreduce hiveql

java - 添加自定义处理器后 Apache Nifi 不启动

我正在使用HortonworksHDF1.2.0.1沙箱，我正在尝试添加PutHiveQL将包含在1.0nifi版本中的处理器。到目前为止，我已经生成了.nar存档，但是当它被导入/lib目录时，nifi不再启动。我在nifi-app.log中得到一个java.lang.UnsupportedClassVersionError:2016-07-1513:22:37,158ERROR[main]org.apache.nifi.NiFiFailuretolaunchNiFiduetojava.util.ServiceConfigurationError:org.apache.nifi.pr

自定 Apache java nifi URLClassLoader hadoop hive hortonworks-data-platform apache-nifi

spring - 无法使用Spring云数据流将流数据写入接收器文件

我正在尝试使用shell(非UI)使用springcloud数据流创建数据流管道。来源是twitterstream，接收器是文件。这是我配置文件接收器所做的:dataflow:>streamcreatedemo--definition"twitterstream--credentials|file--dir=/opt/datastream--mode=APPEND--filename=tweets.txt"我可以使用来自kafka主题的数据，但无法写入上面的接收器位置，甚至没有创建文件。部署流时没有错误日志。最终我会将其从本地文件系统更改为HDFS。有什么遗漏吗？PS:我试过默认文件接

spring code section hadoop spring-cloud spring-cloud-dataflow

139 140 141142143 144 145