草庐IT

add_command

全部标签

hadoop - pig 帮 : How can I add a fixed field that is not defined in the schema

如何添加架构中未定义的固定字段(例如日期或月份)?我运行了以下pig脚本以将固定日期添加到我的结果表中,并收到以下错误消息:Invalidfieldprojection。方案中不存在投影字段[日期]。joined_table=joinAby(key1),Bby(key1);result=foreachjoined_tablegenerate20140625asdate,A::value1asv1,B::value1asv2; 最佳答案 这是你可能想要的:result=FOREACHjoined_tableGENERATE'20140

shell - Oozie——java : command not found - shell action

我正在通过Oozie从shell脚本运行java程序,但出现以下错误java:commandnotfound当我从边缘节点运行shell脚本时,我没有发现任何问题,java类运行时没有任何错误,我也得到了所需的输出。但是,无法运行java命令的是oozie作业。oozie中的所有其他操作都正常执行,但是当它遇到java行时,它会抛出上述错误。我知道Hadoop集群中的所有节点都会安装Java,那么为什么会出现此错误?下面是我的shell脚本中的java命令......java-cp$LOCAL_DIR/libs/integration-tools.jarcom.audit.report

java - Hadoop 文本输出格式 : add headers to CSV output

我正在维护一个简单的hadoop作业,该作业生成CSV文件作为HDFS中的输出。该作业使用TextOutputFormat。我想将前导标题行添加到csv文件(我知道零件文件是由不同的worker创建的,如果他们每个人都获得标题,那不是问题)。如何实现?编辑:级联可以help但乍一看我不想开始使用新框架编辑:所以我想为输出的CSV文件添加标题。列数是确定性的。这是我的Reducer类的骨架:importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;imp

hadoop - HUE 查询编辑器给出 "dfs command"错误

对于下面的查询:错误:OKFAILED:ParseExceptionline1:0cannotrecognizeinputnear'dfs''-''cp'有人可以指导我吗? 最佳答案 不要将您的源网址和目标网址放在单引号之间。如下所示:dfs-cppath/to/your/sourcepath/to/your/destination 关于hadoop-HUE查询编辑器给出"dfscommand"错误,我们在StackOverflow上找到一个类似的问题: ht

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择? 最佳答案 对于0.7.1,您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。 关于hadoop-配置单元cli中的"Add",我们在StackOverflow上找到一个类似的问题:

bash - JQ,Hadoop : taking command from a file

我一直在享受JQ(Doc)提供的强大过滤器。Twitter的公共(public)API提供格式良好的json文件。我可以访问其中的大量内容,并且可以访问Hadoop集群。在那里,我决定不使用Elephantbird将它们加载到Pig中,而是在mapperstreaming中尝试JQ看看它是否更快。这是我的最终查询:nohuphadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.5.1.jar\-files$HOME/bin/jq\-Dmapreduce.map.memory.mb=2048\-Dmapred.ou

linux - yarn -env.sh : command not found

我在Ubuntu16.04上安装了Hadoop2.7.2。当我运行命令时:start-yarn.sh它给出了以下输出:startingyarndaemons/usr/local/hadoop-2.7.2/etc/hadoop/yarn-env.sh:line122:rt:commandnotfoundstartingresourcemanager,loggingto/usr/local/hadoop-2.7.2/logs/yarn-hduser-resourcemanager-brij-Compaq-15-Notebook-PC.out/usr/local/hadoop-2.7.2/e

hadoop - Cloudera Hive : Where to add json-serde-1. 3.7 jar文件

我使用的是cloudera5.8.0首先我运行这个命令:hive>ADDJAR/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;Added[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]然后我添加了json-serde-1.3.7jar文件hive>ADDJAR/usr/lib/hive/lib/json-serde-1.3.7-jar-with-d

hadoop - Apache hive : How to Add Column at Specific Location in Table

我想在Hive表的特定位置添加一个新列。当我添加新列时,它会转到最后一个位置。 最佳答案 您需要重新创建表。如果表是外部表并且数据已经包含新列,则发出drop和createtable语句。一般的解决方案是:1.createnew_table...;2.insertoverwritenew_tableselectfromold_table;3.dropold_table;4.alternew_tablerenametoold_table;此外,如果数据文件已经在某个位置包含新列,您可以1.Altertableaddcolumn使用此示

hadoop - 开始-dfs.sh : command not found on ubuntu 12. 04

我已经安装了hadoop2.2.0。在Ubuntu12.04上。但是命令start-dfs.sh不起作用。当我运行此命令时,它返回start-dfs.sh:commandnotfound。start-dfs.sh、start-all.sh、stop-dfs.sh和stop-all.sh位于sbin目录中。可能是什么问题? 最佳答案 第一个解决方案设置Hadoop环境变量$cd~$vi.bashrc pastefollowingtotheendofthefile #HadoopvariablesexportJAVA_HOME=/usr