hadoop-examples

hadoop - PIG LATIN 脚本错误 1000

我创建了以下脚本，其中我尝试使用piggybankUDF:register/home/hduser/pig/contrib/piggybank/java/piggybank.jar;divs=load'NYSE_dividends.txt'usingPigStorage(',')as(exchange:chararray,symbol:chararray,date:chararray,dividends:float);backwards=foreachdivsgenerateorg.apache.pig.piggybank.evaluation.string.Reverse(symbo

hadoop - 合并带有标题的两部分文件仅作为第一行 Hadoop

hadoop column code strong apache-pig cloudera

hadoop - Spark 独立模式 : Worker not starting properly in cloudera

我是spark的新手，在使用cloudera管理器中提供的包裹安装spark之后。我已经配置了以下来自clouderaenterprise的链接中所示的文件:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_spark_installation_standalone.html完成此设置后，我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.s

cloudera starting spark localhost localdomain hadoop bigdata apache-spark cloudera-manager

hadoop - Flume 通过网络获取日志

我一直在Flume工作，将日志从服务器计算机提取到HDFS。如果服务器和客户端机器连接在同一个网络中，我就能实现这一点。但是，如果服务器和客户端位于不同的网络中，我该如何实现相同的目标。我需要为此编写自定义源代码吗？[刚刚检查了来自cloudera的twitter示例，他们在其中使用自己的自定义源来获取twitter推文。]如有任何帮助，我们将不胜感激。谢谢，卡莱最佳答案如果你有一个多宿主主机加入两个你想传送的非对话网络，你可以有一个水槽代理在那里运行来桥接来自一个网络的日志并将其传递到另一个网络。因此，您的多宿主主机将充当一种

hadoop Flume 自定 section 并将

hadoop - 使用 pig/hive 进行半结构化数据处理

我有如下所示的半结构化数据:col1col2col3col4123[name#aa,address#[perminentaddress#abc,currentaddress#xyg]]598[address#[perminentaddress#dev,currentaddress#pqr],name#bb]349[name#cc,mobile#111,id#66address#[perminentaddress#abc,currentaddress#xyg]]前三列是固定的，第四列可以包含任何带有键值对的未知数据。键值对可以嵌套，如上例所示。最重要的是第4列的键位置不固定，可以有无限数

结构化 hadoop currentaddress section code hive apache-pig

hadoop - 选择语句错误，应用程序 exitCode 1

我正在处理HortonworksHive。我见过同样类型的错误。但是在exitCode为1的应用程序错误的情况下，底层的MapReduce错误似乎有所不同。在Hive中，语句Select*fromSomeTable;...工作正常，但是SelectcolNamefromSomeTable;...不工作。应用程序错误日志2014-03-1712:49:15,557INFOorg.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl:application_1395039411618_0001StatechangefromACC

exitCode hadoop java AbstractService service hive hortonworks-data-platform

hadoop - 如何使用Cascading的CoGroup

我的递归目录结构具有不同数量的零件文件。我想对这些文件应用CoGroup。假设，我的目录结构是这样的:directory1/dir1/part-0000/part-0001/part-0002dir2/part-0000/part-0001/part-0002dir3/part-0000/part-0001/part-0002dir4/part-0000/part-0001/part-0002这些零件文件包含制表符分隔的数据，例如:field1field2field3field4field5我想合并所有具有公共(public)值field1、field3、field4和field5的部

Cascading CoGroup field 34 dir hadoop mapreduce

hadoop - hive有数据字典吗？

hive有数据字典吗？我正在尝试获取配置单元中表的列名。除了describe命令外，类似于oracle查询:SELECTCOLUMN_NAME,DATA_TYPEFROMUSER_TAB_COLUMNSWHERETABLE_NAME=?ORDERBYCOLUMN_ID; 最佳答案 Hive使用外部关系数据库作为其metastore.您可以使用MetastoreAPI(例如MySQL)直接查询配置的Metastore。更高级别的组件是HCatalog，它提供了一个API来访问和操作Metastore。

hadoop hive section noreferrer Metastore data-dictionary

java - Hadoop 不产生任何输出

我有一个使用旧API运行的hadoop作业，我将我的实现移至新API，但在运行它时遇到问题。当作业运行时，不会抛出任何异常，但我从未生成任何输出文件。在旧的API下，它会生成带有我排序的结果列表的输出文件。这是正在运行的作业:Configurationconfig=newConfiguration();Jobjob=Job.getInstance(config,"sorting");job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(IntWritable.class);job.setMapperClass(

Hadoop java IntWritable job mapreduce api sorting output

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

180 181 182183184 185 186