hadoop-release

hadoop - 无法使用 Pig FOREACH 显示数据

我在txt文件中有这个smaple数据集(格式:名字，姓氏，年龄，性别):(Eric,Ack,27,M)(Jenny,Dicken,27,F)(Angs,Dicken,28,M)(Mahima,Mohanty,29,F)我想显示年龄大于27岁的员工的age和firstname。在进行了相当多的操作并寻找一些指示后，我被卡住了:我正在使用以下方式加载此数据集:tuple_record=LOAD'~/Documents/Pig_Tuple.txt'AS(details:tuple(firstname:chararray,lastname:chararray,age:int,sex:char

java - Hadoop Mapreduce 字数统计

从EclipseKepler运行HadoopMapReduceWordCount程序与使用位于Mapreduce(hadoop-mapreduce-example-2.6.0.jar)中的预定义jar文件运行它有什么区别。在速度、性能等方面有什么区别吗？最佳答案没有区别。只是当你的输入很大并且你有mapper/reducer在多个节点上运行时，你会看到显着的性能提升，因为现在字数统计将在不同的机器上并行完成。关于java-HadoopMapreduce字数统计，我们在StackOv

Mapreduce Hadoop section stackoverflow java eclipse jar word-count

hadoop - 如果 Impala 查询内存不足会怎样？

如果Impala查询内存不足会发生什么:Impala守护进程是否崩溃？它会写入磁盘吗？详细的解释会有所帮助! 最佳答案这取决于Impala的版本及其配置方式。一般来说，Impala会在内存不足时终止查询。有一个进程范围的内存限制，此时任何请求内存的查询都将被终止。还有另一个可选的、每个查询的内存限制。Impala2.0及更高版本支持“溢出”大型连接和聚合运算符，这有助于避免这些内存不足的情况。关于hadoop-如果Impala查询内存不足会怎样？，我们在StackOverflow上找

hadoop Impala section stackoverflow cloudera

hadoop namenode、datanode、secondarynamenode 没有启动

我刚刚下载了hadoop-0.20tar并解压了。我设置了JAVA_HOME和HADOOP_HOME。我修改了core-site.xml、hdfs-site.xml和mapred-site.xml。我开始服务了。jpsjpsJobTrackerTaskTracker我检查日志。它说2015-02-1118:07:52,278INFOorg.apache.hadoop.hdfs.server.namenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_

secondarynamenode datanode hadoop gt lt

hadoop - Docker 容器运行 Mesos 集群并在集群上运行其他 docker 容器(使用 Marathon)

我刚开始使用Mesos、Docker和Marathon，但我找不到任何可以回答这个特定问题的地方。我想设置一个在Docker上运行的Mesos集群——有几个互联网资源可以做到这一点，但我想在Mesos本身之上运行Docker容器。这意味着Docker容器在其他Docker容器中运行。这有什么问题吗？不知何故，它在直觉上似乎并不正确，但看起来这样做真的很方便。理想情况下，我想运行Mesos集群(使用Marathon、Chronos等)，然后在其上的Docker容器中运行Hadoop。这是可能的还是标准的做事方式？对于什么是良好做法的任何其他建议，我们将不胜感激。谢谢

容器 Marathon section Docker hadoop cluster-computing mesos

hadoop - 在 Apache Spark 中使用 Reduce

我正在尝试使用Apachespark加载一个文件，并将该文件分发到我集群中的多个节点，然后聚合结果并获取它们。我不太明白该怎么做。根据我的理解，reduce操作使Spark能够组合来自不同节点的结果并将它们聚合在一起。我的理解正确吗？从编程的角度来看，我不明白我将如何编写这个reduce函数。我究竟如何将主数据集分成N个部分，并使用转换列表要求它们并行处理？reduce应该接受两个元素和一个将它们组合起来的函数。这两个元素应该是Spark上下文中的RDD，还是可以是任何类型的元素？另外，如果你有N个不同的分区并行运行，如何减少将它们的所有结果聚合为一个最终结果(因为reduce函数只聚

hadoop Apache code reduce section apache-spark

hadoop - Hive 在多列上对 null 的奇怪处理？

这个查询:SELECTcount(distinctfield1,field2,field3,field4)FROMSOME_TABLE返回与此查询不同(更小)的计数:SELECTcount(distinctcoalesce(field1,"null"),coalesce(field2,"null"),coalesce(field3,"null"),coalesce(field4,"null"))FROMSOME_TABLE我希望结果是相同的。对此有解释吗？最佳答案您看到不同结果的原因有两点:COUNT(DISTINCT(...)

多列 hadoop code field section hive hiveql

hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数？

Impala确实支持UDFswritteninC++orJava，但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容？--UDFdefinitionCREATEFUNCTIONget_date_string(datetimep_value)ASRETURNyear(p_value)*10000+month(p_value)*100+day(p_value);--UDFcallSELECTget_date_string(CreatedOn)FROMPosts;更新:Hive支持这样的UDF——它们被称为macros但我发现

Impala amp section p_value hadoop

hadoop - 带有存档操作的 Oozie 工作流

我想制作一个oozie工作流，其中成功的最后一步是“存档”结果。shell中的命令是hadooparchive-archiveName=XXX.har-p/some/random/parentdirectorToArhivepathToArchiveDestination我试过以下方法Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我得到的错误类似于以下内容:WARNING:ExceptioninRunloopofthread:mainwithmessage:E0701:XMLschemaerror,cv

存档 hadoop 34 gt lt hdfs archive oozie

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建，但没有任何内容附加到文件中。在我开始调试HTTP源之前，你能验证我的flume.conf吗？##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

建文中创 hdfs-agent hdfs agent hadoop cloudera flume hortonworks-data-platform flume-ng

125 126 127128129 130 131