apache-karaf

scala - 使用 Apache Spark 写入 HDFS 时的输出序列

我正在使用apacheSpark开发一个项目，要求将经过处理的spark输出写入特定格式，例如Header->Data->Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法并使用key作为文件名将数据写入多个文件。但问题是数据的顺序未维护，文件写入Data->Header->Trailer或三者的不同组合。RDD转换有什么我遗漏的吗？最佳答案好的，在阅读了来自Google的StackOverflow问题、博客和邮件存档之后。我发现了.union()和其他转换的工作原理以及分区的管理方式。当我们使用.u

apache - 为什么 Apache Accumulo 在重启后没有运行？

我刚刚安装了ApacheAccumulo。它已成功初始化并运行，但在我插入start-all.sh命令时重新启动后，它一直在等待Accumulo被初始化。这里有什么问题吗？最佳答案如果您重新启动了计算机，请确保您还重新启动了Hadoop(HDFS)和Zookeeper，并验证它们是否正常运行。他们必须参加Accumulo。听起来您可能是在一台机器上本地运行它。如果是这种情况，还要验证您的hadoophdfs设置并确保它没有将其数据写入/tmp，这会在重新启动之间偶尔被清除。关于ap

Accumulo apache section strong hadoop apache-zookeeper

hadoop - 使用 Apache Flume 收集 CPU 时间日志

我是hadoop和学习apacheFlume的新手。我在Virtualbox上安装了CDH4.7。下面的命令将输出最高的cputime。如何使用Apacheflume将以下命令的日志数据输出传输到我的HDFS？如何创建flume配置文件？user@computer-Lenovo-IdeaPad-S510p:$dstat-ta--top-cputime----system--------total-cpu-usage-----dsk/total--net/total----paging-----system----highest-total--time|usrsysidlwaihiqsi

hadoop Apache VirtualBox section 13 logging streaming flume bigdata

apache - 无法启动 Apache Zookeeper

我刚刚尝试在Ubuntu操作系统中独立安装ApacheZookeeper。我已经安装了Java环境并安装了Zookeeper3.4.6。但是，当我在这里输入JPS时，只有我得到了。bashrc和zoo.cfg文件的配置如下:[terminal~]vim.bashrc[terminal~]vim/usr/local/zookeeper/conf/zoo.cfg请任何人帮助我。我只为Zookeeper浪费了2天时间。真的很沮丧。最佳答案我有一台新安装的Ubuntu机器，这就是我让ZooKeeper作为独立程序工作的方法(我假设你的意

Zookeeper apache section code hadoop apache-zookeeper

csv - Apache pig 按功能分组没有给出预期的输出

我有csv格式的数据，如下所示。数据格式如下"first_name","last_name","company_name","address","city","county","postal","phone1","phone2","email","web"User.csv下命名的示例数据。该文件包含以下数据。"Aleshia","Tomkiewicz","AlanDRosenburgCpaPc","14,TaylorSt","St.StephensWard","Kent","CT27PP","01835-703597","01944-369967","atomkiewicz@hotma

Apache csv 34 code Ward hadoop apache-pig etl

apache - 独立 Hadoop 集群的系统配置

我要设置一个独立的Hortonworks集群。可以处理1TB数据所需的系统配置是什么。要求如:内存空间硬盘空间运行多少GHZ的四核/十六核/八核CPUCentos是哪个版本等，最佳答案系统配置取决于用例。磁盘-假设1个复制，1TB+25%处理空间如果您使用的是Hive或MapReduce，我会从16Gig、4或8核开始。中央操作系统7.0 关于apache-独立Hadoop集群的系统配置，我们在StackOverflow上找到一个类似的问题： https:

apache Hadoop section li stackoverflow cluster-computing hortonworks-data-platform

apache - 使用 apache nutch 抓取视频

如何使用ApacheNutch获取这样的视频标签:Yourbrowserdoesnotsupportthevideotag.Apachenutch可以获取图像标签，但在视频源中不起作用。任何人都可以指导我吗？感谢帮助最佳答案我已经通过在插件parse-html(DOMContentUtils.java)上添加源标记来解决这个问题linkParams.put("frame",newLinkParams("frame","src",0));linkParams.put("iframe",newLinkParams("iframe",

apache nutch 34 section video hadoop web-crawler

java - 无法解决这些错误 Java (Pig UDF) 添加库，org.apache

packagecom.mirox.weblog;//errorhere-Thetypeorg.apache.commons.logging.Logcannotberesolved.Itisindirectlyreferencedfromrequired.classfilesimportjava.io.IOException;importjava.text.SimpleDateFormat;importorg.apache.pig.EvalFunc;importorg.apache.pig.data.Tuple;/*Toconvertdatetohiveusableformat*/pub

apache java section SimpleDateFormat input hadoop apache-pig udf weblog

hadoop - Apache Pig FOREACH 是否需要 GENERATE？

我从未见过没有GENERATE的PigLatin中的FOREACH示例。是否所有FOREACH语句都需要GENERATE？最佳答案来自FOREACH的语法,GENERATEblock是FOREACH的一部分，您可以选择简单block或嵌套block。所以答案是肯定的，所有FOREACH都需要GENERATE。alias=FOREACH{gen_blk|nested_gen_blk}[ASschema]; 关于hadoop-ApachePigFOREACH是否需要GENERATE？，我

GENERATE FOREACH section hadoop apache-pig

hadoop - 从 har 文件中查询数据 - Apache Hive

我正在使用Hadoop并面临大量小文件的可怕问题。我需要能够从现有的配置单元分区中创建har存档并同时查询它们。但是，Hive显然只支持托管表中的归档分区，而不支持外部表——这非常令人遗憾。我正在尝试通过使用hadoop的存档工具手动存档分区目录中的文件来找到解决方法。我现在需要配置配置单元，以便能够查询存储在这些存档中的数据，以及存储在其他分区目录中的未存档数据。请注意，我们只使用了外部表。创建的partition-har中访问文件的命名空间对应partitiondir的hdfs路径。比如hdfs中的一个文件:hdfs:///user/user1/data/db1/tab1/ds=2

hadoop Apache section 存档 Hive partitioning hadoop-archive

324 325 326327328 329 330