hadoop-mapreduce

hadoop - Elasticsearch-Hadoop 获取非索引数据

我有一个包含大量数据的elasticsearch集群。我想将所有数据从elasticsearch提取到Hadoop(Hive)中。我使用了Elasticsearch-Hadoop驱动程序，以便通过使用Hive外部表从elasticsearch中提取数据，但它太慢并且总是无法完成任务。我的第一个问题是从现有的elasticsearch集群中获取所有数据。第二个问题是在一天或一小时内将所有流式传输到HDFS上的elasticsearch的数据复制一次。我怎样才能实现这些目标？提前致谢。最佳答案您可以使用hadoop系统作为仓库来存储

html - 如何为 Hadoop 定制 Hue

我将WebUIHue与Hadoop结合使用，目的是让用户能够浏览和下载数据。但是，我并不想要Hue的所有功能，我们不需要提供编写查询、浏览表或更改文件系统的功能。因此，我想更改HueUI以删除不必要的选项。我的问题是在哪里可以找到Hue用于提供内容的文件(即HTML、CSS、JS)。我在Hue安装目录中尝试了“find.-name*.html”，但找不到任何东西。我正在使用MapRHadoop，安装目录位于/opt/mapr/hue/hue-3.6.0。有谁知道我在哪里可以找到我需要编辑以自定义Hue的文件，或者我如何找到它们？最佳答案

何为 Hadoop section noreferrer http html hue mapr

matlab - 在matlab中使用mapreduce编程技术

我正在研究老鼠的超声波发声(它们在超声波中的讲话)。我有几个老鼠演讲的音频wav文件。理想情况下，我会将整个文件导入matlab并对其进行处理，但即使是最小的70mb文件，我也会遇到内存问题。这就是我需要帮助的。[y,Fs,nbits]=audioread('T0000201.wav');[SFT]=频谱图(y,100,[],256,Fs,'yaxis');......程序的其余部分我可以考虑将音频(在一个文件中)分成多个block，并在考虑下一个block之前处理该block，但我不确定如果ratcalls在中途被切断的情况下我会怎么做，在block的末尾(这可能会对STFT频谱图产

matlab mapreduce section block hadoop signal-processing

java - MapReduce 作业挂起

我是Hadoop的MapReduce新手。我写了一个mapreduce任务，我想在我的本地机器上运行它。但工作在map100%后挂起。下面是代码，我不明白我错过了什么。我有一个自定义键类importorg.apache.hadoop.io.Text;importorg.apache.hadoop.io.WritableComparable;publicclassAirlineMonthKeyimplementsWritableComparable{TextairlineName;Textmonth;publicAirlineMonthKey(){super();}publicAirli

MapReduce java Text AirlineMonthKey airlineName hadoop

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序，它从Kafka接收HDFS上的文件路径，应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处，因为执行程序可能在任何节点上运行，而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件，同时保持数据局部性？谢谢，丹尼尔最佳答案我不确定你打开文件的意思，如果你能分享一些代码会很有帮助，但如果你使用的是sc.textFile，那是一个RDD转换。转换被集群管理器安排为任务，因此不一定会从运行DStream转换的执行器节点执行。

Streaming Locality section stackoverflow questions hadoop apache-spark spark-streaming

linux - 如何通过 unix utils 或 nmon 使用 hadoop fs 获取磁盘信息？

我已经安装了带有mfs(基于hadoopfs)的mapr和一些使用df、dfisk和nmon日志文件从文件系统获取信息的脚本。root@spbswgvml10:/opt/nmon#df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda18.8G4.4G4.0G53%/none4.0K04.0K0%/sys/fs/cgroupudev2.0G4.0K2.0G1%/devtmpfs396M464K395M1%/runnone5.0M05.0M0%/run/locknone2.0G02.0G0%/run/shmnone100M0100M0%/run/

hadoop linux cgroup type bytes unix mapr

hadoop - HBase 映射/减少依赖问题

概览我基于resteasy框架开发了一个Restapi服务。在服务中，我将数据存储到HBase数据库中。然后，执行由某些条件触发的map/reduce过程(例如插入一条记录)。需要在Map类中，我导入了一些第三方库。我不想将这些库打包到war文件中。TableMapReduceUtil.initTableMapperJob(HBaseInitializer.TABLE_DATA,//inputHBasetablenamescan,//ScaninstancetocontrolCFandattributeselectionLuceneMapper.class,//mappernull,/

hadoop HBase section hdfs Path mapreduce resteasy hadoop2

java - Hadoop Map Reduce 查询

我试图使用HADOOPMadReduce来计算所有权重的总和图中每个节点的传入边。输入采用.tsv格式，如下所示:srctgt权重X1021X2001X1235Y2451Y1011Z992X1453Y241一个215......预期的输出是:源SUM(权重)X10是3Z2一个5....我使用了来自hadoop(http://www.cloudera.com/content/cloudera/en/documentation/hadoop-tutorial/CDH5/Hadoop-Tutorial/ht_wordcount1_source.html?scroll=topic_5_1)的W

Hadoop Reduce IntWritable tokenizer Text java mapreduce tokenize

hadoop - oozie 在 shell 脚本中运行 Sqoop 命令

我可以在脚本中编写一个sqoop导入命令并在oozie中作为协调器工作流执行它吗？我已经厌倦了这样做，发现一个错误说sqoop命令没有找到，即使我给了sqoop执行的绝对路径script.sh如下sqoopimport--connect'jdbc:sqlserver://xx.xx.xx.xx'-username=sa-password-tablematerials--fields-terminated-by'^'----schemadbo-target-dir/user/hadoop/CFFC/oozie_materials我已经将文件放在HDFS中并为oozie指定了路径。工作流程

中运 hadoop gt lt section sqoop oozie oozie-coordinator

hadoop - 添加额外的列到一个已经存在的列

有没有办法向已经存在的表中添加额外的列？例如，添加额外的列user，对于所有行和列date都为null设置为2015-02-01serial:long,title:chararray,year:int,score:float(49586,WinterWonderland,2013,2.8)(49587,TopGear:Series19:AfricaSpecial,2013,3.1)(49588,FireplaceForYourHome:CracklingFireplacewithMusic,2010,7.3)grunt>serial:long,title:chararray,year:

hadoop 添加 code Fireplace section apache-pig

145 146 147148149 150 151