hdfs

hadoop - Apache Apex 是依赖 HDFS 还是有自己的文件系统？

我了解ApacheApex在Hadoop和YARN上运行。它是否利用HDFS进行持久性和复制以防止数据丢失？还是它有自己的？最佳答案 ApacheApex使用操作符状态的检查点来实现容错。Apex使用HDFS写入这些检查点以进行恢复。但是，用于检查点的存储是可配置的。Apex也有一个实现checkpointtoApacheGeode.Apex还使用HDFS上传工件，例如包含应用程序jar的应用程序包、其依赖项和启动应用程序所需的配置等。关于hadoop-ApacheApex是依赖HD

hadoop - 在没有 reducer 的情况下映射任务结果

当mapreduce作业运行时，map任务结果存储在本地文件系统中，然后reducer的最终结果存储在hdfs中。问题是map任务结果存储在本地文件系统中的原因是什么？在没有reduce阶段(只有map阶段存在)的mapreduce作业的情况下，最终结果存储在哪里？最佳答案 1)Mapper输出存储在本地fs中，因为在大多数情况下，我们对Reducer阶段给出的输出(也称为最终输出)感兴趣。Mapperpairisintermediateoutput一旦传递给Reducer，这是最不重要的。如果我们将Mapper输出存储在hdfs

reducer hadoop section hdfs code mapreduce

Python HDFS 蛇咬伤 : Methods work only with print

我正在使用snakebite客户端https://github.com/spotify/snakebite当我尝试在hdfs中创建目录或移动文件时，我注意到一个奇怪的行为。这是我的代码。它所做的只是将源目录的内容移动到目标目录。最后，显示目标目录的内容defpurge_pending(self,source_dir,dest_dir):if(self.hdfs_serpent.test(path=self.root_dir+"/"+source_dir,exists=True,directory=True)):print"Sourceexists",self.root_dir+sour

Methods Python self dir root_dir hadoop snakebite

hadoop - 为静态时间序列数据选择存储层

总的来说，我是大数据技术栈的新手。我正在实现一个实时分析基础架构，它将从我们的微服务后端中的不同服务中获取大量/高速数据。摄取的数据(和数据流)将用于填充关键业务指标的仪表板以及BI查询和机器学习。所有后端服务都将数据事件写入到现有的Kafka集群中。我开始研究Spark原型(prototype)，以从Kafka集群读取数据并丰富/处理它。现在我正在研究将静态数据存储在何处。我知道像Vertica和Terradata这样的实时分析技术相当流行。但他们有不小的前期资本投资。所以我努力坚持开源。经过一些研究后，我决定使用HDFS/Impala处理静态数据，并在Hadoop上运行SQL来处理

hadoop 为 section Cassandra 摄取 hdfs impala bigdata

scala - Spark Hadoop 广播失败

运行spark-submit作业并收到“无法获取broadcast_58_piece0...”错误。我真的不确定我做错了什么。我是否过度使用了UDF？功能太复杂？作为我的目标的总结，我正在解析pdf中的文本，这些文本作为base64编码的字符串存储在JSON对象中。我正在使用ApacheTika获取文本，并尝试大量使用数据帧来简化操作。我写了一段代码，通过tika将文本提取作为“主”之外的一个函数在数据上作为RDD运行，并且运行完美。但是，当我尝试将提取作为数据帧上的UDF引入main时，它会以各种不同的方式出现问题。在我到达这里之前，我实际上是在尝试将最终数据框编写为:valid.t

Hadoop scala 34 TorrentBroadcast spark apache-spark hdfs spark-dataframe

python - 我们可以将 Hadoop 与 Python 集成吗？

我有一个项目要求。我正在使用python脚本来分析数据。最初，我使用txt文件作为该python脚本的输入。但是随着数据的增长，我不得不将我的存储平台切换到HadoopHDFS。如何将HDFS数据作为输入提供给python脚本？有什么办法吗？提前致谢。最佳答案 Hadoop流式处理API:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar\-inputmyInputDirs\-outputmyOutputDir\-mapper/bin/cat\-reducer/b

python Hadoop section hdfs bigdata

scala - Spark(Scala)从驱动程序写入(和读取)本地文件系统

第一个问题:我有一个带有hadoop的2节点虚拟集群。我有一个运行Spark作业的jar。此jar接受作为cli参数:commands.txt文件的路径，该文件告诉jar运行哪些命令。我使用spark-submit运行作业，我注意到我的从节点没有运行，因为它找不到主节点本地的commands.txt文件。这是我用来运行它的命令:./spark-1.6.1-bin-hadoop2.6/bin/spark-submit--classuniv.bigdata.course.MainRunner--masteryarn\--deploy-modecluster--executor-memory

驱动 scala section commands hadoop apache-spark hdfs

hadoop - hbase真的是线性扩展的吗？

我开始学习hbase，我不明白它是如何线性扩展的。问题是在安装hbase之前，您必须有一个hdfs集群。HDFS集群有一个master节点，在整个集群中只能是一个，所以是一个瓶颈。当然我们可以多跑1个master节点(有可能只多跑1个master节点)但是会处于standby状态。据我了解，hbase使用HDFS集群来存储数据。因此，对我来说，运行多个Hmaster从逻辑上讲是没有意义的，因为所有请求都将转到hdfs事件主机，如果我们有太多请求，性能会受到影响。我也不太明白我们是否需要在与hdfs相同的节点上或单独安装hbase。如果我们将hbase与HDFS分开运行有什么好处。对于我

hadoop hbase section hdfs distributed hadoop2 horizontal-scaling

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式？

我有一个要求，我必须将HDFS文件(包括TXT、PDF、DOCX和其他丰富的文档)索引到Solr。目前，我正在使用LucidWorks连接器的DirectoryIngestMapper来实现相同的目的。https://github.com/lucidworks/hadoop-solr但我不能使用它，因为它有一定的局限性(主要是你不能指定要考虑的文件类型)。所以现在我正在研究使用MapReduceIndexerTool的可能性。但它没有很多初学者(我的意思是绝对基础!)级别的示例。有人可以发布一些示例链接以开始使用MapReduceIndexerTool吗？有没有其他更好或更简单的方法来

MapReduceIndexerTool hadoop code 34 morphlines solr hdfs cloudera lucidworks

scala - 将 hdfs 文件加载到 spark 上下文中

我是spark/scala的新手，需要从hdfs加载一个文件到spark。我在hdfs(/newhdfs/abc.txt)中有一个文件，我可以使用hdfsdfs-cat/newhdfs/abc.txt/查看我的文件内容p>我按照以下顺序将文件加载到spark上下文中spark-shell#Itenteredintoscalaconsolewindowscala>importorg.apache.spark._;//Line1scala>valconf=newSparkConf().setMaster("local[*]");scala>valsc=newSparkContext(con

文中 scala code section spark file hadoop apache-spark hadoop2

73 74 757677 78 79