hadoop-annotations

hadoop - 使用 ElasticSearch 作为永久存储

最近在做一个项目，每天都会产生大量的数据，在这个项目中，有两个功能，一个是将数据存储到Hbase中，以供日后分析，二是将数据推送到ElasticSearch中，以供监控.由于数据庞大，我们应该将数据存储到两个平台(Hbase，Elasticsearch)!我对他们两个都没有经验。我不想知道是否可以使用elasticsearch而不是hbase作为future分析的持久性存储？最佳答案我建议您阅读这篇古老但仍然有效的文章:https://www.elastic.co/blog/found-elasticsearch-as-nosq

hadoop - 如何计算Hadoop Storage？

我不确定我是否计算正确，但例如我使用Hadoop默认设置并且我想计算我可以在我的集群中存储多少数据。例如，我有12个节点，每个节点分配给HDFS存储的总磁盘空间为8TB。我只计算12/8=1.5TB吗？最佳答案您没有包括复制因子和处理任何数据的开销。另外，如果所有磁盘都快满了，Hadoop将无法运行因此，8TB将首先除以3(未启用新的纠删码)，然后除以节点数但是，从技术上讲，您无法达到100%的HDFS使用率，因为一旦您开始超过85%的使用率，服务就会开始失败，所以实际上，您的起始数字应该是7TB

Storage hadoop section 除以

hadoop - 配置单元错误 : For Exists/Not Exists operator SubQuery must be Correlated

select*fromstudents1;students1.namestudents1.agestudents1.gpafred351.28barney322.32shyam322.32select*fromstudents2;students1.namestudents1.agefred35barney32当我运行这个查询时selectname,agefromstudents1wherenotexists(selectname,agefromstudents2);我收到这个波纹管错误Errorwhilecompilingstatement:FAILED:SemanticExcept

配置单 Exists students students1 section hadoop hive bigdata

hadoop - 添加节点/Hadoop

我正在尝试在现有集群中添加一些节点。我可以选择硬盘空间的大小吗？或者我可以只给新节点的空间不超过我给现有节点的空间吗？(我的节点每个有12TB) 最佳答案 CanIchoosethamountoftheharddrivespace?你不能“选择空间”，但你可以选择哪些目录用于数据节点，总的来说，这会增加总的可用空间，是的。并不是所有的数据节点都需要相同的大小关于hadoop-添加节点/Hadoop，我们在StackOverflow上找到一个类似的问题： ht

hadoop section stackoverflow blockquote

hadoop - HDFS如何在VM上查找主机名端口号

这似乎是一个非常简单的问题。但是我在hdfs上有我的文件的路径，比如父文件夹/子文件夹/文件名.txt由于我必须提供此文件的完整路径以及主机和端口详细信息，因此我需要找出这些详细信息。你能帮我吗？最佳答案根据配置会是这样的(Ambari中的HDFS配置:fs.defaultFS类似于:hdfs://cluster，默认端口8020):hdfs://localhost:8020/parentfolder/subfolder/filename.txt 关于hadoop-HDFS如何在VM

何在 hadoop section code stackoverflow hdfs hortonworks-sandbox

hadoop - 如何创建 hdfs 数据目录？

每次我的hadoop服务器重新启动时，我都必须格式化namenode才能启动hadoop。这会删除我的hadoop安装中的所有文件。我需要将我的hadoophdfs位置从/tmp文件移动到永久位置，只要服务器重新启动，我就不必格式化名称节点等。我是hadoop的新手。如何在另一个目录中创建hdfs文件？我如何在配置文件中引用这个数据目录，这样我就不必格式化名称节点了？最佳答案 hdfs-site.xml的这两个属性决定了本地文件的存储位置。默认在/tmp下dfs.namenode.name.dirdfs.datanode.data

hadoop hdfs section code

hadoop - 你如何检查dfs中的目录

我在dfs中新建了一个目录/foodir来测试，如下:hadoopdfs-mkdir/foodir谁能告诉我/foodir保存在哪里？我怎样才能检查路径？我需要确保它没有保存在本地文件系统/tmp下，因为每次重新启动服务器时/tmp都会被删除。关于如何检查服务器文件系统中的/foodir路径有什么想法吗？最佳答案这取决于您如何设置core-site.xml和hdfs-site.xml文件...如果fs.defaultFS未设置为file://路径(默认)，则不会触及您的本地/tmp如果你的datanode和namenode数据目

hadoop dfs section code foodir hdfs

hadoop - 从 Dataproc 上的 MapReducer 映射器记录日志

我正在尝试退出在Dataproc上运行的映射器作业。遵循建议here，我简单地定义了一个log4j记录器并向它提供了信息:importorg.apache.log4j.Logger;publicclassSampleMapperextendsMapper{privateLoggerlogger=Logger.getLogger(SampleMapper.class);@Overrideprotectedvoidsetup(Contextcontext){logger.info("InitializingNoSQLConnection.")try{//logicforconnecting

射器 MapReducer section stackoverflow hadoop mapreduce log4j google-cloud-dataproc

hadoop - 德鲁伊中的精确不同计数

我已经将数据从Hive加载到Druid中，但我没有使用任何HLL列。当我在Druid中运行COUNT(DISTINCTmycol)查询时，我没有得到准确的计数。计数似乎很接近，但与我在Hive中的计数不匹配。为什么Druid不能给出准确的计数，即使我没有提到任何关于HLL的内容？或者，有没有办法在Druid中获得精确的不同计数？找到2014年关于同一问题的旧帖子https://groups.google.com/forum/#!topic/druid-development/AMSOVGx5PhQ，我不确定当前版本的Druid是否支持精确的不同计数。最佳答

德鲁德鲁伊 section druid hadoop

hadoop - 编写 Flume 配置，将不断增长的文件上传到 HDFS

我是Flume的新手，在配置方面遇到了一些问题。我在OracleVirtualBox上使用HortonworksSandboxHDP2.6.5(如果这很重要)。我的VM中有一个文本文件input_data.txt:input_data.txt的内容如下所示:我使用以下命令来创建并逐渐增加输入:catinput_data.txt|whilereadline;doecho"$line";sleep0.2;done>output.txt我想要实现的目标:1)编写一个Flume配置，将不断增长的output.txt文件上传到HDFS2)如果可能-HDFS中的目标文件必须在每次源文件(/usr/

传到编写 hadoop usr hdp flume flume-ng

82 83 848586 87 88