HADOOP_PREFIX

hadoop - Hive转HBase的问题

我看到一个外部Hive表存储了HBase的数据:CREATEEXTERNALTABLEIFNOTEXISTSods.demo_table(rowkeyStringCOMMENT'rowkeyofhbase',....)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="info:...")TBLPROPERTIES("hbase.table.name"="...","hbase.mapred.output.outputtable"="

unix - 我们可以在 linux 中使用 hadoop fsck 命令时跳过文件检查吗？

我想使用hadoopfsck命令跳过指定路径上的文件检查。我们能做到吗？我正在使用以下命令:hadoopfsck>/output.txt我也检查了hdfs指南，但是没有什么可以从上面的命令中排除路径。请帮忙。最佳答案从Hadoop2.9.0开始，无法在hadoopfsck命令中指定排除路径。但是您可以使用WebHDFSRESTAPI获取与fsck相同的文件系统健康信息。使用此API，我们可以使用LISTSTATUSapi获取目录内所有文件的信息，或使用GETFILESTATUSapi获取单个文件的信息。对于目录:curl-i"h

hadoop linux 34 section modificationTime unix hdfs

hadoop - 哪些进程需要访问 core-site.xml 和 hdfs-site.xml

Thecore-site.xmlfileinformsHadoopdaemonwhereNameNoderunsinthecluster.ItcontainstheconfigurationsettingsforHadoopCoresuchasI/OsettingsthatarecommontoHDFSandMapReduce.Thehdfs-site.xmlfilecontainstheconfigurationsettingsforHDFSdaemons;theNameNode,theSecondaryNameNode,andtheDataNodes.Here,wecanconfi

site core-site section code hadoop hdfs

hadoop - 按尺寸对 yarn 的运行应用进行排名

我想到了一种按大小列出yarn正在运行的应用程序的方法。因为大小分为分配的MB和分配的VCore，我决定假设一个VCore大约为10000MB。#Useshttpieandjq,oryoucouldusecurlwith-HContent-Type:application/jsonhttphttp://yarn-web-ui-url:port/ws/v1/cluster/apps|jq'.apps.app|sort_by(.allocatedMB+.allocatedVCores*10000)|reverse|.[]|select(.state=="RUNNING")|{name,al

排名 hadoop section allocatedVCores allocatedMB hadoop-yarn jq

hadoop - 更改主机名后的 java.net.ConnectException

我在独立模式下设置了hadoop，默认主机名为“raspberrypi”。一切似乎都在起作用。然后我通过以下操作将主机名更改为hnode1:echo"hnode1"|sudotee/etc/hostname在/etc/hosts中我改变了127.0.0.1raspberrypi到127.0.0.1hnode1我所做的唯一其他更改是在core-site.xml中:fs.default.namehdfs://localhost:9000改为fs.default.namehdfs://hnode1:9000但是，在尝试从本地文件系统复制到hdfs时重新启动服务后出现此错误:CallFromh

ConnectException hadoop code section pre

hadoop - apache pig中一列的最大值

我正在尝试使用pig查找列ratingTime的最大值。我正在运行以下脚本:ratings=LOAD'/user/maria_dev/ml-100k/u.data'AS(userid:int,movieID:int,rating:int,ratingTime:int);maxrating=MAX(ratings.ratingTime);DUMPmaxrating示例输入数据是:19624238812509491863023891717742223771878887116244512880606923我遇到以下错误:2018-08-0507:02:05,247[main]INFOorg.

hadoop apache code section ratings apache-pig

hadoop - 在创建需要动态配对的 Hive 表时，是否有任何列顺序？

我正在尝试将RDBMS表加载到Hive中。我需要根据列数据对表进行动态分区。我有如下所示的Greenplum表架构:forecast_id:bigintperiod_year:numeric(15,0)period_num:numeric(15,0)period_name:charactervarying(15)drm_org:charactervarying(10)ledger_id:bigintcurrency_code:charactervarying(15)source_system_name:charactervarying(30)source_record_type:cha

hadoop Hive code bigint section

hadoop - Hive:如果不存在则创建函数

在我的配置单元脚本的开头，我有以下语句:使用jarz创建函数x作为y；现在，如果函数已经存在，它会给我一个错误:处理语句时出错:失败:执行错误，从org.apache.hadoop.hive.ql.exec.FunctionTask返回代码1。AlreadyExistsException(消息:函数x已经存在)如果我使用createfunctionifnotexistsxasyusingjarz;，我会得到这个错误:编译语句时出错:FAILED:ParseExceptionline7:192cannotrecognizeinputnear'if''not''exists'infunct

hadoop Hive code section 时出 hiveql

hadoop - 使用 ElasticSearch 作为永久存储

最近在做一个项目，每天都会产生大量的数据，在这个项目中，有两个功能，一个是将数据存储到Hbase中，以供日后分析，二是将数据推送到ElasticSearch中，以供监控.由于数据庞大，我们应该将数据存储到两个平台(Hbase，Elasticsearch)!我对他们两个都没有经验。我不想知道是否可以使用elasticsearch而不是hbase作为future分析的持久性存储？最佳答案我建议您阅读这篇古老但仍然有效的文章:https://www.elastic.co/blog/found-elasticsearch-as-nosq

ElasticSearch hadoop section found-elasticsearch-as-nosql hbase

hadoop - 如何计算Hadoop Storage？

我不确定我是否计算正确，但例如我使用Hadoop默认设置并且我想计算我可以在我的集群中存储多少数据。例如，我有12个节点，每个节点分配给HDFS存储的总磁盘空间为8TB。我只计算12/8=1.5TB吗？最佳答案您没有包括复制因子和处理任何数据的开销。另外，如果所有磁盘都快满了，Hadoop将无法运行因此，8TB将首先除以3(未启用新的纠删码)，然后除以节点数但是，从技术上讲，您无法达到100%的HDFS使用率，因为一旦您开始超过85%的使用率，服务就会开始失败，所以实际上，您的起始数字应该是7TB

Storage hadoop section 除以

77 78 798081 82 83