Hadoop

hadoop - 既然 HDFS 已经提供了数据存储，为什么还要 Hive？

我已经开始学习Hadoop。我知道HDFS提供分布式存储系统，而Mapreduce用于数据处理。现在我正在阅读Hadoop生态系统。从Hive的定义来看，它是一个建立在hadoop之上，提供类SQL接口(interface)的数据仓库。我的问题是当hadoop提供容错的分布式HDFS时，为什么要配置单元？Hive会取代HDFS吗？hive是只提供sql接口(interface)还是也提供存储？最佳答案 Hive不会取代HDFS。Hive为存储在HDFS中的数据提供了sql类型的接口(interface)。它主要用于查询和分析存储的

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs，如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

apache-spark pyspark code section hdfs hadoop

hadoop - Hive转HBase的问题

我看到一个外部Hive表存储了HBase的数据:CREATEEXTERNALTABLEIFNOTEXISTSods.demo_table(rowkeyStringCOMMENT'rowkeyofhbase',....)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="info:...")TBLPROPERTIES("hbase.table.name"="...","hbase.mapred.output.outputtable"="

hadoop HBase strong hive

unix - 我们可以在 linux 中使用 hadoop fsck 命令时跳过文件检查吗？

我想使用hadoopfsck命令跳过指定路径上的文件检查。我们能做到吗？我正在使用以下命令:hadoopfsck>/output.txt我也检查了hdfs指南，但是没有什么可以从上面的命令中排除路径。请帮忙。最佳答案从Hadoop2.9.0开始，无法在hadoopfsck命令中指定排除路径。但是您可以使用WebHDFSRESTAPI获取与fsck相同的文件系统健康信息。使用此API，我们可以使用LISTSTATUSapi获取目录内所有文件的信息，或使用GETFILESTATUSapi获取单个文件的信息。对于目录:curl-i"h

hadoop linux 34 section modificationTime unix hdfs

hadoop - 哪些进程需要访问 core-site.xml 和 hdfs-site.xml

Thecore-site.xmlfileinformsHadoopdaemonwhereNameNoderunsinthecluster.ItcontainstheconfigurationsettingsforHadoopCoresuchasI/OsettingsthatarecommontoHDFSandMapReduce.Thehdfs-site.xmlfilecontainstheconfigurationsettingsforHDFSdaemons;theNameNode,theSecondaryNameNode,andtheDataNodes.Here,wecanconfi

site core-site section code hadoop hdfs

sql - 如何将查询答案传递给限制函数 Impala

我正尝试在impala中抽取一张table的20%。我在某处听说内置的impala采样功能有问题。有没有办法将子查询传递给impalalimit函数以对整个表进行n%的采样。我有这样的东西:select*fromtable_aorderbyrand()limit(selectround((count(distinctids))*.2,0)fromtable_a))子查询给了我所有记录的20% 最佳答案我不确定Impala是否有特定的采样逻辑(某些数据库有)。但是你可以使用窗口函数:selecta.*from(selecta.*,r

传递 Impala section select table sql hadoop

sql - 如何获取 SQL case 语句中两个日期中的最新日期？

我有一个SQL表，需要检查两个日期中的最新日期，创建一个新列。可能有也可能没有这两个值，在这种情况下它默认为一个。我有一个这样的生产案例:+----------+----------+-----------+|device|activity|date|+----------+----------+-----------+|device1|stage|3/20/2018||device1|test|3/30/2018||device2|stage|6/1/2018||device2|test|[null]|+----------+----------+-----------+我需要得到这

期中 case device code section sql hadoop presto

hadoop - 按尺寸对 yarn 的运行应用进行排名

我想到了一种按大小列出yarn正在运行的应用程序的方法。因为大小分为分配的MB和分配的VCore，我决定假设一个VCore大约为10000MB。#Useshttpieandjq,oryoucouldusecurlwith-HContent-Type:application/jsonhttphttp://yarn-web-ui-url:port/ws/v1/cluster/apps|jq'.apps.app|sort_by(.allocatedMB+.allocatedVCores*10000)|reverse|.[]|select(.state=="RUNNING")|{name,al

排名 hadoop section allocatedVCores allocatedMB hadoop-yarn jq

apache-spark - 来自边缘节点 Jupyter 笔记本的 spark jdbc 连接

我需要使用jdbc连接到Oracle数据库来创建数据框。我正在使用edgenode的Jupyternotebook来进行此连接。Spark在Jupyternotebook中以客户端模式运行。数据库主机和端口没有来自边缘节点的连接，但它是从数据节点打开的。但是当我尝试创建数据框时，由于“连接超时”错误而失败。正常吗？我认为它正在尝试从无法建立连接的边缘节点建立连接？我怎样才能确保连接是从执行者那里发生的(据我所知，这在理论上应该是这样的)。最佳答案这是“正常”的。一般来说，驱动程序节点(在您的情况下是边缘节点)必须具有与任何工作节

spark apache-spark section Jupyter 的 hadoop jupyter-notebook

hadoop - 更改主机名后的 java.net.ConnectException

我在独立模式下设置了hadoop，默认主机名为“raspberrypi”。一切似乎都在起作用。然后我通过以下操作将主机名更改为hnode1:echo"hnode1"|sudotee/etc/hostname在/etc/hosts中我改变了127.0.0.1raspberrypi到127.0.0.1hnode1我所做的唯一其他更改是在core-site.xml中:fs.default.namehdfs://localhost:9000改为fs.default.namehdfs://hnode1:9000但是，在尝试从本地文件系统复制到hdfs时重新启动服务后出现此错误:CallFromh

ConnectException hadoop code section pre

100 101 102103104 105 106