草庐IT

hdfs-audit

全部标签

hadoop - 使用 Spark Sql 查询 hdfs

我在hdfs中有一个csv文件,我如何用sparkSQL查询这个文件?例如我想对特殊列进行选择请求并将结果再次存储到Hadoop分布式文件系统谢谢 最佳答案 可以通过创建Dataframe来实现。valdataFrame=spark.sparkContext.textFile("examples/src/main/resources/people.csv").map(_.split(",")).map(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF()

java - 在java中设置HDFS的空间配额

我正在尝试使用HadoopJavaAPI为HDFS设置空间配额,但是,我只能在ContentSummary类中找到getSpaceQuota方法。基本上我希望代码实现与sudo-uhdfshdfsdfsadmin-setSpaceQuota1k/quotasdir命令相同的功能。有没有设置空间配额方法的API?或者有什么更好的主意?提前致谢。 最佳答案 在ApacheHadoop代码库中,hdfsdfsadmin-setSpaceQuota命令的代码在DFSAdmin中类(class)。如果您通读该代码,您会发现它最终委托(dele

hadoop - 运行存储在 HDFS 位置的配置单元脚本

我正在尝试运行存储在HDFS位置(hdfs://nameservice1/user/neeraj)中的配置单元脚本(.hql文件),但我找不到正确的命令来执行它。有没有办法直接从HDFS位置运行它而不是将它移动到我的/home/位置? 最佳答案 hive-f演示cat>my_script.sqlselect1+1asresult;hdfsdfs-putmy_script.sql/tmphive-fselect1+1asresult;OK2 关于hadoop-运行存储在HDFS位置的配置单

hadoop - sqoop 从 hdfs 导出到 mysql 失败,需要帮助来转义字符

我在hdfs中有一个文件并将其导出到sqoop表。请在下面找到日志详细信息:Causedby:java.lang.RuntimeException:Can'tparseinputdata:'characters'attags.__loadFromFields(tags.java:335)attags.parse(tags.java:268)atorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:89)...10moresqoop导出命令sqoopexport\--connect"**********

hadoop - 如何让我的 hdfs docker 客户端运行?

我正在开始hdfsserver与:dockerrun-dsequenceiq/hadoop-docker:2.6.0我正在观察正在运行的docker进程dockerps得到如下结果:6bfa4f2fd3b5sequenceiq/hadoop-docker:2.6.0"/etc/bootstrap.sh-d"31minutesagoUp31minutes22/tcp,8030-8033/tcp,8040/tcp,8042/tcp,8088/tcp,49707/tcp,50010/tcp,50020/tcp,50070/tcp,50075/tcp,50090/tcpkind_hawking

hadoop - 为什么HDFS客户端会将文件数据缓存到一个临时的本地文件中?

为什么HDFS客户端不能直接发送到DataNode?HDFS客户端缓存有什么优势?创建文件的应用程序请求不会立即到达NameNode。事实上,HDFS客户端最初会将文件数据缓存到一个临时的本地文件中。应用程序写入透明地重定向到这个临时本地文件。当本地文件积累了至少一个HDFSblock大小的数据时,客户端联系NameNode创建一个文件。NameNode然后按照创建部分中的描述继续进行。客户端将数据block从本地临时文件刷新到指定的DataNodes。当文件关闭时,临时本地文件中剩余的未刷新数据将传输到DataNode。然后客户端告诉NameNode文件已经关闭。此时,NameNod

scala - 将文件从远程服务器上运行的 Apache Zeppelin 传输到 HDFS

我有一个在远程服务器上运行的ApacheZeppelin实例,我正在使用Scala通过Spark解释器与其通信。我想将存储在该服务器目录中的csv文件传输到也在远程服务器上的HDFS(Hadoop)。我无权访问服务器上的任何配置文件,我无法安装任何东西,我只能在Zeppelin中发出命令。我试过使用标准sc.textFile("file:///test.csv")语句,但它返回以下错误:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage19.0failed4times,mostrecentfa

java - 如何非常快速地删除 hdfs 中包含大量文件的文件夹

我需要删除hdfs上的一个文件夹,其中包含大量文件,比如1,000,000个。这不是一次性任务,这是我每天的要求。目前我正在使用下面的代码:Configurationc=newConfiguration();FileSystemfs=FileSystem.get(c);fs.delete(folder,true);但是上面的过程花费了更多的时间,大约需要3个小时。有什么方法可以非常快速地删除整个文件夹。 最佳答案 简单的回答:你不能。让我解释一下为什么。删除文件夹时,您将删除对其中包含的所有文件(递归)的所有引用。有关这些文件(bl

hadoop - 如何减少 HDFS 目录中的复制因子及其影响

我们使用HortonworksHDP2.1(HDFS2.4),复制因子为3。我们最近停用了一个数据节点,这在集群中留下了很多复制不足的block。Cluster现在正在尝试通过在其他节点之间分配复制block来满足复制因子。如何停止该进程。我可以接受一些文件只被复制两次。如果我在该目录中将复制因子更改为2,该进程是否会终止?对于包含3个副本的文件的目录,将复制因子设置为2会产生什么影响。集群是否会启动另一个进程来删除每个文件的3个副本的多余副本?感谢您对此的帮助。也请分享引用资料。谢谢。萨吉瓦。 最佳答案 Wehaverecentl

python - 获取保存 Parquet 文件的默认 HDFS 路径

我运行了一个spark作业,最终保存了一个Parquet文件,并且该作业成功完成。但是我只指定了文件名,并没有指定HDFS的路径。有没有办法打印出spark写入文件的默认HDFS路径?我查看了sc._conf.getAll(),但那里似乎没有任何有用的东西。 最佳答案 AFAIK这是其中一种方式(除了简单的命令方式是hadoopfs-ls-R|grep-iyourfile)...下面是示例scala代码片段....(如果你想在python或java中执行它,你可以模拟相同的api调用)获取Parquet文件列表。并像下面那样过滤它们