hdfs_rtp

bash - 使用 shell 条件检查目录是否存在于 hdfs 中

我正在创建一个提示脚本，用于验证输出目录是否存在于hdfs目录中。这是我想出来的whiletrue;doread-p"Whatisthetablename?"table_namecase"$table_name"in*)if(($(hdfsdfs-test-d/user/hive/bar/foo/$test_table)));thenecho"ok";elseecho"notok";fi;;esacdone这是行不通的。我没有收到任何错误，但如果条件为真，输出总是“不正常”。最佳答案您的初始编辑存在一些违规行为(句法/语义)。c

Hadoop Mapreduce HDFS block 拆分

我的问题是我有一个文本文件，其中有100个单词，用空格分隔，我需要做一个单词计数程序。那么，当我的名称节点将文件拆分为HDFSblock时，我们如何确保拆分仅在单词末尾完成？即，如果我将文本文件中的第50个单词作为Hadoop，如果将其拆分为64MBblock时，当前block的存储可能在单词Hadoop的中心达到64MB，因此一个block包含'had'和其他block中的另一个'oop'。抱歉，如果这个问题听起来很愚蠢，但请提供答案。谢谢。最佳答案你的答案是输入拆分。因为HDFS不知道文件的内容。在将数据存储到多个block

Mapreduce Hadoop block section 单词 hdfs

hadoop - 轻松将 Elasticsearch 数据导入 HDFS

我们在内部部署Elasticsearch集群已经快2年了，我们想做一些更高级的分析，例如使用其中包含的日志数据以及其他不同的数据源。我们的重点是Elasticsearch中的系统日志。每天生成约100gb的系统日志数据——每天都是它自己的索引。我们也有一些应用程序日志，但如果我能为系统日志解决这个问题，我就可以轻松解决其他数据移动问题。这引出了我的问题。对于我的分析，我们使用Spark2.1.1和PythonAPI。我想要所有的系统日志数据，比如说，在HDFS中保存2周，这样我们就可以做两件事:通过我们的Spark/Hadoop集群之间的通信避免延迟加快我们机器学习工作的速度我想开始使

Elasticsearch hadoop code 34 Spark apache-spark hdfs

hadoop - 无法通过 Web 界面删除 HDFS 目录，因为我是神秘博士

我正在尝试使用位于http://localhost:50070/explorer.html的Web界面删除本地HDFS系统上的目录deepnlptest/models.我的用户名是wmcneill，对我要删除的HDFS目录的权限是wmcneill拥有的drwxr-xr-x。$hdfsdfs-lsdeepnlptest17/11/1609:36:11WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableFound5

hadoop HDFS deepnlptest code section configuration permissions

hadoop - 我们如何检查 HDFS 文件夹中是否有可用的 avro 文件？

我在HDFS文件夹/user/data/output_files/file_2017-10-18中有一些avro文件scala>valhdfsLoc="/user/data/output_files/file_2017-10-18/*.avro"hdfsLoc:String=/user/data/output_files/file_2017-10-18/*.avroscala>valconf=newConfiguration()scala>valfs=FileSystem.get(conf)scala>valresult=fs.exists(newPath(hdfsLoc))resul

hadoop HDFS section avro output_files apache-spark

hadoop - 如何通过 FTP 下载 Hadoop 文件(在 HDFS 上)？

我想实现一个SSIS作业，该作业能够下载位于远程Hadoop集群上的大型CSV文件。当然，在Hadoop系统上只有一个常规的FTP服务器不会暴露HDFS文件，因为它使用本地文件系统。我想知道是否有一个位于HDFS之上的FTP服务器实现。我更喜欢这种方法，而不是必须将文件从HDFS复制到本地FS，然后让FTP服务器为其提供服务，因为我将需要分配更多存储空间。最佳答案我从一个按预期工作的开源项目派生:https://github.com/jamesattard/maroodi 关于had

hadoop section https HDFS ssis bigdata

c++ - 从 HDFS 读取和打印文本文件

我有这个短代码，它使用libhdfs从Hadoop文件系统(HDFS)上的文本文件中读取字节。.它编译并工作正常。我现在正在尝试更改代码，以便我也可以读取文本文件的内容。以下是我现在拥有的用于从HDFS打印文本文件的代码:#include"jni.h"#include"hdfs.h"#include"string.h"#include"stdlib.h"intmain(intargc,char**argv){intMAXBUFLEN=1024;hdfsFSfs=hdfsConnect("default",0);constchar*readPath="/tmp/testfile.txt"

amp 本文 code buffer section c++hadoop

hadoop - 如何从 FTP 服务器增量复制文件到 Hadoop HDFS

我们有一个FTP服务器，每天都有很多文件上传到FTP服务器，我需要把这些文件都拷贝到HDFS中。每次它应该只下载增量文件，即如果第一次下载了10个文件，然后FTP上传了5个新文件；在下一次工作迭代中，它应该只在HDFS中下载新的5个文件。我们没有使用Nifi或Kafka连接。我们有什么好的解决方案来完成这个任务。最佳答案您可以使用LFTP作业中的touch文件实现此目的，下面是我的解释和代码。查看每一步的评论。#!bin/bash#SomeConfigsTOUCHFILE='/somepath/inYourLocal/someF

hadoop section touch Server ftp hdfs

hadoop - 使用 Hive 更新/编辑 Hdfs 中的记录

我在HDFS中有一些人的记录。我在Hive中使用外部表来查看和分析该特定数据，我也可以在其他程序中外部使用它。最近我有一个用例，我必须更新HDFS中的数据。根据文档，我了解到我们无法使用外部表更新或删除数据。另一个问题是数据不是ORC格式。它实际上是TEXTFILE格式。所以我也无法更新或删除内部表中的数据。由于它正在生产中，我无法将其复制到任何地方以将其转换为ORC格式。请建议我如何在HDFS中编辑数据。最佳答案您可以使用INSERTOVERWRITE更新或删除+使用过滤器和其他转换从自身中选择:insertoverwrite

hadoop Hive section code col2 hdfs hiveql

angular - 如何在 Webhdfs - HDFS - Hadoop - Origin http ://localhost:4200 is not allowed by Access-Control-Allow-Origin 中启用 cors origin allow

当我尝试从我的Angular6应用程序访问Webhdfs时，我收到如下所示的错误。在我看来，我几乎尝试了所有方法，包括更改core-site.xml和hdfs-site.xml中的设置，不幸的是没有得到积极的结果。显然，很可能需要正确配置Hadoop。有谁知道我该如何解决这个问题？[Error]Originhttp://localhost:4200isnotallowedbyAccess-Control-Allow-Origin.[Error]XMLHttpRequestcannotloadhttp://192.168.0.16:9870/webhdfs/v1/user/myuser/

Origin Access-Control-Allow-Origin hadoop section cross-origin angular cors hdfs webhdfs

159 160 161162163 164 165