hdfs_clusters

python - 如何在 python 中一次将多个文件从本地服务器移动到 HDFS？

我在我的服务器上使用pythonv3.4，我经常需要将多个文件从我的本地目录复制/移动到hdfs目录。我所有的文件都在子目录中，而子目录又在MyDir中。这是我使用的命令-$hdfsdfs-copyFromLocalMyDir/*/path/to/hdfs/这个命令在服务器上运行良好，但是当我使用子进程在python中使用相同的命令时>>>subprocess.call(['hdfs','dfs','-copyFromLocal','MyDir/*','/path/to/hdfs/'])它给出了以下错误-copyFromLocal:`MyDir/*':Nosuchfileordirec

python 何在 code section copyFromLocal python-3.x hadoop subprocess hdfs

hadoop - 如何从 HDFS 运行 pig 脚本？

我正在尝试从hdfs运行pig脚本，但它显示错误，因为该文件不存在。我的hdfs目录[cloudera@quickstart~]$hdfsdfs-ls/Found11itemsdrwxrwxrwx-hdfssupergroup02016-08-1014:35/benchmarksdrwxr-xr-x-hbasesupergroup02017-08-1923:51/hbasedrwxr-xr-x-clouderasupergroup02017-07-1304:53/homedrwxr-xr-x-clouderasupergroup02017-08-2707:26/inputdrwxr-x

hadoop HDFS supergroup cloudera drwxr-xr-x apache-pig

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7，我也有ClouderaManager。在目录/etc/hadoop下，我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置，而../conf.cloudera.HDFS下没

hadoop conf cloudera cloudera-manager

hadoop - HDFS小文件设计

我希望能够在HDFS上存储数百万个小文件(二进制文件-图像、exe等)(~1Mb)，我的要求基本上是能够查询随机文件而不运行MapReduce作业。我的主要问题是Namenode内存问题，而不是MapReduce映射器问题。所以我的选择是:HAR文件-聚合小文件，仅将它们与har://路径一起保存在另一个地方序列文件——在它们进来时附加它们，这更适合MapReduce作业，所以我几乎消除了它HBase-将小文件保存到Hbase是谷歌上几篇文章中描述的另一种解决方案我想我是在问我是否遗漏了什么？我可以通过将二进制文件应用到大Avro/ORC/Parquet文件来实现我需要的吗？然后通过名

hadoop HDFS section 大文 MapReduce hbase avro parquet

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法

我编写了一个Spark应用程序，它读取一些CSV文件(~5-10GB)，转换数据并将数据转换为HFiles。数据从HDFS读取并保存到HDFS。当我在yarn-client中运行应用程序时，一切似乎都工作正常模式。但是当我尝试以yarn-cluster运行它时应用程序，进程似乎没有运行最终saveAsNewAPIHadoopFile对我已转换并准备好保存的RDD采取行动!这是我的SparkUI的快照，您可以在其中看到所有其他作业都已处理:以及相应的阶段:这是我应用程序的最后一步，其中saveAsNewAPIHadoopFile方法被调用:JavaPairRDDcells=...try{

saveAsNewAPIHadoopFile yarn-cluster code section the hadoop apache-spark hdfs rdd

bash - 使用 shell 条件检查目录是否存在于 hdfs 中

我正在创建一个提示脚本，用于验证输出目录是否存在于hdfs目录中。这是我想出来的whiletrue;doread-p"Whatisthetablename?"table_namecase"$table_name"in*)if(($(hdfsdfs-test-d/user/hive/bar/foo/$test_table)));thenecho"ok";elseecho"notok";fi;;esacdone这是行不通的。我没有收到任何错误，但如果条件为真，输出总是“不正常”。最佳答案您的初始编辑存在一些违规行为(句法/语义)。c

shell bash code section table hadoop if-statement

Hadoop Mapreduce HDFS block 拆分

我的问题是我有一个文本文件，其中有100个单词，用空格分隔，我需要做一个单词计数程序。那么，当我的名称节点将文件拆分为HDFSblock时，我们如何确保拆分仅在单词末尾完成？即，如果我将文本文件中的第50个单词作为Hadoop，如果将其拆分为64MBblock时，当前block的存储可能在单词Hadoop的中心达到64MB，因此一个block包含'had'和其他block中的另一个'oop'。抱歉，如果这个问题听起来很愚蠢，但请提供答案。谢谢。最佳答案你的答案是输入拆分。因为HDFS不知道文件的内容。在将数据存储到多个block

Mapreduce Hadoop block section 单词 hdfs

hadoop - 轻松将 Elasticsearch 数据导入 HDFS

我们在内部部署Elasticsearch集群已经快2年了，我们想做一些更高级的分析，例如使用其中包含的日志数据以及其他不同的数据源。我们的重点是Elasticsearch中的系统日志。每天生成约100gb的系统日志数据——每天都是它自己的索引。我们也有一些应用程序日志，但如果我能为系统日志解决这个问题，我就可以轻松解决其他数据移动问题。这引出了我的问题。对于我的分析，我们使用Spark2.1.1和PythonAPI。我想要所有的系统日志数据，比如说，在HDFS中保存2周，这样我们就可以做两件事:通过我们的Spark/Hadoop集群之间的通信避免延迟加快我们机器学习工作的速度我想开始使

Elasticsearch hadoop code 34 Spark apache-spark hdfs

hadoop - 无法通过 Web 界面删除 HDFS 目录，因为我是神秘博士

我正在尝试使用位于http://localhost:50070/explorer.html的Web界面删除本地HDFS系统上的目录deepnlptest/models.我的用户名是wmcneill，对我要删除的HDFS目录的权限是wmcneill拥有的drwxr-xr-x。$hdfsdfs-lsdeepnlptest17/11/1609:36:11WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableFound5

hadoop HDFS deepnlptest code section configuration permissions

hadoop - 我们如何检查 HDFS 文件夹中是否有可用的 avro 文件？

我在HDFS文件夹/user/data/output_files/file_2017-10-18中有一些avro文件scala>valhdfsLoc="/user/data/output_files/file_2017-10-18/*.avro"hdfsLoc:String=/user/data/output_files/file_2017-10-18/*.avroscala>valconf=newConfiguration()scala>valfs=FileSystem.get(conf)scala>valresult=fs.exists(newPath(hdfsLoc))resul

hadoop HDFS section avro output_files apache-spark

171 172 173174175 176 177