hdfs-audit

hadoop - 创建多层 HDFS 文件夹

要创建/user/SVLSTSLS/LostSales/sales-history-prepHDFS文件夹，可以像这样逐步创建HDFS文件夹:bash-4.1$hadoopfs-mkdir/user/SVLSTSLSbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSalesbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSales/sales-history-prep有什么方法可以创建最终文件夹sales-history-prep以及所有中间文件夹(SVLSTSLS和LostSales),如果还不存在？

python - 使用 .csv 格式的 HDFS 文件创建 Pandas DataFrame

我正在尝试通过从hadoop集群获取.csv数据并将其放入PandasDataFrame来创建Spark工作流。我能够从HDFS中提取数据并将其放入RDD中，但无法将其处理到PandasDataframe中。以下是我的代码:importpandasaspdimportnumpyasnmA=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv")#thiscreatestheRDDB=pd.DataFrame(A)#thisgivesmethefollowingerror:pandas.core.common.PandasError:

DataFrame python section 34 csv hadoop pandas pyspark

hadoop - hadoop错误:util.NativeCodeLoader(hdfs dfs -ls不起作用!)

我已经看到很多人在安装hadoop时遇到问题。我经历了所有相关的stackoverflow问题，但无法解决问题。问题是:hdfsdfs-ls16/09/2709:43:42WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:`.':Nosuchfileordirectory我正在使用ubuntu16.04，并且从Apache镜像下载了hadoop稳定版2.7.2:http://apache.spinell

hadoop NativeCodeLoader br noreferrer hadoop-streaming

file - Hadoop Map Reduce - 读取 HDFS 文件 - FileAlreadyExists 错误

我是Hadoop新手。我正在尝试使用以下代码读取HDFS上的现有文件。配置似乎文件和文件路径也是正确的。-publicstaticclassMapextendsMapper{privatestaticTextf1,f2,hdfsfilepath;privatestaticHashMap>friendsData=newHashMap();publicvoidsetup(Contextcontext)throwsIOException{Configurationconf=context.getConfiguration();Pathpath=newPath("hdfs://cshadoop

FileAlreadyExists Hadoop section String JobSubmitter file

hadoop - 删除名称节点后从 HDFS 恢复文件

我的namenode服务器这个周末被黑了，/usr/local/hadoop目录不再存在。是否仍然可以恢复存储在HDFS上的文件？数据节点是可访问的，每个节点都包含层次结构blk_{...}数据中的某处。最佳答案如果您没有名称dir的任何副本/备份，恢复数据将是一项相当困难的任务。数据节点不知道文件的任何概念，只有block。所有数据都存在于这些block中，但您必须从它们的block中手动重建文件。如果您有一些非常重要的特定文件，但总体上没有那么多数据，您可以筛选block以找到您要查找的内容，但我不知道有什么比这更好的了。这

hadoop HDFS section Secondary recovery

mysql - 使用Sqoop从mysql导入数据到HDFS

我正在使用Hadoop-1.2.1和Sqoop-1.4.6。我正在使用sqoop使用以下命令将表test从数据库meshtree导入HDFS:`sqoopimport--connectjdbc:mysql://localhost/meshtree--usernameuser--passwordpassword--tabletest`但是，它显示了这个错误:17/06/1718:15:21WARNtool.BaseSqoopTool:Settingyourpasswordonthecommand-lineisinsecure.Considerusing-Pinstead.17/06/17

mysql Sqoop apache java hadoop

hadoop - 如何将文件复制到HDFS？

我正在尝试在我的本地机器上启动一个hadoop单节点集群。我根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本start-dfs.sh然后运行命令jps(在运行start-dfs.sh之后)我看到数据节点已启动并正在运行:15735Jps15548DataNode15660SecondaryNameNode15453NameNode几秒钟后，我

hadoop HDFS apache java

hadoop - SQOOP 在本地文件系统中导入存储数据而不是在 HDFS 中

我正在尝试通过sqoop将数据从mysql导入到hdfs，但是在将其存储数据导入到我的/home//文件夹中而不是hdfs中之后。sqoopimport-fslocal\-jtlocal\-libjars/tmp/sqoop-amar/compile/00992af844025da3f2ee7d83cb03a6b3/user_account.jar\--create-hive-table--connectjdbc:mysql://localhost/ecom\--usernameroot--password123456\--hive-import--tableuser_account

中导 hadoop section code stackoverflow sqoop

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop Spark section Cassandra planning apache-spark matrix hardware-infrastructure

python - 如何将外部 python 库添加到 HDFS？

有什么办法，如何添加外部库，如thisone进入高清？pyspark似乎需要外部库才能将它们放在hdfs上的共享文件夹中。拜托，因为我使用的是shellscript，它使用外部库运行pyspark脚本，所以无法导入它们。见帖子here关于ImportError。最佳答案您可以使用--py-files选项添加外部库。您可以提供.py文件或.zip。例如，使用spark提交:spark-submit--masteryarn--py-files./hdfs.zipmyJob.py检查相应的文档:SubmittingApplicatio

python HDFS section noreferrer noopener hadoop apache-spark

14 15 161718 19 20