草庐IT

hdfs_clusters

全部标签

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

Bash - 如何检查文件是否已上传到 hdfs?

我createdafolderinhdfs.现在,我尝试将文件从我的本地文件系统上传到tmp文件夹,如下所示:hdfsdfs-putopt/ibm/labfiles/README.md/user/root/input/tmp但我得到消息:put:'/user/root/input/tmp':Fileexists我不明白的是:如果文件存在,当我运行测试时,我没有看到列出的文件,但文件夹具有文件的大小(4811位)。再一次,tmp甚至可能不是一个文件夹:如何查看tmp是否为文件夹?我如何查看README.md文件是否在tmp中,如果不在,我如何将它放在那里?从此处启动SparkShell时

hadoop - 如何使用数据上的某些键将 HDFS 文件拆分为多个目录

我有一个包含以下示例数据的HDFS文件idnametimestamp1Lorem2013-01-012Ipsum2013-02-013Ipsum2013-03-01现在我想以/data/YYYY/MM/DD格式将数据拆分到多个目录中,例如记录1转到目录/data/2016/01/01.pig中有MultiStorageUDF,可以按年、月或日拆分为单个目录。有什么办法可以分成多个目录吗? 最佳答案 您可以从这三种方法中进行选择:您可以编写shell脚本来完成此任务你可以用partition-er类编写mapreduce作业您可以创建

hadoop - 从 hdfs 读取数据时级联的实现问题

假设我在hdfs目录中有这些文件500/Customer/part-001500/Customer/part-002500/Customer/part-003是否可以检查元组来自哪个部分文件?注意:我已经研究过了,但一无所获。 最佳答案 你的问题不是很清楚。假设您的输出采用以下布局,分隔符为“;”身份证;姓名;年龄1;约旦;222;内森;33等等您可以使用awk或grep或两者来获取记录例如,如果你想搜索记录Nathan,试试文件命令grep-r"Nathan"部分*以上命令将搜索字符串“Nathan”,如果该字符串存在于任何部分文

Hadoop - 数据在复制到 HDFS 时自动平衡?

如果我将一组文件复制到Hadoop7节点集群中的HDFS,HDFS是否会负责自动平衡7个节点之间的数据,有什么方法可以告诉HDFS将数据限制/强制到特定的集群中的节点? 最佳答案 NameNode是决定将数据block放置在集群中不同节点上的“主”。理论上,您不应更改此行为,因为不推荐这样做。如果您将文件复制到hadoop集群,NameNode将自动负责将它们几乎平均分配到所有DataNode上。如果您想强制更改此行为(不推荐),这些帖子可能会有用:Howtoputfilestospecificnode?Howtoexplicilt

apache - 在 Apache Drill 上制作存储插件到 HDFS

我正在尝试为Hadoop(hdfs)和ApacheDrill制作存储插件。实际上我很困惑,我不知道为hdfs://连接设置什么端口,以及为位置设置什么。这是我的插件:{"type":"file","enabled":true,"connection":"hdfs://localhost:54310","workspaces":{"root":{"location":"/","writable":false,"defaultInputFormat":null},"tmp":{"location":"/tmp","writable":true,"defaultInputFormat":nu

hadoop - 创建多层 HDFS 文件夹

要创建/user/SVLSTSLS/LostSales/sales-history-prepHDFS文件夹,可以像这样逐步创建HDFS文件夹:bash-4.1$hadoopfs-mkdir/user/SVLSTSLSbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSalesbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSales/sales-history-prep有什么方法可以创建最终文件夹sales-history-prep以及所有中间文件夹(SVLSTSLS和LostSales),如果还不存在?

python - 使用 .csv 格式的 HDFS 文件创建 Pandas DataFrame

我正在尝试通过从hadoop集群获取.csv数据并将其放入PandasDataFrame来创建Spark工作流。我能够从HDFS中提取数据并将其放入RDD中,但无法将其处理到PandasDataframe中。以下是我的代码:importpandasaspdimportnumpyasnmA=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv")#thiscreatestheRDDB=pd.DataFrame(A)#thisgivesmethefollowingerror:pandas.core.common.PandasError:

hadoop - hadoop错误:util.NativeCodeLoader(hdfs dfs -ls不起作用!)

我已经看到很多人在安装hadoop时遇到问题。我经历了所有相关的stackoverflow问题,但无法解决问题。问题是:hdfsdfs-ls16/09/2709:43:42WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:`.':Nosuchfileordirectory我正在使用ubuntu16.04,并且从Apache镜像下载了hadoop稳定版2.7.2:http://apache.spinell

file - Hadoop Map Reduce - 读取 HDFS 文件 - FileAlreadyExists 错误

我是Hadoop新手。我正在尝试使用以下代码读取HDFS上的现有文件。配置似乎文件和文件路径也是正确的。-publicstaticclassMapextendsMapper{privatestaticTextf1,f2,hdfsfilepath;privatestaticHashMap>friendsData=newHashMap();publicvoidsetup(Contextcontext)throwsIOException{Configurationconf=context.getConfiguration();Pathpath=newPath("hdfs://cshadoop