hdfs_clusters_草庐IT

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件，然后通过hive将其作为外部表读取。在编写Parquet文件时，我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201，萨蒂什，25岁1202，克里希纳，28岁1203，阿米斯，39岁1204，贾韦德，231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

中创 Parquet strong 34 spark scala hadoop apache-spark

Bash - 如何检查文件是否已上传到 hdfs？

我createdafolderinhdfs.现在，我尝试将文件从我的本地文件系统上传到tmp文件夹，如下所示:hdfsdfs-putopt/ibm/labfiles/README.md/user/root/input/tmp但我得到消息:put:'/user/root/input/tmp':Fileexists我不明白的是:如果文件存在，当我运行测试时，我没有看到列出的文件，但文件夹具有文件的大小(4811位)。再一次，tmp甚至可能不是一个文件夹:如何查看tmp是否为文件夹？我如何查看README.md文件是否在tmp中，如果不在，我如何将它放在那里？从此处启动SparkShell时

传到 Bash code section tmp scala hadoop apache-spark hdfs

hadoop - 如何使用数据上的某些键将 HDFS 文件拆分为多个目录

我有一个包含以下示例数据的HDFS文件idnametimestamp1Lorem2013-01-012Ipsum2013-02-013Ipsum2013-03-01现在我想以/data/YYYY/MM/DD格式将数据拆分到多个目录中，例如记录1转到目录/data/2016/01/01.pig中有MultiStorageUDF，可以按年、月或日拆分为单个目录。有什么办法可以分成多个目录吗？最佳答案您可以从这三种方法中进行选择:您可以编写shell脚本来完成此任务你可以用partition-er类编写mapreduce作业您可以创建

hadoop HDFS file cloudera 2013 apache-pig

hadoop - 从 hdfs 读取数据时级联的实现问题

假设我在hdfs目录中有这些文件500/Customer/part-001500/Customer/part-002500/Customer/part-003是否可以检查元组来自哪个部分文件？注意:我已经研究过了，但一无所获。最佳答案你的问题不是很清楚。假设您的输出采用以下布局，分隔符为“;”身份证；姓名；年龄1;约旦;222;内森;33等等您可以使用awk或grep或两者来获取记录例如，如果你想搜索记录Nathan，试试文件命令grep-r"Nathan"部分*以上命令将搜索字符串“Nathan”，如果该字符串存在于任何部分文

hadoop hdfs section Nathan strong cascading bigdata

Hadoop - 数据在复制到 HDFS 时自动平衡？

如果我将一组文件复制到Hadoop7节点集群中的HDFS，HDFS是否会负责自动平衡7个节点之间的数据，有什么方法可以告诉HDFS将数据限制/强制到特定的集群中的节点？最佳答案 NameNode是决定将数据block放置在集群中不同节点上的“主”。理论上，您不应更改此行为，因为不推荐这样做。如果您将文件复制到hadoop集群，NameNode将自动负责将它们几乎平均分配到所有DataNode上。如果您想强制更改此行为(不推荐)，这些帖子可能会有用:Howtoputfilestospecificnode?Howtoexplicilt

动平衡 Hadoop section stackoverflow questions hdfs

apache - 在 Apache Drill 上制作存储插件到 HDFS

我正在尝试为Hadoop(hdfs)和ApacheDrill制作存储插件。实际上我很困惑，我不知道为hdfs://连接设置什么端口，以及为位置设置什么。这是我的插件:{"type":"file","enabled":true,"connection":"hdfs://localhost:54310","workspaces":{"root":{"location":"/","writable":false,"defaultInputFormat":null},"tmp":{"location":"/tmp","writable":true,"defaultInputFormat":nu

apache 34 code strong hadoop hdfs apache-drill hadoop-plugins

hadoop - 创建多层 HDFS 文件夹

要创建/user/SVLSTSLS/LostSales/sales-history-prepHDFS文件夹，可以像这样逐步创建HDFS文件夹:bash-4.1$hadoopfs-mkdir/user/SVLSTSLSbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSalesbash-4.1$hadoopfs-mkdir/user/SVLSTSLS/LostSales/sales-history-prep有什么方法可以创建最终文件夹sales-history-prep以及所有中间文件夹(SVLSTSLS和LostSales),如果还不存在？

hadoop HDFS code section

python - 使用 .csv 格式的 HDFS 文件创建 Pandas DataFrame

我正在尝试通过从hadoop集群获取.csv数据并将其放入PandasDataFrame来创建Spark工作流。我能够从HDFS中提取数据并将其放入RDD中，但无法将其处理到PandasDataframe中。以下是我的代码:importpandasaspdimportnumpyasnmA=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv")#thiscreatestheRDDB=pd.DataFrame(A)#thisgivesmethefollowingerror:pandas.core.common.PandasError:

DataFrame python section 34 csv hadoop pandas pyspark

hadoop - hadoop错误:util.NativeCodeLoader(hdfs dfs -ls不起作用!)

我已经看到很多人在安装hadoop时遇到问题。我经历了所有相关的stackoverflow问题，但无法解决问题。问题是:hdfsdfs-ls16/09/2709:43:42WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:`.':Nosuchfileordirectory我正在使用ubuntu16.04，并且从Apache镜像下载了hadoop稳定版2.7.2:http://apache.spinell

hadoop NativeCodeLoader br noreferrer hadoop-streaming

file - Hadoop Map Reduce - 读取 HDFS 文件 - FileAlreadyExists 错误

我是Hadoop新手。我正在尝试使用以下代码读取HDFS上的现有文件。配置似乎文件和文件路径也是正确的。-publicstaticclassMapextendsMapper{privatestaticTextf1,f2,hdfsfilepath;privatestaticHashMap>friendsData=newHashMap();publicvoidsetup(Contextcontext)throwsIOException{Configurationconf=context.getConfiguration();Pathpath=newPath("hdfs://cshadoop

FileAlreadyExists Hadoop section String JobSubmitter file