草庐IT

hdfs_clusters

全部标签

shell - 模式匹配 "hdfs ds -ls"输出时如何忽略时间戳?

我有存储在HDFS上的文件,其名称后缀有日期,与文件的修改日期不同,如下所示:$hdfsdfs-ls/a/b/c/d/e/*Found5itemsdrwxr-xr-x-xuserxuser02015-05-0113:59/a/b/c/d/e/exp_dt=2016-01-05drwxr-xr-x-xuserxuser02017-10-1015:42/a/b/c/d/e/exp_dt=2015-05-01我正在尝试查找仅具有给定exp_dt的文件。目前,努力如下:inputDir=/a/b/c/d/e/countCmd='hdfsdfs-ls$inputDir|grep'\.2015$'

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群,如前所述here并且还设置了spark以提供对此Hadoop环境的引用,如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外,我可以使用localhost查看HDFS。.为了更进一步,我将示例文件上传到HDFS,并使用Hadooplocalhost验证它是否可用。现在,我尝试使用Java和spark-shell(Scala)来计算文件中的行数,但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

我正在尝试以分布式方式(使用3台计算机的集群)运行ApacheHadoop2.65,并且我想决定映射器和缩减器的数量。我正在使用复制数为1的HDFS,我的输入是3个文件(表)。我想调整数据在系统中的流动方式,为此,我想通过以下方式获得一些帮助吗?以及如何以及在哪里可以更改它?HDFS的复制-我可以干扰HDFS的复制方式吗?例如,确保每个文件存储在不同的计算机上?如果可以,我可以选择哪个它将存储在计算机上吗?映射器数量-我可以更改映射器或输入拆分的数量吗?我知道这取决于输入拆分的数量和block大小。它在网上说我可以通过更改以下参数来做到这一点,但我不知道在哪里?-Dmapred.map

hadoop - 既然 HDFS 已经提供了数据存储,为什么还要 Hive?

我已经开始学习Hadoop。我知道HDFS提供分布式存储系统,而Mapreduce用于数据处理。现在我正在阅读Hadoop生态系统。从Hive的定义来看,它是一个建立在hadoop之上,提供类SQL接口(interface)的数据仓库。我的问题是当hadoop提供容错的分布式HDFS时,为什么要配置单元?Hive会取代HDFS吗?hive是只提供sql接口(interface)还是也提供存储? 最佳答案 Hive不会取代HDFS。Hive为存储在HDFS中的数据提供了sql类型的接口(interface)。它主要用于查询和分析存储的

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs,如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

hadoop - 哪些进程需要访问 core-site.xml 和 hdfs-site.xml

Thecore-site.xmlfileinformsHadoopdaemonwhereNameNoderunsinthecluster.ItcontainstheconfigurationsettingsforHadoopCoresuchasI/OsettingsthatarecommontoHDFSandMapReduce.Thehdfs-site.xmlfilecontainstheconfigurationsettingsforHDFSdaemons;theNameNode,theSecondaryNameNode,andtheDataNodes.Here,wecanconfi

hadoop - HDFS如何在VM上查找主机名端口号

这似乎是一个非常简单的问题。但是我在hdfs上有我的文件的路径,比如父文件夹/子文件夹/文件名.txt由于我必须提供此文件的完整路径以及主机和端口详细信息,因此我需要找出这些详细信息。你能帮我吗? 最佳答案 根据配置会是这样的(Ambari中的HDFS配置:fs.defaultFS类似于:hdfs://cluster,默认端口8020):hdfs://localhost:8020/parentfolder/subfolder/filename.txt 关于hadoop-HDFS如何在VM

hadoop - 如何创建 hdfs 数据目录?

每次我的hadoop服务器重新启动时,我都必须格式化namenode才能启动hadoop。这会删除我的hadoop安装中的所有文件。我需要将我的hadoophdfs位置从/tmp文件移动到永久位置,只要服务器重新启动,我就不必格式化名称节点等。我是hadoop的新手。如何在另一个目录中创建hdfs文件?我如何在配置文件中引用这个数据目录,这样我就不必格式化名称节点了? 最佳答案 hdfs-site.xml的这两个属性决定了本地文件的存储位置。默认在/tmp下dfs.namenode.name.dirdfs.datanode.data

hadoop - 编写 Flume 配置,将不断增长的文件上传到 HDFS

我是Flume的新手,在配置方面遇到了一些问题。我在OracleVirtualBox上使用HortonworksSandboxHDP2.6.5(如果这很重要)。我的VM中有一个文本文件input_data.txt:input_data.txt的内容如下所示:我使用以下命令来创建并逐渐增加输入:catinput_data.txt|whilereadline;doecho"$line";sleep0.2;done>output.txt我想要实现的目标:1)编写一个Flume配置,将不断增长的output.txt文件上传到HDFS2)如果可能-HDFS中的目标文件必须在每次源文件(/usr/

hadoop - 如何使用 BDM(Informatica) 将文件从本地文件系统复制到 hdfs 文件系统?

我正在使用Informatica版本10.2.1并使用BDM我想将文件从本地文件系统复制并粘贴到HDFS文件系统。我是BDM的新手,不知道该怎么做。目前我已经创建了一个对象并填充了Read和Write参数。我同时使用InputType和OutputType作为command并发出命令hdfsdfs-copyFromLocal-f/tmp/x。csv/tmp/x非常感谢任何帮助。编辑粘贴错误图片。 最佳答案 Informatica中的Command输入类型用于读取数据。像catfilename.txt流出数据以供Informatica