hdfs_clusters

hadoop - Hdfs 文件行数

有没有办法像我们一样在JAVA中计算HDFS目录的行数在命令提示符下执行以下命令？hadoopfs-cat/abc/def/*|wc-l特别是使用HADOOPAPI而不是编写map-reduce或spark代码。最佳答案像这样的东西应该可以工作:-importjava.io.BufferedReader;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.io.InputStr

hadoop - Hive 和 Impala 以及它们与 HDFS 的交互

尽管多年来一直使用传统数据库，但我相信我对Hive和Impala如何与HDFS交互(或者HDFS本身如何工作!)存在根本性的误解，并希望得到一些建议。只是为了说明我的想法:在Windows上，当我创建一个文件(比如bob.txt)时，该文件存储在“文件系统”(NTFS)上。现在，无论我使用Windows资源管理器、命令提示符还是其他软件，我总是会看到bob.txt，因为它存在于“文件系统上”并且所有软件都可以访问该文件系统。在我使用RedHat上的Cloudera与HDFS进行新手交互时，我认为它的工作方式与上一段中所述不完全相同。例如，在使用Hue时，如果我在“Hive查询编辑器

hadoop Impala section Hive filesystems hdfs

mongodb - 将数据从mongodb迁移到hdfs

我是数据工程的新手。我正在尝试为大数据项目设置环境。截至目前，我已经安装了hadoop、mongodb、hive和spark。现在我想尝试模拟以查看mongodb和hadoop之间的交互。我的mongodb中已经有数据。所以我想将数据迁移到hadoophdfs中。是否可以？我读了很多关于它的解释，但不明白迁移的想法。任何人都可以用简单的方式解释如何做吗？因为我是这个领域的初学者。最佳答案如果您已经在Mongo中有数据，我建议使用SparkSQLwithMongo加载您集合的DataFrame对象，我们称它为df。例如SparkS

mongodb hdfs section code apache-spark hadoop hive

hadoop - 是否可以让 Nifi 放入多个 HDFS 文件夹？

我需要将一堆json文件流式传输到Nifi，然后它会转到HDFS。Nifi需要查看json文件中的创建日期(UNIX格式)，然后将其路由到相应的HDFS文件夹。到目前为止，我的处理器设置如下:使用Kafka->RouteOnContent(使用正则表达式^"creationDate":\"[0-9]{4}-[0-9]{2}-[0-9]{2}$)->PutHDFS每天都有一个HDFS文件夹，如“2019-01-28”、“2019-01-29”、“2019-01-30”等。但是，“PutHDFS”处理器只会输出到一个单个目录，我显然不想拥有365个处理器。据我所知，Nifi没有办法动态创建

放入 hadoop section nifi apache hdfs apache-nifi

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同？

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同？换句话说，HDFS中的节点是在对它们包含的数据进行操作，还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点？如果您想让我澄清任何事情，请告诉我!任何帮助将非常感激!谢谢，泰勒最佳答案我总是先从独立的角度思考这些概念，然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark)，DataNode和NameNode只

apache-spark apache code strong section hadoop mapreduce hdfs

hadoop - 将 Sqoop 数据从 HDFS 迁移到 Hive

当使用Sqoop将一堆大型MySQL表导入HDFS时，我忘记包含--hive-import标志。所以现在我已经将这些表放在HDFS中，并且想知道是否有一种简单的方法可以将数据加载到Hive中(无需自己编写LOADDATA语句)。我尝试使用sqoopcreate-hive-table:./bin/sqoopcreate-hive-table--connectjdbc:mysql://xxx:3306/dw--usernamexxx--passwordxxx--hive-import--tabletweets虽然这确实创建了正确的配置单元表，但它没有向其中导入任何数据。我觉得我在这里遗漏了

hadoop Sqoop section hive table hdfs

hadoop - 如何从 Hadoop 中的 HDFS 中的文件读取序列化对象

我已经将一个LibSVM类型的对象序列化到一个名为j48.model的文件中。此文件已传输到HDFS文件系统中。现在，在hadoopmapreduce代码中，我如何反序列化该对象并将其读回到LibSVM类的实例中？我已经将与LIBSVM相关的.jar文件作为外部jar文件包含到mareduce项目中。哪些JAVA方法可以帮助我将文件j48.model的内容读入LibSVM对象？最佳答案当您打开HDFSURL时，它会返回一个InputStream。FileSystemfs=FileSystem.get(newConfigurati

hadoop section LibSVM ObjectInputStream mapreduce hdfs

hadoop - 我如何只下载 hdfs 而不是 hadoop？

如何只下载hdfs而不是hadoop？我正在尝试将它安装在linux/mac/windows上。我尝试搜索，但所有结果都指向hadoop安装程序，例如http://apache.mirrors.tds.net/hadoop/common/hadoop-2.5.1谢谢。最佳答案我同意上面乔杜里先生的观点。自Hadoop0.21(早在2010年)以来，HadoopCore已分为Common、HDFS和MapReduce。在这里引用TomWhite的优秀文章http://blog.cloudera.com/blog/2010/08/w

hadoop hdfs section apache

java - MapReduce 是否需要与 HDFS 一起使用

我想使用HadoopMapReduce提高数据处理性能。那么，我需要将它与HadoopDFS一起使用吗？或者MapReduce可以与其他类型的分布式数据一起使用？请给我指路.... 最佳答案 Hadoop是一个框架，包括用于计算的MapReduce编程模型和用于存储的HDFS。HDFS代表hadoop分布式文件系统，其灵感来自Google文件系统。整个Hadoop项目的灵感来自于Google发表的研究论文。research.google.com/archive/mapreduce-osdi04.pdfhttp://research.

MapReduce java section research hadoop hdfs

postgresql - 关于 hawq pxf 访问 hdfs 上的文件数据

在我部署了hdfs、mapreduce、hawq、pxf和ambari之后，我使用impala-tpcds-kits在hdfs上生成了大约10G数据。但是当我用用户postgres登录Postgres时，我不能使用命令行CREATEEXTERNALTABLE来索引hdfs上的数据。当我使用psqlhelp命令时，没有关键字CREATEEXTERNALTABLE。不知道为什么？Lastlogin:ThuAug2515:08:152016from192.168.1.50[root@hadoop-m-21~]#supostgresbash-4.1$psqlpsql(8.4.20)Type"h

postgresql hawq section code EXTERNAL hadoop

139 140 141142143 144 145