hdfs

database - HDFS vs NoSQL (HBASE)，它是如何工作的？

我(几乎)浏览了谷歌上的所有资源，但没有得到有关Hadoop和NoSQL的信息。假设我有很多数据要存储。我使用Hadoop和它的原生高清文件系统，但我也想获得实时信息，所以我需要NoSQL。我的数据库将安装在哪里？在数据节点本身？在名称节点上？两者？让我们(再一次)想象一下，我的系统中有数据，namenode将把它分成几部分并将它们复制到不同的datanode上。使用NoSQL，它会以同样的方式工作吗？HDFS是否参与此过程？存储在NameNode中的元数据给出了地址，那么如何查询呢？我想我基本上理解了Hadoop和HBase的概念，但是当我进一步深入时，我就误解了..

python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中？

我已经下载了一个大约2GB的百万歌曲数据集的子集。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几个“H5文件”格式。我知道它可以使用Python读取。但我不知道如何提取并加载到HDFS中，以便我可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive？如果有人能指出我正确的资源，那将会有所帮助。最佳答案如果它已经在CSV或linux文件系统上的任何格式中，PIG可以理解，只需执行hadoopfs-copyFromLocal即可如果您想在HDFS上使用Python读取/处理原始H5文件格式

大数 BigData section 中运 Python hadoop hive hbase

hadoop - 将文件从本地复制到 HDFS

我知道有一个类似的标题问题，但我们问的是不同的。我试过了hduser@tong-VirtualBox:/usr/local/hadoop$bin/hadoopdfs-copyFromLocal/tmp/Text/home/hduser/Text我明白了:DEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.15/10/1410:15:21WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyou

hadoop HDFS hduser code section

hadoop - HIVE:在 HDFS 中分区后创建空桶

我正在尝试使用HIVE创建分区和存储桶。设置一些属性:sethive.enforce.bucketing=true;SEThive.exec.dynamic.partition=true;SEThive.exec.dynamic.partition.mode=nonstrict;下面是创建表的代码:CREATETABLEtransactions_production(idstring,deptstring,categorystring,companystring,brandstring,date1string,productsizeint,productmeasurestring,pu

中分 hadoop section string code hive bigdata hadoop-partitioning

hadoop - 使用pywebhdfs创建hdfs文件报错: [Errno -2] Name or service not known

关于我的开发环境的一些信息:开放堆栈:朱诺hadoop:2.4.1pywebhdfs:0.4.0我通过openstacksahara客户端API创建一个hadoop集群，然后我想使用pywebhdfs创建一个文件到HDFS(用于在创建的hadoop集群上启Action业)。但是在创建HDFS文件时出现错误，错误信息为:HTTPConnectionPool(host='vanillacluster-vanillacluster-slave-vanilla-002.novalocal',port=50075):Maxretriesexceededwithurl:/webhdfs/v1/us

pywebhdfs service vanillacluster section hadoop openstack webhdfs

java - 在 Java 上使用 DFSClient 将文件上传到 HDFS

我正在尝试使用与Hadoop捆绑在一起的DFSClient将文件上传/写入我的HDFS，但是我没有成功，以下代码实际上在HDFS中创建了文件，但它是空的(大小为0)，得到文件并看到它的内容我可以确认它是空的。如何调试此行为？我已经确认我的本地文件“dilox.txt”包含文本，并且我的缓冲区循环确实在迭代，我的理论是client.create()创建的输出缓冲区不会将任何内容发送回HDFS。请注意，我不是在Hadoop作业中运行它，而是在外部运行它。相关代码:StringhdfsUrl="hdfs://1.2.3.4:8020/user/hadoop";Configurationcon

传到 DFSClient hadoop section code java hdfs

hadoop - 在hdfs中找不到仓库

我通过hive创建了一个包含一些表的数据库。在hive-site.xml中，我将“hive.metastore.warehouse.dir”默认设置为“/user/hive/warehouse”但是hdfs中没有这样的目录我还能在哪里找到与我的数据库和表相关的文件？最佳答案您可以运行describeformatted并检查带有LOCATION的行，它会告诉您表的目录和文件的位置。关于hadoop-在hdfs中找不到仓库，我们在StackOverflow上找到一个类似的问题：

hadoop hdfs section hive stackoverflow

hadoop - Java中HDFS配置有什么用？

我对HDFSJavaAPI有点困惑，尤其是hadoop的作用Configuration针对我们在hadoop服务器安装上的配置(/etc/hadoop/core-site.xml等)。我应该在每个使用hdfs的java客户端程序中安装hadoop吗？Java客户端的任何配置集是否会影响它与hadoop服务器(hdfs服务器)的通信方式？最佳答案您可以在core-site.xml中或通过驱动程序代码中的配置为您的参数设置值。程序中的一组会覆盖xml文件中的一组。因此，例如，如果您必须设置压缩代码。然后你可以将它们添加到core-s

hadoop Java section Configuration hdfs

scala - 如何使用 Scala 使用 Hadoop 客户端在 HDFS 中 append 文本文件？

我想将文本文件写入HDFS。文件必须写入HDFS的路径是动态生成的。如果文件路径(包括文件名)是新的，则应创建该文件并将文本写入其中。如果文件路径(包括文件)已经存在，则该字符串必须append到现有文件。我使用了以下代码。文件创建工作正常。但不能将文本append到现有文件。defwriteJson(uri:String,Json:JValue,time:Time):Unit={valpath=newPath(generateFilePath(Json,time))valconf=newConfiguration()conf.set("fs.defaultFS",uri)conf.s

本文 Hadoop hadoop-hdfs 34 scala append hdfs

hadoop - 访问 hdfs 文件夹

如何限制对hdfs中特定文件夹的访问。用户不应通过hue、hive或任何其他方式访问该文件夹。最佳答案除了chmod之外，您还可以使用ACL(访问控制列表)。有了它，您可以设置文件、文件夹和用户的权限。user::rw-user:bruce:rwx#effective:r--group::r-x#effective:r--group:sales:rwx#effective:r--mask::r--other::r--检查下面的链接https://hadoop.apache.org/docs/current/hadoop-proj

hadoop hdfs section effective hive bigdata

149 150 151152153 154 155