Hdfs

hadoop - 将 hdfs 文件复制到 hive 表后复制的文件总数

假设如果我将hdfs中的文件加载到配置单元表中，那么该文件的总副本数是多少。在hdfs中，文件被复制了3次，现在复制到hive表会产生额外的副本，总计是否有6个副本？？最佳答案在HDFS中，副本数基于复制因子集。在您的情况下，由于复制因子为3，因此将有三个副本。当您执行sqoop从hdfs导入到hive(到内部表)时，数据仅从hdfs上的一个位置复制到hive中的表。但是Hive数据的复制再次根据您的复制因子进行。总共你将得到3(hdfs)+1(hivecopy)*3=>HDFS上的3个副本和hive存储的数据的3个副本(这不是

hadoop - 为什么SQOOP默认启动4个映射器？

我只是想了解为什么SQOOP默认启动4个映射器？在某些情况下，如果我们将映射器增加到8个，则有可能为我们提供更好的性能。那么，选择默认映射器作为4时考虑了哪些标准？提前致谢。最佳答案我会引用7.2.4.ControllingParallelism来自ApacheSqoop的官方网站。默认使用四个任务。通过将此值增加到8或16，一些数据库可能会看到性能得到提高。DonotincreasethedegreeofparallelismgreaterthanthatavailablewithinyourMapReducecluster;

射器 hadoop section strong hdfs sqoop mapper

python - 获取子目录列表

我知道我可以做到:data=sc.textFile('/hadoop_foo/a')data.count()240data=sc.textFile('/hadoop_foo/*')data.count()168129但是，我想统计“/hadoop_foo/”的每个子目录的数据大小。我可以这样做吗？换句话说，我想要的是这样的:subdirectories=magicFunction()forsubdirinsubdirectories:datasc.textFile(subdir)data.count()我试过:In[9]:[x[0]forxinos.walk("/hadoop_foo/

子目子目录 hadoop code hadoop_foo python apache-spark hdfs bigdata

java - 将文件存储到 S3 : local file vs HDFS

背景使用java将文件上传到s3的简单古老问题S3不支持流式传输(AFAIK)，因此在上传之前需要将数据分组到一些适当大小的文件中。在创建上述这些临时文件时，就位置而言有一些选项本地一些指定目录本地在HDFS中(如果可能的话，我什至不知道Hadoop中的H)到hadoop集群中的HDFS问题哪个可能更快？与本地FS相比，使用HDFS(本地或集群)是否有优势，HDFS在本质上更接近S3格式？技术和基础设施EC2、Linux、Java 最佳答案如果你本地有足够的磁盘空间，就在本地做吧。否则，您可以将数据合并到HDFS上您需要的存储中，

local java section strong HDFS linux hadoop amazon-s3

hadoop - 设置 20TB 存储 : use normal file system or hadoop

我是一名年轻的研究人员，打算购买一台计算服务器用于(也许是“大”)数据分析。服务器将有20TB的硬盘空间。我目前的问题是我应该使用普通的linux文件系统还是hadoophdfs作为系统。谁能解释一下这两种选择的优缺点？最佳答案在单个节点(一台服务器)上安装HDFS确实没有意义。HDFS完全是关于分布数据，以便计算任务靠近数据运行，并拥有数据的冗余副本以能够容忍硬件故障。单个节点不会提供单一的HDFS优势。如果您有一个集群机器(例如10台服务器)那么是的，您可以问这个问题。照原样，HDFS不是一个选项。

hadoop normal section HDFS filesystems

hadoop - 插入分桶表产生空表

我正在尝试插入分桶表。当我运行查询时，一切看起来都很好，我在报告中看到了一些写入的字节数。Hive日志中也没有任何错误。但是当我查看表格时，我什么都没有:(创建表测试(测试日期字符串，test_id字符串,test_title字符串,)聚类为(文本日期)进入100个桶行格式分隔由“|”终止的字段由'\n'终止的行存储为兽人地点'hdfs://myserver/data/hive/databases/test.db/test'TBL属性('skip.header.line.count'='1','交易'='真')插入测试.test从test2.green中选择“test_date”、“t

hadoop 插入 test br code hive hdfs hiveql orc

file - '无法从空字符串创建路径'，使用 csv 的 hadoop -put 命令

我正在尝试将基本的csv文件拉入hdfs我正在使用这个:hadoopfs-putC:\Users\Desktop\Terrorism.csv/user/Mydata/terrorism.csv它给我以下错误:CannotcreateaPathfromanullstring我可以通过创建一个配置单元表并将数据加载到该表中来解决问题，但我只想将数据放到hdfs上。最佳答案在路径上使用转义，因为它是Windows并且使用反斜杠:)hadoopfs-copyFromLocalC:\\Users\\Desktop\\Terrorism.c

空字符 amp section code csv file hadoop hdfs

hadoop - 无法使用 hdfs 找到配置单元表目录

我在使用配置单元表时遇到了困难。使用配置单元表时。使用DESCRIBEFORMATTEDtbl_name时，我可以看到位置:hdfs路径。运行查询时，有一些记录返回。当我运行createtablenew_tableasselect*fromtbl_name时。可以创建表，但不能创建数据。在使用hdfsdfs-ls/table目录检查hdfs的地方，它返回“没有这样的文件或目录”。有人知道吗？提前致谢。最佳答案您可以看到$HIVE_HOME/conf目录中有hive-default.xml和/或hive-site.xml具有hiv

配置单 hadoop section code hive hdfs

hadoop - 必须具有 core-site hdfs-site mapred-site 和 yarn-site.xml 的属性

谁能告诉我Core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml必须具备的属性，没有这些属性hadoop就无法启动？最佳答案以下设置适用于Hadoop2.x.x的独立和伪节点设置。核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop/hadoopdata/hdfs/namenodedfs.data.dirfile:/

site mapred-site gt lt property hadoop hadoop-yarn hadoop2

hadoop 2.7.3 HDFS Namenode -format No Such FIle or Directory 错误

我正在尝试使用this在Lubuntu机器上安装Hadoop2.7.3|教程。我正处于使用namenode-format命令格式化HDFS的时间点。每当我这样做时，我都会收到此错误:HadoopBot@hadoopmaster-MS-7756:~/Hadoop/hadoop/bin$/home/HadoopBot/Hadoop/hadoop/bin/hdfsnamenode-format/home/HadoopBot/Hadoop/hadoop/bin/hdfs:line304:/home/HadoopBot/Hadoop/hadoop/bin/$/usr/lib/jvm/java-8

Directory Namenode section hadoop JAVA_HOME hdfs

8 9 101112 13 14