草庐IT

hdfs_clusters

全部标签

hadoop - 使用命令行将 csv 文件放入 HDFS

我正在使用命令行使用以下命令将csv文件从本地系统放入HDFS系统:C:\Hadoop\hadoop-2.7.3\bin>hdfsdfs-putc:\hdfs\stock.csv/user/XYZ我得到的输出错误是:Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)Vatorg.apache.hadoop.util.NativeCrc

hadoop - HDFS - 名称节点未启动

有没有人遇到过这种情况。我正在尝试通过Ambari仪表板重新启动名称节点。2016-11-2719:24:09,588ERRORnamenode.NameNode(NameNode.java:main(1712))-Failedtostartnamenode.java.io.IOException:Multiplesharededitsdirectoriesarenotyetsupportedatorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.getNamespaceEditsDirs(FSNamesystem.java:1429

hadoop - Confluent HDFS 连接器正在丢失消息

社区,您能帮我理解为什么~3%的消息没有在HDFS中结束吗?我用JAVA编写了一个简单的生成器来生成1000万条消息。publicstaticfinalStringTEST_SCHEMA="{"+"\"type\":\"record\","+"\"name\":\"myrecord\","+"\"fields\":["+"{\"name\":\"str1\",\"type\":\"string\"},"+"{\"name\":\"str2\",\"type\":\"string\"},"+"{\"name\":\"int1\",\"type\":\"int\"}"+"]}";publi

hadoop - 如何更改 pyspark 中的 hdfs block 大小?

我使用pySpark编写parquet文件。我想更改该文件的hdfsblock大小。我这样设置block大小,但它不起作用:sc._jsc.hadoopConfiguration().set("dfs.block.size","128m")这是否必须在启动pySpark作业之前设置?如果可以,怎么做。 最佳答案 尝试通过sc._jsc.hadoopConfiguration()和SparkContext设置它frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMas

hadoop - hdfs将如何选择要删除的副本?

假设:我有一个hadoop集群,其中每个数据幻灯片都设置为有3个副本。有一天,一个datanode被拔掉(假设里面存储的数据没问题),然后hdfs会为这个节点存储的数据生成新的副本,这样dataslide仍然有3个副本。但是如果第二天再插上datanode,有些dataslide有4个副本,那么hdfs就得删除4个副本中的1个。我的问题是hdfs如何选择要删除的那个?随机?或者只删除最新的(这意味着数据节点将被清除)? 最佳答案 Question:ButifDatanodeisrepairedandstartstoworkagain

hadoop - 如何删除上个月的 hdfs 文件?

我想删除上个月的hdfs文件。删除到垃圾箱或永久删除都没关系。也许正则表达式可以提供帮助? 最佳答案 我找到了一个使用正则表达式帮助我解决这个问题的答案:hadoopfs-rm-R-skipTrash/folderA/folderB/[0-9][0-9]82016*这样我将删除2016年8月以来的所有文件夹及其内容。没有-R我将跳过递归删除。-skipTrash将永久删除文件。 关于hadoop-如何删除上个月的hdfs文件?,我们在StackOverflow上找到一个类似的问题:

mysql - 如何将存储过程导入HDFS

有没有办法将mysql存储过程导入HDFS?我已经看到关于相同的导出linksqoopexport--connectjdbc:mysql://db.example.com/foo--callbarproc\--export-dir/results/bar_data但是当我使用--call和我的import语句时它不起作用sqoop-import--connectjdbc:mysql://localhost:3306/storedProc--calltabl_Proc--usernameroot--passwordpass--target-dirhdfs://:8020/procedur

hadoop - HDFS 以外的文件系统是否支持 Hadoop 序列文件

除HDFS外,其他文件系统是否支持序列文件格式?我特别感兴趣的是序列文件格式是否可以用于合并和存储文件系统上的小文件,例如HFS+或NTFS。非常感谢任何帮助。 最佳答案 序列文件在任何方面都不限于HDFS。您可以将SequenceFiles与任何通用文件系统一起使用,包括NTFS和HFS+。与其他二进制文件相比,它们在这方面没有任何特殊之处。 关于hadoop-HDFS以外的文件系统是否支持Hadoop序列文件,我们在StackOverflow上找到一个类似的问题:

hadoop wordcount并将文件上传到hdfs

大家好,我是hadoop的新手,我以伪模式安装hadoop。配置文件在这里核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/datanode并且成功启动datanode和namenodeNowiwanttoputmyfileintohdfsbyusingfollowi

hadoop - 如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群

我必须将一些HDFS文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后,我必须测试对HDFS文件的一些操作。需要具有不同日期的文件才能在开发中对其进行测试。我试着用DISTCP做,修改时间正在更新当前时间。我使用在这里找到的许多参数检查了Distcpdistcpversion2guide有没有其他方法可以在不改变修改时间的情况下获取文件?或者我可以在将文件放入hdfs后手动更改修改时间吗?提前致谢 最佳答案 在hadoopdistcp命令中使用-pt标志。这将p保留distcp文件的timestamp(修改时间)。