草庐IT

hadoop - HDFS上非结构化数据行的数据存储格式

我们正在消耗非常大的数据,需要尽可能快地写入,我们正在使用HDFS,因此我们更喜欢使用它。数据几乎是非结构化的,我们很少对它们进行基本查询。数据是扁平的,有一些字段,每一行代表另一个数据。key1=strkey2=30.3key3=longtexthere另一个数据行:key1=3key5=abcSequenceFile似乎是最自然的,但我找不到如何在单个SequenceFile中存储多行。目前,在我们的临时解决方案中,我们有多个编写器写入多个文本文件。所以当需要查询的时候,我们并行读取它们。然而,当前的文本文件包含1000行,我认为为每一行创建一个单独的SequenceFile是不可

python - HDFS IO 故障 "path is not a file"

我最近在hadoop上将我的h2o从3.6.0.8更新到3.10.0.9,并且我正在使用pythonapi。以前(使用3.6)我使用以下命令加载我保存的模型:model_to_load=h2o.load_model('hdfs://nameservice1/path/to/model/model_directory')我现在使用相同的命令(在3.10中)并得到以下错误:java.io.FileNotFoundException:Pathisnotafile:/path/to/model/model_directory我尝试降级回3.6.0.8,它工作正常,就像以前一样。在目录中,每棵树

hadoop - 使用命令行将 csv 文件放入 HDFS

我正在使用命令行使用以下命令将csv文件从本地系统放入HDFS系统:C:\Hadoop\hadoop-2.7.3\bin>hdfsdfs-putc:\hdfs\stock.csv/user/XYZ我得到的输出错误是:Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)Vatorg.apache.hadoop.util.NativeCrc

hadoop - HDFS - 名称节点未启动

有没有人遇到过这种情况。我正在尝试通过Ambari仪表板重新启动名称节点。2016-11-2719:24:09,588ERRORnamenode.NameNode(NameNode.java:main(1712))-Failedtostartnamenode.java.io.IOException:Multiplesharededitsdirectoriesarenotyetsupportedatorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.getNamespaceEditsDirs(FSNamesystem.java:1429

hadoop - Confluent HDFS 连接器正在丢失消息

社区,您能帮我理解为什么~3%的消息没有在HDFS中结束吗?我用JAVA编写了一个简单的生成器来生成1000万条消息。publicstaticfinalStringTEST_SCHEMA="{"+"\"type\":\"record\","+"\"name\":\"myrecord\","+"\"fields\":["+"{\"name\":\"str1\",\"type\":\"string\"},"+"{\"name\":\"str2\",\"type\":\"string\"},"+"{\"name\":\"int1\",\"type\":\"int\"}"+"]}";publi

hadoop - 如何更改 pyspark 中的 hdfs block 大小?

我使用pySpark编写parquet文件。我想更改该文件的hdfsblock大小。我这样设置block大小,但它不起作用:sc._jsc.hadoopConfiguration().set("dfs.block.size","128m")这是否必须在启动pySpark作业之前设置?如果可以,怎么做。 最佳答案 尝试通过sc._jsc.hadoopConfiguration()和SparkContext设置它frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMas

hadoop - hdfs将如何选择要删除的副本?

假设:我有一个hadoop集群,其中每个数据幻灯片都设置为有3个副本。有一天,一个datanode被拔掉(假设里面存储的数据没问题),然后hdfs会为这个节点存储的数据生成新的副本,这样dataslide仍然有3个副本。但是如果第二天再插上datanode,有些dataslide有4个副本,那么hdfs就得删除4个副本中的1个。我的问题是hdfs如何选择要删除的那个?随机?或者只删除最新的(这意味着数据节点将被清除)? 最佳答案 Question:ButifDatanodeisrepairedandstartstoworkagain

hadoop - 如何删除上个月的 hdfs 文件?

我想删除上个月的hdfs文件。删除到垃圾箱或永久删除都没关系。也许正则表达式可以提供帮助? 最佳答案 我找到了一个使用正则表达式帮助我解决这个问题的答案:hadoopfs-rm-R-skipTrash/folderA/folderB/[0-9][0-9]82016*这样我将删除2016年8月以来的所有文件夹及其内容。没有-R我将跳过递归删除。-skipTrash将永久删除文件。 关于hadoop-如何删除上个月的hdfs文件?,我们在StackOverflow上找到一个类似的问题:

mysql - 如何将存储过程导入HDFS

有没有办法将mysql存储过程导入HDFS?我已经看到关于相同的导出linksqoopexport--connectjdbc:mysql://db.example.com/foo--callbarproc\--export-dir/results/bar_data但是当我使用--call和我的import语句时它不起作用sqoop-import--connectjdbc:mysql://localhost:3306/storedProc--calltabl_Proc--usernameroot--passwordpass--target-dirhdfs://:8020/procedur

hadoop - HDFS 以外的文件系统是否支持 Hadoop 序列文件

除HDFS外,其他文件系统是否支持序列文件格式?我特别感兴趣的是序列文件格式是否可以用于合并和存储文件系统上的小文件,例如HFS+或NTFS。非常感谢任何帮助。 最佳答案 序列文件在任何方面都不限于HDFS。您可以将SequenceFiles与任何通用文件系统一起使用,包括NTFS和HFS+。与其他二进制文件相比,它们在这方面没有任何特殊之处。 关于hadoop-HDFS以外的文件系统是否支持Hadoop序列文件,我们在StackOverflow上找到一个类似的问题: