hdfs

以奇怪的格式导出/复制到 HDFS 的 CSV 数据

我正在使用spark作业从声明区域读取csv文件数据，并使用以下代码行将该数据复制到HDFS中:valconf=newSparkConf().setAppName("WCRemoteReadHDFSWrite").set("spark.hadoop.validateOutputSpecs","true");valsc=newSparkContext(conf)valrdd=sc.textFile(source)rdd.saveAsTextFile(destination)csv文件包含以下格式的数据:CTId,C3UID,region,product,KeyWord1,10046341

java - NoSuchMethodError : org. apache.hadoop.io.retry.RetryUtils.getDefaultRetryPolicy

以前我在单节点集群上通过java在hdfs中创建目录，它运行得很顺利，但是一旦我创建了多节点集群，我就得到了这个错误我得到的堆栈跟踪看起来像这样Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.io.retry.RetryUtils.getDefaultRetryPolicy(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/String;ZLjava/lang/String;Ljava/lang/String;Ljava/lang/Class;)Lo

getDefaultRetryPolicy NoSuchMethodError hadoop apache FileSystem java hdfs

java - 如何在 HDFS API 中指定本地文件系统？

我想通过HDFSAPI访问本地文件系统。我有以下内容:Stringfilename;//...Pathp=newPath(filename);p.getFileSystem(newConfiguration()).create(p);问题是我在同一台机器上有HDFS节点，当我调用p.getFileSystem(newConfiguration()).create(p);它会尝试创建一个HDFS文件，而不是一个本地文件。有没有办法通过p.getFileSystem(newConfiguration()).create(p)访问local文件系统？最佳答案

定本中指 section code Configuration java hadoop hdfs

hadoop - 在 hdfs 中写入大于 block 大小的文件

如果我试图将200MB的文件写入HDFS，其中HDFSblock大小为128MB。如果写入200MB中的150MB后写入失败，会发生什么情况。我可以从写入的数据部分读取数据吗？如果我尝试再次写入同一个文件怎么办？那会是重复的吗？之前写入失败的150MB数据会怎样？最佳答案 HDFS默认block大小为128MB，如果写入失败(将在HadoopAdministrationUI中显示状态，并复制文件扩展名。)只会复制150MB的数据。是的，您只能读取部分数据(150MB)。一旦您恢复复制，它将从之前的点继续(如果两个路径相同且文件名相

hadoop block section li MB hdfs

hadoop - 如何直接从网页下载文件，不使用本地，直接将文件放在HDFS中？

我需要一些帮助。我正在使用python代码从网页下载文件并将其放置在本地文件系统中，然后使用put命令将其传输到HDFS，然后对其执行操作。但在某些情况下，文件可能会非常大，下载到本地文件系统并不是一个正确的过程。所以我希望文件直接下载到HDFS中，而不使用本地文件系统。任何人都可以建议我一些方法，哪一种是最好的方法？如果我的问题有任何错误，请指正。最佳答案您可以直接从下载中传输它以避免将其写入磁盘，例如:curlserver.com/my/file|hdfsdfs-put-destination/file-put的-参数告诉它

hadoop HDFS section code hadoop2 hadoop-streaming

hadoop - Hbase 有自己的复制策略还是继承自 HDFS？

由于HBase是建立在HDFS之上的，它具有容错的复制策略，这是否意味着HBase是天生的容错和由于底层的HDFS，存储在HBase中的数据将始终可以访问？或者HBase是否实现了自己的复制策略(例如跨区域的表复制)？最佳答案是的，您可以在Hbase中创建区域副本，如前所述here.但是请注意，HBase高可用性是只读的。它的写入可用性不高。如果区域服务器出现故障，那么在将区域分配给新的区域服务器之前，您将无法写入。要启用只读副本，您需要通过将hbase.region.replica.replication.enabled设置为

hadoop Hbase code section hdfs

hadoop - 使用 Flume 将数据从 kafka 提取到 HDFS::ConfigurationException:必须指定引导服务器

我正在尝试使用水槽将数据从kafka源提取到hdfs。下面是我的水槽配置文件。flume1.sources=kafka-source-1flume1.channels=hdfs-channel-1flume1.sinks=hdfs-sink-1flume1.sources.kafka-source-1.type=org.apache.flume.source.kafka.KafkaSourceflume1.sources.kafka-source-1.bootstrap.servers=localhost:9092flume1.sources.kafka-source-1.zookee

ConfigurationException hadoop flume flume1 hdfs apache-kafka flume-ng

hadoop - 无法从 Apache Nifi 连接到 Docker 中的 Hadoop

我正在尝试运行以下ApacheNifi流程并将数据从Kafka放入HDFS:我在跑ConfluentKafka我的Hadoop实例是Cloudera快速入门。Cloudera快速入门dockerrun--hostname=quickstart.cloudera--privileged=true-t-i-p8888:8888-p7180:7180-p80:80-p50070:50070-p8020:8020-p50010:50010-p50020:50020-p50075:50075-p50475:50475-p50090:50090-p50495:50495-v$(pwd):/home

hadoop Apache gt lt property apache-kafka hdfs apache-nifi

hadoop - 如何修复 "File could only be replicated to 0 nodes instead of minReplication (=1)."？

Iaskedasimilarquestionawhileago，并认为我解决了这个问题，但事实证明它消失了只是因为我正在处理一个较小的数据集。很多人问过这个问题，我已经遍历了所有我能找到的互联网帖子，但仍然没有取得任何进展。我想做的是:我在配置单元中有一个外部表browserdata，它引用了大约1GB的数据。我尝试将该数据粘贴到分区表partbrowserdata中，其定义如下:CREATEEXTERNALTABLEIFNOTEXISTSpartbrowserdata(BidIDstring,Timestamp_string,iPinYouIDstring,UserAgentstri

minReplication replicated apache hadoop code hive hdfs hadoop-yarn cloudera

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如，我正在使用以下代码将数据写入hdfs，valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构，path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark，有没有办法将所有

String scala country state path apache-spark hadoop hdfs

75 76 777879 80 81