hdfs_clusters

hadoop - 通过 Java 代码从本地计算机连接 AWS EMR 上的 HDFS

我想了解如何从我的本地机器连接到hdfs(在awsEMR上)我的示例程序publicclassEMRConnection{publicstaticvoidmain(String[]args)throwsIOException,URISyntaxException{Configurationconfig=newConfiguration();FileSystemhdfs=FileSystem.get(newURI("hdfs://***-**-**-***-***.compute-1.amazonaws.com:50070"),config);hdfs.mkdirs(newPath("/

hadoop - 使用 Java API 从 HDFS (Hortonworks Sandbox) 读取文件时出现异常

我在尝试使用JavaAPI从HDFS(HortonworksSandbox)读取文件时遇到问题。以下是我的代码-System.setProperty("hadoop.home.dir","/");URIuri=URI.create("hdfs://localhost:8020/user/maria_dev/test.txt");Pathpath=newPath(uri);Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:8020");conf.set("dfs.client.us

时出 Hortonworks 34 section code hadoop hdfs sandbox java file-read

hadoop - 有没有办法找到谁在过去 60 天内读取了数据，特别是 HDFS 路径？

我想找到HDFS路径的用法我有hdfs路径，有没有办法找到过去60天内读取数据的人？最佳答案没有办法直接用hadoopfsshell来做。我们之前通过了这个，我们所做的是使用https://hadoop.apache.org/docs/r2.6.1/api/org/apache/hadoop/fs/FileSystem.html实现它直接访问此信息。Pathpath=newPath(yourfolder)FileStatusfileStatus=fs.getFileStatus(path);for(FileStatusstat:

别是 hadoop section apache hdfs

hadoop - 仅在 HDFS 文件的一部分上执行 MapReduce 作业

我在HDFS(~20Gb)中有一个大文件，我通常在其上执行MapReduce作业。创建了大约170个映射器。使用的InputFormat是FileInputFormat。现在我想只在文件的一部分(例如，文件的前40Mb)上执行MapReduce作业。有没有简单的方法来执行此操作？感谢您的帮助。最佳答案大家好，最后，我找到了一个解决方案，包括派生FileInputFormat类并覆盖getSplits方法，以便仅获取与HDFS文件的所需部分相对应的拆分.在这个方法中，我调用父类(superclass)来获取由InputFileFo

MapReduce hadoop code section HDFS

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行，使用apachespark没有问题，但是当我使用apachesparkyarncluster运行它时，出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

Cluster Spark apache SparkSubmit java hadoop apache-spark hbase hadoop-yarn

hadoop - Pyspark:将数据帧保存到 hadoop 或 hdfs 而不会溢出内存？

我正在开发一个管道，该管道读取多个配置单元表并将它们解析为一些DenseVectors，以便最终在SparkML中使用。我想进行大量迭代以找到最佳训练参数，包括模型输入和计算资源。据说我正在使用的数据帧介于50-100gb之间，分布在YARN集群上动态数量的执行程序中。每当我尝试保存到parquet或saveAsTable时，我都会收到一系列失败的任务，然后最终完全失败并建议提高spark.yarn.executor.memoryOverhead。每个id都是一行，不超过几kb。feature_df.write.parquet('hdfs:///user/myuser/featured

hadoop Pyspark label section executor apache-spark hive

amazon-web-services - 尝试从本地计算机访问 AWS 上的 HDFS 文件时出现错误

我已经在thistutorial之后在AWSEC2上成功安装了hadoop和spark.我可以从AWS上的spark访问HDFS。但是，当我尝试通过以下方式从本地计算机访问HDFS文件时vallines=sc.textFile("hdfs://namenode_public_DNS:9000/datasets/wikipedia/wikipedia.dat")lines.first()我明白了17/04/1016:35:41WARNBlockReaderFactory:I/Oerrorconstructingremoteblockreader.org.apache.hadoop.net

时出 amazon-web-services section code pre hadoop apache-spark amazon-ec2 hdfs

hadoop - java.net.ConnectException : Connection refused when trying to use hdfs 异常

我在尝试使用hadoophdfs命令时发现一个问题:root@ec2-35-205-125-85:~#hdfsdfs-copyFromLocal~/input/~/input/copyFromLocal:CallFromip-172-32-5-110.us-west-2.compute.internal/172.32.5.110tolocalhost:54310failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/h

ConnectException Connection section code copyFromLocal hadoop configuration hdfs

hadoop - 从 Pyspark 将文件保存在 HDFS 中

我在Hive中有一个空表，我的意思是该表中没有记录。使用这个空表，我在pyspark中创建了一个dataframedf=sqlContext.table("testing.123_test")我已将此数据框注册为中的临时表df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d%H:%M:%S')在这个表中，我有一个名为id的列。现在我想像下面这样查询临时表min_id=sqlContext.sql("selectnvl(min(id),0)asminvalfrommytempTable").co

Pyspark hadoop code 34 pre hdfs spark-dataframe

hadoop - 一些数据节点在清除 HDFS 后仍然显示使用的 block 池

Hadoop版本:2.7.3数据节点:32区block大小:512m复制:3我使用命令清除了HDFS中的所有数据hdfsdfs-rm-r/*清除HDFS集群后，尽管block为零，但很少有数据节点仍显示使用的block池。hdfswebui的截图hdfsfsck/输出结果如下Connectingtonamenodeviahttp://ip-10-0-2-7:50070/fsck?ugi=ubuntu&path=%2FFSCKstartedbyubuntu(auth:SIMPLE)from/10.0.2.7forpath/atTueJul1804:34:19UTC2017Status:H

仍然 hadoop block code section hdfs hadoop2.7.3

193 194 195196197 198 199