hdfs

java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件

我的问题类似于一个已经回答过的问题，该问题在scala中用于读取文件。ReadingfilesdynamicallyfromHDFSfromwithinsparktransformationfunctions我知道累加器使用它们将结果返回给驱动程序并写入驱动程序中的HDFS。在我们的用例中，每个执行程序的输出都很大，所以我正在寻找一种在Java转换中写入HDFS的方法。谢谢! 最佳答案终于找到了一个优雅的方式来实现这一目标。为hadoop配置创建一个广播变量Configurationconfiguration=JavaSparkC

hadoop - 尝试将 Windows pentaho 连接到虚拟机 HDFS 时出错

我是pentaho和大数据的新手......每次我尝试将我的windowspentaho连接到我的基于Linux的虚拟机HDFS..弹出这个错误..我已经尝试了几个解决方案但是没有他们运气好……如果你们中的任何人能提出解决方案，我将不胜感激……提前致谢...!!连接到数据库时出错[hadoop]:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错连接到数据库时出错:(使用类org.apache.hadoop.hive.jdbc.HiveDriver)没有找到适合jdbc的驱动:hive://(虚拟机的ip地址

时出 Windows section 配置单 hadoop pentaho-data-integration

hadoop - HDFS 不复制 block

我最近安装了Hadoop(Cloudera)。我得到一个错误，我在复制block下(在ClouderaManager中，它是安装的gui)。所以当我跑的时候hdfsdfsadmin-report我明白了ConfiguredCapacity:555730632704(517.56GB)PresentCapacity:524592504832(488.56GB)DFSRemaining:524592193536(488.56GB)DFSUsed:311296(304KB)DFSUsed%:0.00%Underreplicatedblocks:5Blockswithcorruptreplic

不复 hadoop section block 新集 hdfs cloudera-cdh

python - 尝试从 Spyder 加载 HDFS 文件时连接被拒绝

我在名为Spyder的PythonIDE中使用ApacheSPARK和Python(pyspark)。我正在尝试像这样从HDFS加载文件:hdfs_file=sc.textFile(hdfs_path)我确保路径正确并且文件存在，但是当我执行命令时我得到下一个错误行:Py4JJavaError:Anerroroccurredwhilecallingo24.partitions.:java.net.ConnectException:CallFromXXXX.local/127.0.0.1tolocalhost:9000failedonconnectionexception:java.ne

python Spyder section ConnectException code hadoop apache-spark hdfs

hadoop - 如何更改 Hadoop HDFS 在本地存储文件

我找到了问题WhereHDFSstoresfileslocallybydefault?.我的HDFS将数据存储在/tmp/文件夹中，该文件夹被系统删除。我想更改HDFS在本地存储文件的位置。我正在查看hdfs-default.xml但找不到dfs.data.dir运行bin/hadoop版本Hadoop2.8.2Subversionhttps://git-wip-us.apache.org/repos/asf/hadoop.git-r66c47f2a01ad9637879e95f80c41f798373828fbCompiledbyjduon2017-10-19T20:39ZCompi

hadoop code gt hdfs

hadoop - Apache Drill Query 数据恢复在 HDFS 系统上不是常量

我在我的项目中使用ApacheDrill和HDFS。我正在处理v.big文件(例如150GB)并且该文件存储在HDFS系统中。我正在编写我的Drill查询，这样我将获得一定数量的数据，我将处理这些数据(例如100行)，然后再次对该文件触发查询，这样我的性能就会提高。(例如SELECT*FROMdfs.文件路径LIMIT100)但是每次当我对HDFS系统中的那个文件执行查询时，我都没有得到一致的数据。它每次都会更改，因为Hadoop将从任何集群中获取该数据。因此，在获取所有记录的整个过程中，我可能会得到与我已经拥有的相同的记录。最佳答案

hadoop Apache section code stackoverflow hdfs apache-drill

hadoop - hive/hdfs 移动数据未按预期工作

我在配置单元中有一个名为测试的表，位于'hdfs://location1/partition='x''并将所有数据移动到'hdfs://location2/partition='x''。hdfsdfs-mv/location1/location2然后我做了altertabletestsetlocation'hdfs://location2'.在做hdfsdfs-ls/location2我在正确的分区中看到了所有数据查询以获取计数，即selectcount(*)fromtest工作正常。但是做select*fromtest不提取任何记录。无法确定移动时出了什么问题。

hadoop hive code location section hdfs partitioning

excel - 来自 Excel Power Query 的 HDFS 连接

拥有一台运行Hadoop实例的服务器。基本上，我想通过本地计算机上的Excel连接到一些HDFS表。我知道PowerQuery插件有助于处理该操作并提供与HDFS建立连接的机会。但事情是这样的——我有Excel2016，所以根据Microsoft文档，PowerQuery已经内置在Excel中。但是当我尝试执行“数据-从其他来源获取数据”时，根本没有“从Hadoop文件(HDFS)获取数据”之类的选项我做错了什么，我需要采取哪些具体步骤才能从Excel访问HDFS？最佳答案对我来说，HDFS显示在这里:但不是这里:第一个“来自其

excel section HDFS hadoop ms-office powerquery

java - 如何以编程方式写入 HDFS？

因此，经过36小时的试验之后，我终于设法启动并运行了一个集群，但现在我很困惑如何使用Java向其写入文件？一个教程说应该使用这个程序，但我完全不理解它，它也不起作用。publicclassFileWriteToHDFS{publicstaticvoidmain(String[]args)throwsException{//SourcefileinthelocalfilesystemStringlocalSrc=args[0];//DestinationfileinHDFSStringdst=args[1];//Inputstreamforthefileinlocalfilesystem

何以 java code section file hadoop hdfs

java - 失败 : ParseException line 1:94 mismatched input 'hdfs' expecting StringLiteral near 'location' in partition location

Java代码:Stringcmd0="hive-e\"use"+hiveuser+";sethive.exec.compress.output=true;setmapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;setmapreduce.job.queuename="+queue+";altertable"+"resident_tmp"+"addifnotexistspartition(weekday='"+"weekday=20170807"+"')location"+location+"\"";C

amp location hive java apache mysql hadoop

158 159 160161162 163 164