df_source

eclipse - Hadoop 2 : Setting up Hadoop 2 code in eclipse to modify source code and run/test?

我想获取最新版本的Hadoop(YARN/Hadoop2)并通过更改一些底层代码来试用它。我想知道是否有人可以提供有关在eclipse上设置这样一个Hadoop开发环境的分步指南，我可以在其中更改代码、编译它然后在我的本地机器上安装/测试它？我是Hadoop方面的新手，我确实设法在网上找到了一些指南，但它们之间似乎非常不同，我不知道我应该遵循哪一个以及为什么等等，所以任何提示或资源将不胜感激。谢谢最佳答案看看你是否觉得这有用，我已将其添加为书签http://wiki.apache.org/hadoop/EclipseEnviro

hadoop - 使用 cloudera quickstart 的 Flume Avro Sink Source

是否可以在Cloudera-Quickstart-CDH-VM中使用AvroSink/Source设置FlumeClient-Collector-Structure？我知道没有实际用途，但是我想了解Flume如何与Avro文件一起使用以及我以后如何将它们与PIG等一起使用。它尝试了几种配置，但没有一种有效。对我来说，我似乎需要多个代理，但虚拟机中只能有一个。我最后尝试的是:agent.sources=readeravro-collection-sourceagent.channels=memoryChannelmemoryChannel2agent.sinks=avro-forward

quickstart cloudera dataplatform channel channels hadoop flume avro cloudera-cdh flume-ng

hadoop - 水槽 :Exec source cat command is not writing on HDFS

我正在尝试使用Flume-ng将数据写入Hdfs作为exec源。但它总是以退出代码127结束。它还显示类似警告无法从VM获取maxDirectMemory:NoSuchMethodException:sun.misc.VM.maxDirectMemory(null)。这是exec.conf文件execAgent.sources=eexecAgent.channels=memchannelexecAgent.sinks=HDFSexecAgent.sources.e.type=org.apache.flume.source.ExecSourceexecAgent.sources.e.ch

水槽 command INFO execAgent file hadoop flume flume-ng

scala - `saveAsTable` 之后无法从 Hive 查询 Spark DF - Spark SQL 特定格式，与 Hive 不兼容

我正在尝试将数据框另存为外部表，它将使用spark和可能使用hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它适用于spark。重现问题的方法如下:scala>println(spark.conf.get("spark.sql.catalogImplementation"))hivescala>spark.conf.set("hive.exec.dynamic.partition","true")scala>spark.conf.set("hive.exec.dynamic.partition.mode","nonstrict")scala>spark.conf.s

Spark Hive 34 scala apache-spark hadoop apache-spark-sql

java - Hadoop 映射 : attach sources howto

我使用:org.apache.avroavro-mapred1.7.4hadoop2问题:如何将源附加到该类？最佳答案你可以添加另一个依赖，使用sourcesclassiferorg.apache.avroavro-mapred1.7.4jarsources参见therepo.您还可以获得javadoc。关于java-Hadoop映射:attachsourceshowto，我们在StackOverflow上找到一个类似的问题： https://stack

sources Hadoop section lt gt java maven

linux - Azure df 中的磁盘空间和使用情况显示已满但 du 没有添加

我有一个安装了四个外部磁盘的azure虚拟机。df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda129G28G0100%/none4.0K04.0K0%/sys/fs/cgroupudev1.7G12K1.7G1%/devtmpfs345M460K344M1%/runnone5.0M05.0M0%/run/locknone1.7G01.7G0%/run/shmnone100M0100M0%/run/usernone64K064K0%/etc/network/interfaces.dynamic.d/dev/sdb1133G31G96G25%

linux Azure root var code hadoop

java - Hadoop-级联: Partial directory source tap

我的数据结构如下:+data|-2014080700_00.txt|-2014080700_01.txt|-2014080701_00.txt|-...|-2014080723_00.txt|-2014080800_00.txt|-...|-2014090800_00.txt我知道我可以通过Tap使用数据目录中的所有文件，如下所示:TapinTap=newHfs(newTextLine(),"/path/to/data");但我想要目录的特定部分，例如日期为20140807的文件。因此它将包括所有前缀为20140807的文件。有没有办法用级联来做到这一点？或者有什么方法可以烫一下吗？

directory Partial code section cascading java hadoop scalding

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况)，我遇到了这个异常。它不应该发生，因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案如评论中所述。当文件位于驱动程序节点上，但节点无法访问时，读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read)，所有执行程序节点都

LeaseExpiredException namenode section noreferrer https hadoop apache-spark apache-spark-sql parquet

hadoop - 错误配置单元(使用 Derby): Source tables cannot be empty

我刚开始使用Hive，遇到一个错误需要您的帮助。在等待一段时间后，当我尝试创建一个新数据库时，它发生了:hive>CREATEDATABASETest;(编辑:我对“SHOWTABLES”有同样的看法)我明白了:Exceptioninthread"main"java.lang.AssertionError:Sourcetablescannotbeemptyatorg.apache.hadoop.hive.ql.hooks.EnforceReadOnlyTables.(EnforceReadOnlyTables.java:46)atjava.lang.Class.forName0(Nat

配置单 hadoop gt lt property configuration hive derby

scala - 从spark中的json模式动态生成df.select语句

我正在从宽字符串中选择列，其偏移量如下所示df2=df.select(substring(col("a"),4,6).as("c")).cast(IntegerType)但是我必须从字符串中提取1000列，如果我可以提供诸如列名、数据类型、宽度、起始位置和结束位置等详细信息，那么如何使用jsonsparkstruct模式生成select语句。另外，我不得不将一些列转换为intergertype或longtype，但是我观察到这些字段被像111111111将在转换为integertype时转换为1 最佳答案如果可以使用configf

select scala section 列名 apache-spark hadoop bigdata

51 52 535455 56 57