草庐IT

target_sources

全部标签

hadoop - 使用 cloudera quickstart 的 Flume Avro Sink Source

是否可以在Cloudera-Quickstart-CDH-VM中使用AvroSink/Source设置FlumeClient-Collector-Structure?我知道没有实际用途,但是我想了解Flume如何与Avro文件一起使用以及我以后如何将它们与PIG等一起使用。它尝试了几种配置,但没有一种有效。对我来说,我似乎需要多个代理,但虚拟机中只能有一个。我最后尝试的是:agent.sources=readeravro-collection-sourceagent.channels=memoryChannelmemoryChannel2agent.sinks=avro-forward

hadoop - 水槽 :Exec source cat command is not writing on HDFS

我正在尝试使用Flume-ng将数据写入Hdfs作为exec源。但它总是以退出代码127结束。它还显示类似警告无法从VM获取maxDirectMemory:NoSuchMethodException:sun.misc.VM.maxDirectMemory(null)。这是exec.conf文件execAgent.sources=eexecAgent.channels=memchannelexecAgent.sinks=HDFSexecAgent.sources.e.type=org.apache.flume.source.ExecSourceexecAgent.sources.e.ch

java - Hadoop 映射 : attach sources howto

我使用:org.apache.avroavro-mapred1.7.4hadoop2问题:如何将源附加到该类? 最佳答案 你可以添加另一个依赖,使用sourcesclassiferorg.apache.avroavro-mapred1.7.4jarsources参见therepo.您还可以获得javadoc。 关于java-Hadoop映射:attachsourceshowto,我们在StackOverflow上找到一个类似的问题: https://stack

java - Hadoop-级联: Partial directory source tap

我的数据结构如下:+data|-2014080700_00.txt|-2014080700_01.txt|-2014080701_00.txt|-...|-2014080723_00.txt|-2014080800_00.txt|-...|-2014090800_00.txt我知道我可以通过Tap使用数据目录中的所有文件,如下所示:TapinTap=newHfs(newTextLine(),"/path/to/data");但我想要目录的特定部分,例如日期为20140807的文件。因此它将包括所有前缀为20140807的文件。有没有办法用级联来做到这一点?或者有什么方法可以烫一下吗?

hadoop - Sqoop增量导入 "Cannot append files to target dir"

我在使用Sqoop将数据从MySQL导入Hive时遇到问题...这个查询:sqoopimport--connectjdbc:mysql://xx.xx.xx.xx/database\--usernamesqoop--passwordsqoop--tabledatatable\--target-dir/home/cloudera/user/hive/warehouse/database.db/datatable\--as-parquetfile-m1--append返回这个错误:15/01/1416:27:28WARNutil.AppendUtils:Cannotappendfilest

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时,内部发生了什么?例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输,Sqoop需要找到--sp

hadoop - 错误配置单元(使用 Derby): Source tables cannot be empty

我刚开始使用Hive,遇到一个错误需要您的帮助。在等待一段时间后,当我尝试创建一个新数据库时,它发生了:hive>CREATEDATABASETest;(编辑:我对“SHOWTABLES”有同样的看法)我明白了:Exceptioninthread"main"java.lang.AssertionError:Sourcetablescannotbeemptyatorg.apache.hadoop.hive.ql.hooks.EnforceReadOnlyTables.(EnforceReadOnlyTables.java:46)atjava.lang.Class.forName0(Nat

linux - 异常(exception)如下。 org.apache.flume.FlumeException : Unable to load source type in flume twitter analysis 异常

我正在尝试使用Flume和Hive进行Twitter分析。为了从twitter获取推文,我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent

linux - 乌兹 : Sqoop dynamic target directory

我正在执行Oozie工作流中的sqoop作业。我可以在sqoop命令中创建具有静态名称的目标目录,如下所示。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target-dir/user/test/Employee/20150126我需要创建带有日期的动态目标目录。我试过跟随,但没有用。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容,因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常,但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索,但找不到任何解决方案。请帮忙 最佳答案