草庐IT

mongodb-org

全部标签

java - Amazon EMR 中的 org.apache.hadoop.mapred.FileAlreadyExistsException

我正在尝试在AmazonEMR中运行WordCount程序,但我收到错误消息:Exceptioninthread"main"org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectorys3://mywordcountbuckett/run0alreadyexistsatorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)atorg.apache.hadoop.mapre

java.lang.NoSuchMethodError : org. apache.hadoop.tracing.TraceUtils.wrapHadoopConf 错误

我正在尝试执行此中可用的MapReduce单元测试link我正在运行BasicMRTest.java我的POM.xml是4.0.0cooltooltool1.0.0-SNAPSHOTclouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.hadoophadoop-mapreduce-client-core2.7.2jarprovidedorg.apache.hadoophadoop-common2.7.2org.apache.hadoophadoop-test2.6.0-mr1-cdh5

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”,如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手,我将spark2.1.0与python2.7一起使用,但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案,但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

hadoop - 错误 1070 : Could not resolve toDate using imports: [, java.lang., > org.apache.pig.builtin., org.apache.pig.impl.builtin.]

使用pig将数据转换为日期时间时出现问题。导入以下数据集,制表符分隔,我添加了\t来说明。5000001\t1133938\t1273719\t2008-06-0100:03:35.0我想获取最后一个值(2008-06-0100:03:35.0)并提取月份。将其加载为DateTime会生成一个空白字段。因此,我想将其导入为字符数组,然后使用toDate将其转换为我可以在其上使用getMonth的日期时间字段。当我在shell中尝试时,我得到了这个:grunt>orders=load'/home/cloudera/Desktop/orders1'usingPigStorage('\t')

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.IntWritable

我正在尝试在java中运行一个mapreducer,以获取一个逗号分隔的文件,该文件包含有关坠机的AIRLINE的数据。数据包含以下列,还提供了示例数据:passengerid,survived(s=0,d=1),pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked1,0,3,"BraundMr.OwenHarris",male,22,1,0,A/521171,7.25,,S,2,1,1,"CumingsMrs.JohnBradley(FlorenceBriggsThayer)",female,38,1,0,PC17599

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象,如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

azure - 尼菲 java.lang.NoSuchMethodError : org. apache.hadoop.conf.Configuration.reloadExistingConfigurations

我正在点击此链接以设置NifiputHDFS以写入AzureDataLake。ConnectingtoAzureDataLakefromaNiFidataflowNifi在HDF3.1VM中,Nifi版本为1.5。我们从一个HDInsight(v3.6,whichsupportshadoop2.7)headnode得到了上面链接中提到的jar文件,这些jar文件是:adls2-oauth2-token-provider-1.0.jarazure-data-lake-store-sdk-2.1.4.jarhadoop-azure-datalake.jarjackson-core-2.2.

javascript - MongoDB mapReduce 每分钟文档计数由附加类别字段分隔

我有一个具有以下架构的MongoDB集合:constMessageSchema={message:{type:String},category:{typeString,allowedValues:['a','b','c','d','e']},createdAt:{type:Date}}这些消息文档是在随机时间间隔创建的。我想创建一个图表所需的数据集,该图表绘制每个类别的每分钟消息数(计数)。输出将是一个包含键time、a.count、b.count、c.count、d.count和e.count的对象数组。生成的数据集应仅考虑上周的数据,而不是更早的数据。数据集可能非常大。我想我可以用