草庐IT

storage_path

全部标签

java - Hive StorageHandler 抛出异常 "Configuration and input path are inconsistent"

我有一个HiveStorageHandler如果我执行select*frommyTable它会返回底层存储中的所有行。当我执行类似selectcol1frommyTable的操作时,底层mapreduce作业会抛出异常:java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)atorg.apache.hadoop.util.ReflectionUtils.setConf(Reflectio

java - 如何处理 URISyntaxException : Illegal character in path in Hadoop Map Reduce job?

我正在使用Hadoop学习Map-reduce,我正在运行这个命令:hadoopjar/usr/lib/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar-mappermapper.py-reducerreducer.py-filemapper.py-filereducer.py-输入sales_data-输出salesout我包括了我得到的完整错误输出:16/04/1500:39:26WARNstreaming.StreamJob:-fileoptionisdeprecated,pleaseusegenericoption

hadoop - Flume 与 SLF4J : Class path contains multiple SLF4J bindings 冲突 hadoop

每次启动Flume时,我都会在Flume、Hive和Hadoop之间收到此消息。避免这种情况的最佳方法是什么?我正在考虑从flumelib目录中删除一个jar,但不确定这是否会影响其他(hive、hadoop)。Info:Sourcingenvironmentconfigurationscript/usr/local/flume/conf/flume-env.shInfo:IncludingHadooplibrariesfoundvia(/usr/local/hadoop/bin/hadoop)forHDFSaccess+exec/usr/java/jdk1.7.0_79/bin/ja

sql - SQOOP - 导入失败 : Can not create a Path from a null string

我正在使用SQOOP增量更新将表从SQL服务器加载到HBase表。但是SQL表中的空值不会导入到HBase中。我知道Hbase不支持空值,并且包含空值的字段不会出现在Hbase中。但我担心的是,当某个特定列对大多数记录具有空值时,即使该字段中存在某些记录的值,也会被跳过。以下是SQL表结构CREATETABLE[dbo].[user_test]([user_id][nvarchar](20)NOTNULL,[user_name][nvarchar](100)NULL,[password][varchar](128)NULL,[created_date][datetime2](7)NUL

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表),但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?

我有兴趣在HTML解析任务上试用GoogleCloudDataproc。我们目前在谷歌存储中有很多(200M+)小的HTML文件。我们希望能够将所有这些文件提取到Hadoop(MapReduce或Spark)中进行处理。但是,我的理解是Dataproc在列出和读取大量小文件时性能会很差,而且Hadoop通常也是如此。所以我的问题是,我应该如何将大量小文件打包成更大的文件,以便能够高效地列出和读取?我考虑过像TAR/ZIP这样的标准东西,但我的理解是这些东西是不可分割的,因此并发性是有限的。是否有其他推荐的格式用于此类内容?我考虑过使用avro,并且只是将HTML存储为avro记录中的字

java - Hadoop 错误 : Could not find or load main class class path TestJava

我是Hadoop的新手,正在阅读Hadoop:权威指南这本书。我在我的mac上安装了Hadoop,它似乎运行良好。我已经在HDFS(/user/nick)中设置了一个基本的文件系统。但是我无法按照第3章(第56页)中的要求使用“hadoop”命令来执行类文件。它似乎不是文件,因为“hadoop”命令甚至不会打开java命令可以正常工作的简单文件。这是我的终端对于简单文件的样子:Unix~/Desktop$javaTestJava你好测试世界Unix~/Desktop$hadoopTestJava错误:无法找到或加载主类TestJava我尝试过的所有其他hadoop命令都可以正常工作(h

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori

hadoop - Hive INSERT OVERWRITE 到 Google Storage 作为 LOCAL DIRECTORY 不起作用

我使用以下Hive查询:hive>INSERTOVERWRITELOCALDIRECTORY"gs://Google/Storage/Directory/Path/Name"rowformatdelimitedfieldsterminatedby','select*from.;我收到以下错误:"Error:FailedwithexceptionWrongFS:"gs://Google/Storage/Directory/PathName",expected:file:///我做错了什么? 最佳答案 从语法中删除Local。参见下面的

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业,它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹),并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.