草庐IT

test_hive

全部标签

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

hadoop - Sqoop 导入到 HCatalog/Hive - 表不可见

使用Ambari2.2.2.0安装HDP-2.4.2.0-258我必须导入几个SQLServer模式,这些模式应该可以通过Hive、Pig、MR和任何第三方(将来)访问。我决定导入HCatalog。Sqoop提供了导入到Hive或HCatalog的方法,我想如果我导入到HCatalog,同一个表将可以从HiveCLI、MR和Pig访问(请评估我的假设)。问题:如果直接导入到Hive,该表是否可供Pig、MR使用?如果导入到HCatalog,通过Hive访问需要做什么?是否需要在Hive中预先创建表?如果是,在HCatalog中导入的优势是什么,(我可以直接在Hive中导入)/(在HDF

hadoop - Hive Split 函数选择最后一组

我想拆分URL结构并且只对拆分的最后一部分感兴趣。例如www.example.com/subdirect/mainpage.aspxwww.example.com/mainpage4.aspxwww.example.com/subdirect/subdiret/subdirect2/mainpage2.aspx这里我只想要aspx页面而不是之前的东西,即我只想返回下面的文本mainpage.aspxmainpage4.aspxmainpage2.aspx我尝试使用split,但我不确定如何动态地只返回URL结构的最后一部分。有任何想法吗?这是我正在尝试的脚本selectsplit(UR

apache - 我正在使用 Hadoop 2.7.2 安装 Hive 2.0.0

我正在尝试使用Hadoop2.7.2安装Hive2.0.0但是我不知道我的执行有什么问题parallels@ubuntu:/usr/local/apache-hive-2.0.0-bin$./bin/hiveSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Fo

xml - XML 文件的 "Hive Runtime Error while processing row"

我正在尝试读取一个简单的xml文件并从中提取数据。下面是文件来源:b1b2我已经在hive中创建了src表,如下所示:Createtablesrc(linestring);然后我加载了这张表如下:loaddatalocalinpath'/home/hduser/Desktop/batch/hiveip/src'intotablesrc;我正在尝试使用以下查询提取as数据:selectxpath(line,'//@id')fromsrc;DiagnosticMessagesforthisTask:Error:java.lang.RuntimeException:org.apache.ha

r - 来自 Hive UDF/UDAF 的 JRI

我在一些数据节点上安装了R,可以编写Mapreduce作业以通过JRI调用R。接下来,为了通过配置单元查询调用R,我重写了GenericUDAFEvaluator中的终止方法并在那里创建Rengine对象。旧的mapred作业需要我执行-Dmapred.child.env="R_HOME=/usr/lib64/R"才能工作。当我在配置单元中执行此操作(通过setmapred.child.env="R_HOME=/usr/lib64/R";)然后运行查询时,作业在设置时失败。更一般地说,这是从hive成功的:selectcount(*)fromsome_tablelimit10;但这失败

hadoop - 为什么 Hive "create external table"在 S3 上将数据存储在子文件夹 "-ext-10000"下?

下面的Hive代码突然开始在一个额外的子文件夹下存储数据;DROPTABLEIFEXISTSfolder_test;CREATEEXTERNALTABLEIFNOTEXISTSfolder_test(col1STRING,col2INT,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY","LOCATION's3n://bucket_name/folder_name';insertoverwritetablefolder_testselectcol1,col2,col3fromdata_tablelimit10;因此,数据不是存储在“s3n://

Hadoop 和 Hive 中的 Hadoop LZO 和 SnappyCodec 错误

我正在使用Ubuntu-12.04,Hadoop-1.0.2,Hive-0.10.0从hive中读取大约100万条记录的数据时出现以下查询错误select*fromraw_poslimit10000;WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable所以我在$HADOOP_HOME/lib文件夹中安装了SnappyforHadoop,它生成文件libsnappy.a、libsnappy.la、libsnapp

hadoop - Oozie 3.1.3 中的 Hive Action

我是Hive和Oozie的新手。我正在尝试通过Oozie运行Hive脚本。这是我得到的错误。Error:E0701:E0701:XMLschemaerror,cvc-complex-type.2.4.c:Thematchingwildcardisstrict,butnodeclarationcanbefoundforelement'hive'.这是我的workflow.xml:${jobTracker}${nameNode}mapred.job.queue.namedefaultoozie.hive.defaults/home/hduser/hive/conf/hive-site.xm

java - hive JDBC ThriftHive$Client.sendBase

我在Hadoop/hive上工作。我已经安装了hadoop和hive,它们在命令提示符下运行良好。我还创建了hive的MySQL元存储。我在hive-site.xml文件中定义了HIVE-DB数据库名称。同名数据库在MySQL中可用>HIVE-DB。但是在hive命令提示符上创建的表在mysql命令提示符中不可用。当我想创建一个配置单元jdbc连接然后得到以下错误..首先是我的程序创建一个jdbc连接packageaa;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;impo