草庐IT

hadoop - 从 Apache Spark 查询外部配置单元中存在的表

这个问题在这里已经有了答案:HowtoconnectSparkSQLtoremoteHivemetastore(viathriftprotocol)withnohive-site.xml?(11个答案)关闭2年前。我对hadoop生态系统比较陌生。我的目标是使用ApacheSpark读取配置单元表并对其进行处理。Hive在EC2实例中运行。而Spark在我的本地机器上运行。为了制作原型(prototype),我按照here上的步骤安装了ApacheHadoop。.我也添加了所需的环境变量。我已经使用$HADOOP_HOME/sbin/start-dfs.sh启动了dfs我已经按照her

hadoop - 从存储在 .avsc 文件中的表架构创建配置单元表

我有一个hive表模式存储在一个hdfs文件schema.avsc中。我想创建一个具有相同模式的配置单元表,并希望从数据存储在HDFS文件系统中的另一个hdfs路径转储数据。1:如何创建表?2:如何将存储在hdfs文件中的数据转储到创建的表中? 最佳答案 Howcanicreateatable?AvroSerDe上的ApacheHive文档显示了基于存储在文件中的Avro模式创建表的语法。为方便起见,我将在此处重复其中一个示例:CREATETABLEkstPARTITIONEDBY(dsstring)ROWFORMATSERDE'o

hadoop - 将 XML 数据加载到配置单元表时出错

我正在尝试将XML文件加载到我的配置单元表中。下面是我的配置单元表查询。CREATETABLEMYDATA(NAMESTRING,AGEINT,SEXSTRING)ROWFORMATSERDE'com.ibm.spss.hive.serde2.xml.XmlSerDe'WITHSERDEPROPERTIES("column.xpath.NAME"="/TAG/NAME/text()","column.xpath.AGE"="/TAG/AGE/int()","column.xpath.SEX"="/TAG/SEX/text()")STOREDASINPUTFORMAT'com.ibm.s

hadoop - 运行存储在 HDFS 位置的配置单元脚本

我正在尝试运行存储在HDFS位置(hdfs://nameservice1/user/neeraj)中的配置单元脚本(.hql文件),但我找不到正确的命令来执行它。有没有办法直接从HDFS位置运行它而不是将它移动到我的/home/位置? 最佳答案 hive-f演示cat>my_script.sqlselect1+1asresult;hdfsdfs-putmy_script.sql/tmphive-fselect1+1asresult;OK2 关于hadoop-运行存储在HDFS位置的配置单

hadoop - 配置单元连接错误

我一直在尝试在hadoop中安装hive,但弹出此错误,有人知道这是什么意思吗? 最佳答案 问题是因为您使用的Hadoop3仍处于第二个alpha测试阶段,简单的解决方案是删除它并安装hadoop2.7.3 关于hadoop-配置单元连接错误,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/42894870/

hadoop - 如何使用配置单元计算由 "|"分隔符分隔的每列中的单词数?

输入数据是+----------------------+--------------------------------+|movie_name|Genres|+----------------------+--------------------------------+|digimon|Adventure|Animation|Children's||Slumber_Party_Massac|Horror|+----------------------+--------------------------------+我需要这样的输出+----------------------+

hadoop - 我们如何在配置单元中将字符串转换为数组?

我正在使用配置单元1.1hive>selectcountryfromreleaseslimit1;OK["us","ca","fr"]目前country在hive中是字符串类型。我如何将其转换为Array[String]?我尝试了下面的方法,但是它抛出错误hive>selectcountry,cast(countryasArray[String])fromreleaseslimit1;FAILED:ParseExceptionline1:48cannotrecognizeinputnear'Array''[''String'inprimitivetypespecification有人可

hadoop - 从 mapreduce 读取配置单元表

我目前正在编写一个mapreduce程序来查找两个配置单元表之间的差异。我的配置单元表按一列或多列进行分区。所以文件夹名称包含分区列的值。有没有办法读取hive分区表可以在mapper中读取吗? 最佳答案 由于底层HDFS数据将默认组织在分区的配置单元表中table/root/folder/x=1/y=1table/root/folder/x=1/y=2table/root/folder/x=2/y=1table/root/folder/x=2/y=2....,您可以在驱动程序中构建这些输入路径中的每一个,并通过多次调用FileIn

mysql - 为什么 sqoop 在从配置单元导出到 mysql 期间在数字列的 NumberFormatException 上失败

我有简单的配置单元查询INSERTOVERWRITEDIRECTORY'/tmp/test'SELECTflight,SUM(CASEWHENev=2THEN1ELSE0END)ASreqfromdata_tablegroupbyflight;输出看起来不错(在编辑器中用^A分隔)两个数字列。我已经创建了mysql表createtablehive_table(flint,evsint);最后想用sqoop把hdfs的数据导出到mysqlsqoopexport--connectjdbc:mysql://mysqlhost/dwh--usernameuser--passwordpasswo

java - 从通过配置单元插入的 hbase 读取数据时出现问题

我已经创建了一个hbase-hive表。我在其中通过配置单元插入数据。CREATETABLEhivetest(cookiestring,timespentstring,pageviewsstring,visitstring,logdatestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="m:timespent,m:pageviews,m:visit,m:logdate")TBLPROPERTIES("hbase.tab