草庐IT

scala - 使用 Hivecontext,在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表,在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象,并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本,我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时,我无法做到,当我创建一个Hive表时,它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

hadoop - 我们如何处理来自 Hadoop DB 的处理数据(输出)?

我是Hadoop的新手,如果我的问题太不成熟,我深表歉意。我了解Hadoop用于分析大型数据集上的数据。最后,我们如何处理分析后的数据,创建报告和演示文稿?例如,如果是SSRS报告,报告将基于使用SQL查询从RDBMS中提取的结果数据生成。但是,基于Hadoop的数据库是如何工作的?来自客户端,如果请求特定报告,需要来自HadoopDB的数据点,那么流程将如何?我确信客户端不会直接在hadoop中运行Job来提取生成报告所需的数据,因为hadoop作业需要更多时间来处理。我的问题是,通过在hadoop数据库上运行MR作业,处理后的数据(结果集)是否存储在任何中间数据库中,如RDBMS?

hadoop - 无法启动 Hive CLI Hadoop(MapR)

我正在尝试访问HiveCLI。但是,由于以下AccessControl问题无法启动。奇怪的是,我能够在没有AccessControl问题的情况下从Hue查询配置单元数据。但是,配置单元CLI不工作。我在MapR集群上。非常感谢任何帮助。[@~]$hiveSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/mapr/hive/hive-2.1/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.clas

hadoop - 通过 SQOOP 连接到 DB2 时出现连接管理器错误

下面是从DB2::列出数据库的sqoop命令sqooplist-databases--connect'jdbc:db2://DB_IP:PORT/'--usernamexxx--passwordxxx--drivercom.ibm.db2.jcc.DB2Driver但我得到以下错误::WARNsqoop.ConnFactory:Parameter--driverissettoanexplicitdriverhoweverappropriateconnectionmanagerisnotbeingset(via--connection-manager).Sqoopisgoingtofal

hadoop - 在 MapR 集群之间切换

我在mapr-clusters.conf中指定了两个集群cluster1secure=truecldb1:7222cldb2:7222cldb3:7222cluster2secure=truecldb4:7222cldb5:7222cldb6:7222在某些情况下,我想将数据加载到cluster1中。在其他场合,我想在cluster2中加载数据。默认情况下,MapR客户端将第一个指定为默认客户端。如何告诉MapR客户端使用第二个指定的集群?这样hadoopfs-put目标集群2? 最佳答案 通常,MapR支持HDFSAPI的/map

java - 在 MAPR 中找不到 Hadoop FS API 文件问题

我在运行hadoopfsapi删除目录时遇到问题。即使我有适当的配置,程序也会抛出异常。需要帮助解决问题。我正在使用下面的maven依赖项hadoop-common2.4.1-mapr-1408hadoop-核心2.4.1-mapr-1408hadoop客户端2.7.1repo:http://repository.mapr.com/maven/packagecom.cisco.installbase.hiveconnector;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.a

hadoop - hive-site.xml 中的 hive.cli.print.current.db 停止工作

我曾经在$HIVE_HOME/conf/hive-site.xml中将hive.cli.print.current.db设置为true,以便在配置单元提示符中自动显示数据库名称。此配置最近停止工作,因此每次启动配置单元时我都必须手动设置它的值。有没有人遇到过同样的问题,你的解决方案是什么?谢谢! 最佳答案 此属性应在配置单元配置目录(/etc/hive/conf)的.hiverc文件中指定(而不是在hive-site.xml中)。创建文件/.hiverc如果不存在以下内容sethive.cli.print.current.db=tr

hadoop - MapR 配置单元未检测到显示无效 URL 错误的 maprfs :///scheme,

我将mapRHive1.2与Hadoop2.7.0结合使用。尝试运行以下命令时:addjarmaprfs:///user/john/customSerde.jar我收到以下错误:invalidurl:maprfs:///user/john/customSerde.jar,expecting(file|hdfs|ivy)asurlscheme.Queryreturnednon-zerocode:1,cause:invalidurl:maprfs:///user/john/customSerde.jar,expecting(file|hdfs|ivy)asurlscheme.它根本无法检测

database - sqoop 从 db2 特定模式导入所有到配置单元

我尝试使用以下命令行从DB2中的特定模式导入所有表。sqoopimport-all-tables--usernameuser--passwordpass\--connectjdbc:db2://myip:50000/databs:CurrentSchema=testdb\--drivercom.ibm.db2.jcc.DB2Driver--fields-terminated-by','\--lines-terminated-by'\n'--hive-databasedefault--hive-import--hive-overwrite\--create-hive-table-m1;遇

hadoop - Impala 扫描 MapR-FS 慢

我最近在3节点MapR集群上安装了Impala。当我运行一个简单的查询时。性能不如Impala+HDFS。这是查询:SELECT*FROMft_test,ft_waferWHEREft_test_parquet.id=ft_wafer_parquet.idandmonth=1andday=8andparam=2913;大约用了3秒。但是当使用相同的查询但使用HDFS时。30Gb的表大小需要不到1秒的时间。这是查询配置文件:QueryRuntimeProfile:Query(id=dc4c084615fbf9bb:4261466f00000000):Summary:SessionID:5