草庐IT

spark-hive

全部标签

hadoop - 减少许多 hive -e 调用的 hive 启动时间

我以这种方式从命令行调用hive-e数百次:cathive_script.hql|parallel--gnuhive-e'{}'hive_script.hql中的每一行都可以以任意顺序独立运行。有没有--hiveconf参数可以减少启动时间?Apache网页似乎暗示可能在https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution"ThisisfrustratingasHivebecomescloselycoupledwithscriptinglanguages.TheHives

java - 使用 Java 检索 Hive 表位置

有没有办法使用hive表检索hdfs位置Javajdbc.例如:我有一个临时表t1。在位置“/user/tables_list/t1”;我想使用java代码检索此位置。 最佳答案 据我所试,没有直接的方法可以做到这一点。但是,一旦您设置了JDBC连接,您就可以执行“DESCRIBEEXTENDED”,这(在我所做的测试中)将列出表列:res=stmt.executeQuery("DESCRIBEEXTENDEDtweets");while(res.next()){System.out.println(res.getString(1)

hadoop - hive-hbase 集成错误

我使用的是hive版本0.12.0,hadoop版本2.4.0和hbase版本0.98.3我在hbase中创建了一个表信息,用一行数据填充它,为hive提供访问权限(使用外部表)运行查询时selectcount(*)frominfo;我明白了TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=In

hadoop - 在 Amazon S3 中创建由 Avro 文件支持的 Hive 表时出现问题

我一直在尝试在S3中创建一个由Avro文件支持的Hive表。最初,我认为这可能相对简单,但我遇到了以下错误。这是创建表的命令:setfs.s3.awsAccessKeyId=ACCESS_KEY_ID;setfs.s3.awsSecretAccessKey=SECRET_ACCESS_KEY;usesome_database;CREATEEXTERNALTABLEexperiment_with_s3_backed_dataROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'WITHSERDEPROPERTIES('av

hadoop - Hive - 按问题分组

我在Hive中基于2个字段(A和B)进行分组。但它并没有为A和B的每个组合显示一个聚合值。它显示多个值,如AB1一个B4等等是不是因为reducer的数量多于1个,如何避免这个问题? 最佳答案 最近我遇到了类似的问题,在我的HQL中,我使用insertoverwritedirectory'$HQL_OUT_PATH'来覆盖输出。但它似乎不稳定导致重复项。你可能清理HQL之前的输出路径,看输出结果是否正确。 关于hadoop-Hive-按问题分组,我们在StackOverflow上找到一个

hadoop - Hive 支持过滤 Unicode 数据

我有一个包含Unicode数据的Hive表。当尝试执行一个简单的查询“SELECT*FROMtable”时,我以正确的Unicode编码返回了正确的数据。但是,当我尝试添加诸如“...WHEREcolumn='someunicodevalue'”之类的过滤条件时,我的查询没有返回任何结果。是Hive的限制吗?或者有没有办法使Unicode过滤与Hive一起工作?谢谢! 最佳答案 你应该使用utf-8格式并将数据加载到hive表中,然后你可以使用你之前编写的内容获取数据,例如...名称如“%你好%”

hadoop - 登录 Hive,log4j 文件

我正在尝试通过命令窗口访问Hive。我只是在适当的目录中运行“Hive”,但出现错误“登录被拒绝”。我读过log4j用于登录,但我不知道我是否必须创建一个帐户并在那里写入我的用户数据。非常感谢 最佳答案 Hive服务现在应该可以正常工作了。从您自己的FI-LAB虚拟机,您只需使用您的Cosmos凭据登录到头节点(如果您没有Cosmos凭据,请通过注册here获取):[root@your_filab_vm]$sshcosmos.lab.fi-ware.org登录到头节点后,键入以下命令:[your_cosmos_username@co

Spark大数据分析与实战笔记(第二章 Spark基础-05)

文章目录每日一句正能量前言2.5启动Spark-Shell2.5.1运行Spark-Shell命令2.5.2运行Spark-Shell读取HDFS文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免。前言在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。其中,Spark-Shell是Spark提供的一个交互式工具,它基于Scala语言,使得用户能够更加灵活和便捷地与Spark进行交互。通过Spark-Shell,我们可以直接在命令行终端中编

java - 使用 Spark [`cartesian()` 问题创建邻居矩阵]

我是Spark初学者,我面临以下问题:我有一个项目集合(假设它们是笛卡尔坐标或二维点),我想获取每个项目的附近元素。决定一个项目是否靠近另一个取决于一个函数(假设我们想要所有欧几里德距离小于给定值的点)。当然,获得一个点的邻居是微不足道的,我已经做到了。只需过滤项目即可。我不能做的是为集合中的所有点获取它们,我不知道如何有效地做到这一点。我在这里写了一个我想从一个小数据集中得到的结果的例子,以更清楚地说明我的需求:sourceData=[(0,1),(1,1),(0,0),(50,10),(51,11)]result=[(0,1)=>[(1,1),(0,0)],(1,1)=>[(0,1

hadoop - Hive静态分区问题

我有一个csv文件,其中有600条记录,男性和女性各300条。我创建了一个Table_Temp并将所有这些记录填充到该表中。然后,我创建Table_Main并将gender作为分区列。对于Temp_Table查询是:CreatetableifnotexistsTemp_Table(idstring,ageint,genderstring,citystring,pinstring)rowformatdelimitedfieldsterminatedby',';然后我编写以下查询:InsertintoTable_Mainpartitioned(gender)selecta,b,c,d,ge