草庐IT

hadoop - apache pig中一列的最大值

我正在尝试使用pig查找列ratingTime的最大值。我正在运行以下脚本:ratings=LOAD'/user/maria_dev/ml-100k/u.data'AS(userid:int,movieID:int,rating:int,ratingTime:int);maxrating=MAX(ratings.ratingTime);DUMPmaxrating示例输入数据是:19624238812509491863023891717742223771878887116244512880606923我遇到以下错误:2018-08-0507:02:05,247[main]INFOorg.

hadoop - 在创建需要动态配对的 Hive 表时,是否有任何列顺序?

我正在尝试将RDBMS表加载到Hive中。我需要根据列数据对表进行动态分区。我有如下所示的Greenplum表架构:forecast_id:bigintperiod_year:numeric(15,0)period_num:numeric(15,0)period_name:charactervarying(15)drm_org:charactervarying(10)ledger_id:bigintcurrency_code:charactervarying(15)source_system_name:charactervarying(30)source_record_type:cha

hadoop - Hive:如果不存在则创建函数

在我的配置单元脚本的开头,我有以下语句:使用jarz创建函数x作为y;现在,如果函数已经存在,它会给我一个错误:处理语句时出错:失败:执行错误,从org.apache.hadoop.hive.ql.exec.FunctionTask返回代码1。AlreadyExistsException(消息:函数x已经存在)如果我使用createfunctionifnotexistsxasyusingjarz;,我会得到这个错误:编译语句时出错:FAILED:ParseExceptionline7:192cannotrecognizeinputnear'if''not''exists'infunct

apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起

当在只有2个不可抢占的工作节点和其他100~个可抢占节点的dataproc上运行spark集群时,我有时会得到一个完全不可用的集群,原因是太多的连接错误、数据节点错误、丢失的执行程序,但仍在跟踪心跳...总是出现这样的错误:18/08/0815:40:11WARNorg.apache.hadoop.hdfs.DataStreamer:ErrorRecoveryforBP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487inpipeline[DatanodeInfoWithStorage[10.128.0.35:9866,DS

hadoop - 使用 ElasticSearch 作为永久存储

最近在做一个项目,每天都会产生大量的数据,在这个项目中,有两个功能,一个是将数据存储到Hbase中,以供日后分析,二是将数据推送到ElasticSearch中,以供监控.由于数据庞大,我们应该将数据存储到两个平台(Hbase,Elasticsearch)!我对他们两个都没有经验。我不想知道是否可以使用elasticsearch而不是hbase作为future分析的持久性存储? 最佳答案 我建议您阅读这篇古老但仍然有效的文章:https://www.elastic.co/blog/found-elasticsearch-as-nosq

apache-spark - spark-sql读取hive表失败

我想通过hivejdbc连接将整个hive表加载到spark内存中。并且已经在我的项目中添加了hive-site.xml、hdfs-site.xml。由于成功获取列名(eg.role_id),spark已经连接到hive。但是spark似乎将列名加载为数据,并抛出异常。这是我的代码:valdf=spark.read.format("jdbc").option("driver",CommonUtils.HIVE_DIRVER).option("url",CommonUtils.HIVE_URL).option("dbtable","datasource_test.t_leave_map_

hadoop - 如何计算Hadoop Storage?

我不确定我是否计算正确,但例如我使用Hadoop默认设置并且我想计算我可以在我的集群中存储多少数据。例如,我有12个节点,每个节点分配给HDFS存储的总磁盘空间为8TB。我只计算12/8=1.5TB吗? 最佳答案 您没有包括复制因子和处理任何数据的开销。另外,如果所有磁盘都快满了,Hadoop将无法运行因此,8TB将首先除以3(未启用新的纠删码),然后除以节点数但是,从技术上讲,您无法达到100%的HDFS使用率,因为一旦您开始超过85%的使用率,服务就会开始失败,所以实际上,您的起始数字应该是7TB

hadoop - 配置单元错误 : For Exists/Not Exists operator SubQuery must be Correlated

select*fromstudents1;students1.namestudents1.agestudents1.gpafred351.28barney322.32shyam322.32select*fromstudents2;students1.namestudents1.agefred35barney32当我运行这个查询时selectname,agefromstudents1wherenotexists(selectname,agefromstudents2);我收到这个波纹管错误Errorwhilecompilingstatement:FAILED:SemanticExcept

hadoop - 添加节点/Hadoop

我正在尝试在现有集群中添加一些节点。我可以选择硬盘空间的大小吗?或者我可以只给新节点的空间不超过我给现有节点的空间吗?(我的节点每个有12TB) 最佳答案 CanIchoosethamountoftheharddrivespace?你不能“选择空间”,但你可以选择哪些目录用于数据节点,总的来说,这会增加总的可用空间,是的。并不是所有的数据节点都需要相同的大小 关于hadoop-添加节点/Hadoop,我们在StackOverflow上找到一个类似的问题: ht

hadoop - HDFS如何在VM上查找主机名端口号

这似乎是一个非常简单的问题。但是我在hdfs上有我的文件的路径,比如父文件夹/子文件夹/文件名.txt由于我必须提供此文件的完整路径以及主机和端口详细信息,因此我需要找出这些详细信息。你能帮我吗? 最佳答案 根据配置会是这样的(Ambari中的HDFS配置:fs.defaultFS类似于:hdfs://cluster,默认端口8020):hdfs://localhost:8020/parentfolder/subfolder/filename.txt 关于hadoop-HDFS如何在VM