草庐IT

spark-hive

全部标签

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时,我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式,磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源?objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s

amazon-web-services - 尝试在 EMR 上安装 Spark 时引导失败

我正在使用此链接在EMR(Amazon上的ElasticMapReduce)上安装SparkClusterhttps://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923为了创建Spark集群,我运行了以下命令,但我的集群每次都遇到引导失败。我无法解决这个问题,如果有人能在这里帮助我,那就太好了。awsemrcreate-cluster--nameSparkCluster--ami-version3.2\--instance-typem3.xlarge--instance-count3--ec2-attributes\

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

hive中array相关函数总结

目录hive官方函数解释示例实战hive官方函数解释hive官网函数大全地址:hive官网函数大全地址ReturnTypeNameDescriptionarrayarray(value1,value2,…)Createsanarraywiththegivenelements.booleanarray_contains(Array,value)ReturnsTRUEifthearraycontainsvalue.arraysort_array(Array)Sortstheinputarrayinascendingorderaccordingtothenaturalorderingofthearr

mysql - 如何在 Hadoop Hive 中获取子字符串?

我的问题是如何通过字符串中的指示在Hive中获取子字符串。我的列值格式是这样的:/Country/State/City/Suburb/Street这里我只需要得到Country。我喜欢SPLIT,它返回由“/”分隔的字符串数组。还有SUBSTR(stringa,intbegin),它从指定的开始返回一个子字符串。在split中,我需要再次访问一个数组,其中第一个元素是所需的元素,但只想知道是否有任何其他更简单的方法来获取国家/地区。谢谢 最佳答案 我尝试使用正则表达式来提取Country。使用正则表达式配置单元查询是:selectr

regex - 在 Hive 表中以 CSV 格式加载数据

我正在尝试将以下数据存储在csv文件中到Hive表中,但未能成功Ann,78%,7,Beth,81%,5,Cathy,83%,2,数据存在于CSV文件中。我使用以下定义在Hive中创建了表:Hive>CREATETABLEtest1(NameString,PercString,RankString)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="^(\w+)\,(\w+)\%\,(\w+)$","output.format.string"

hadoop - 在 Amazon EC2 上将 HDFS 与 Apache Spark 结合使用

我使用sparkEC2脚本设置了一个spark集群。我设置了集群,现在正尝试将文件放在HDFS上,这样我的集群就可以正常工作。在我的主机上,我有一个文件data.txt。我通过ephemeral-hdfs/bin/hadoopfs-putdata.txt/data.txt将它添加到hdfs现在,在我的代码中,我有:JavaRDDrdd=sc.textFile("hdfs://data.txt",8);执行此操作时出现异常:Exceptioninthread"main"java.net.UnknownHostException:unknownhost:data.txtatorg.apac

java - Spark : Technical terminology for reduce elements on the run-time?

在下面的字数统计示例中:(Hello,1)(Hello,1)(Hello,1)(Hello,1)(Hello,1)Hadoop的reducer函数会收集所有5个键为“Hello”的元素,然后在reducer函数中进行聚合。但是在Spark中,实际上是每次减少2个元素。比如把第一个和第二个(Hello,1)组合成(Hello,2),把第三个和第四个(Hello,1)组合成(Hello,2)……等等(当然,真实情况可能是在不同的顺序)。那么有专门的术语来描述Spark中使用的这种计算方法吗?谢谢! 最佳答案 它不一定以这种方式聚合值。您

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!