草庐IT

bubble_cluster_one

全部标签

hadoop - Apache pig : Filter one tuple on another?

我想根据col2中的条件,并在操作col2之后,通过拆分两个元组(或Pig中的任何名称)来运行Pig脚本,进入另一列,比较两个被操纵的元组并进行额外的排除。REGISTER/home/user1/piggybank.jar;log=LOAD'../user2/hadoop_file.txt'AS(col1,col2);--log=LIMITlog1000000;isnt_filtered=FILTERlogBY(NOTcol2=='Somevalue');isnt_generated=FOREACHisnt_filteredGENERATEcol2,col1,RANDOM()*1000

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster?

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置?问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问,不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业,并且“--conf”是为spark本身保留的,但是我如何从命令行和应用程序一起设置yarn的配置? 最佳答案 您可以修改Spar

Hadoop MapReduce : Two Keys in one line, 但是怎么办?

我有包含以分号分隔的记录的csv文件。每行是一条记录。每条线包含图的边信息。这意味着一行看起来像下面这样:Node_X;Node_Y;5它被解释为权重为5的节点x和y之间的边或链接。我的映射器获得此输入。现在我想要实现的是使用节点聚合信息。以下示例说明了我的场景:Node_X;Node_Y;5Node_X;Node_Z;10Node_X;Node_A;60Node_Y;Node_A;20那么节点的结果应该是:Node_X;75;Node_Y;25;Node_A;80我想收集所有不同的节点并将它们与其他节点的权重之和作为权重。在我的映射器中,我可以读取边缘信息:Node_X;Node_A

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用?外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的?)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它,但是我找不到从任何配置/SparkEnv

hadoop - Hive 中 Cluster By 和 CLUSTERED BY 的区别?

我想知道Hive中ClusterBy和CLUSTEREDBY的主要区别是什么。ClusterBy用于对表进行分桶。并且会用到Hash函数。CLUSTEREDBY用于在reducer中按值排序。还有什么区别吗。请告诉我谢谢文卡特巴拉。 最佳答案 “聚类依据”仅将您的键分布到不同的桶中,“聚类依据”确保N个缩减器中的每一个都获得不重叠的范围,然后在缩减器中按这些范围排序。主要区别在于排序。 关于hadoop-Hive中ClusterBy和CLUSTEREDBY的区别?,我们在StackOve

hadoop - 无法初始化 Cluster Hadoop-2.7.1 和 YARN

对于示例中的简单程序字数统计,即使所有作业都在运行,提交作业也会失败。hadoopjarhadoop-mapreduce-examples-2.7.1.jarwordcounthdfs://localhost:9000/inputhdfs://localhost:9000/outputJPS31265SecondaryNameNode31064DataNode30929NameNode31478ResourceManager32354Jps错误java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfiguration

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

hadoop - java.lang.IllegalStateException : No clusters found. 检查你的 -c 路径

我在命令行使用以下命令使用Mahoutkmeans算法对数据进行聚类mahoutkmeans-i/vect_out/tfidf-vectors/-c/out_canopy-o/out_kmeans-dmorg.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure-cd1.0-x20-cl其中/out_canopy是包含使用Mahoutcanopy集群创建的集群的目录,其中包含一个clusters-0目录,该目录本身包含一个名为_logs的目录和一个文件命名为part-r-00000但是一直报如下错误java.lang