草庐IT

google-ranking

全部标签

hadoop - 使用 Yarn 客户端在 Google Cloud 上的 Hadoop 中运行 JAR

我想使用Yarn客户端在GoogleCloud上的Hadoop中运行一个JAR。我在hadoop的master节点使用这个命令spark-submit--classfind--masteryarn-clientfind.jar但它返回这个错误15/06/1710:11:06INFOclient.RMProxy:ConnectingtoResourceManagerathadoop-m-on8g/10.240.180.15:803215/06/1710:11:07INFOipc.Client:Retryingconnecttoserver:hadoop-m-on8g/10.240.180

hadoop - 如何将我的数据从本地 HDFS 安全地传输到 Google Cloud Storage?

我在本地HDFS安装中有大量数据。我想将其中一些移动到GoogleCloud(云存储),但我有一些顾虑:我实际上如何移动数据?我担心在公共(public)互联网上移动它将数据从我的HDFS存储安全地移动到CloudStorage的最佳方法是什么? 最佳答案 要将数据从本地Hadoop集群移动到GoogleCloudStorage,您可能应该使用GoogleCloudStorageconnectorforHadoop.您可以按照installdirections在任何集群中安装连接器.请注意,GoogleCloudDataproc集群

hadoop - Hive 中的 RANK OVER 函数

我试图在Hive中运行此查询以仅返回在adimpression表中出现频率最高的前10个url。selectranked_mytable.url,ranked_mytable.cntfrom(selectiq.url,iq.cnt,rank()over(partitionbyiq.urlorderbyiq.cntdesc)rnkfrom(selecturl,count(*)cntfromstore.adimpressionaiinnerjoinzuppa.adgroupcreativesubscriptionagcsonagcs.id=ai.adgroupcreativesubscri

hadoop - 包里的RANK?

假设我有set_of_values:a,ka,la,mb,xb,yb,z如果我用a=RANKset_of_values;我得到:1,a,k2,a,l3,a,m4,b,x5,b,y6,b,z我想达到的是RANK,但是在组内。第一:a=groupset_of_valuesbyfirst_value;(a,{(a,k),(a,l),(a,m)})(b,{(b,x),(b,y),(b,z)})我现在应该怎么做才能得到:(a,{(1,a,k),(2,a,l),(3,a,m)})(b,{(1,b,x),(2,b,y),(3,b,z)})编辑(在foreach中添加RANK)b=foreacha{c

hadoop - 将 hadoop 集群连接到多个 Google 项目中的多个 Google Cloud Storage 存储桶

可以同时将我的Hadoop集群连接到多个GoogleCloud项目吗?我可以通过GoogleCloudStorageConnector在单个GoogleProject中轻松使用任何GoogleStorage存储桶,如本线程中所述Migrating50TBdatafromlocalHadoopclustertoGoogleCloudStorage.但是我找不到任何文档或示例如何从单个map-reduce作业连接到两个或多个GoogleCloud项目。你有什么建议/技巧吗?非常感谢。 最佳答案 确实,可以同时将您的集群连接到来自多个不同

hadoop - 使用 Google Cloud Dataflow 合并 Google Cloud Storage 中的文件

NathanMarz在他的书“BigData”中描述了如何维护HDFS中的数据文件。以及如何使用他的Pail优化文件大小以尽可能接近原生HDFSblock大小在MapReduce之上运行的库.是否有可能在GoogleCloudStorage中获得相同的结果??我可以使用GoogleCloudDataflow吗?而不是MapReduce用于此目的? 最佳答案 GoogleCloudStorage允许组合对象,让您可以将一个对象存储在多个部分中,然后将它们组合起来,一次最多可组合32个部分,总共1024个组成部分。API中提供了此功能。

Google Analytics(分析实时事件)未触发页面加载

我想在用户登录时(一旦加载主页)将用户数据发送到我的页面加载时的GA。我有以下标签和触发器(具有自定义事件)创建,但事件没有触发。我有点击事件,这正常工作。不确定为什么在页面加载它不起作用。Datalayer就像下面电子邮件属性用作触发事件的条件。如果没有增强商务,则触发事件的另一种方法是什么,将数据推向GAdataLayer.push({'event':'userdata','ecommerce':{'currencyCode':'DLR','User':{'email':userEmail,'UserName':userName,'OutletNumber':outletNumber}}}

java - 如何在 Flink 中为 Google Cloud Storage 创建 RecoverableWriter

我想使用GoogleCloudStorage使用StreamingFileSink从我的流作业写入(sink)DataStream元素.为此,我使用了GoogleCloudStorageconnector用于Hadoop作为org.apache.hadoop.fs.FileSystem的实现,并使用HadoopFileSystemasanimplementationoforg.apache.flink.core.fs.FileSystem为Flink包装了hadoopFileSystem类。我在我的gradle文件中包含了以下依赖项:编译("com.google.cloud.bigda

java - Hadoop 分布式文件系统是否像 Google 文件系统那样支持任何更新操作?

我正在阅读Google文件系统上发表的论文,发现GFS支持在现有文件的任意位置追加和更新。据我所知,HDFS不支持更新操作,因为它旨在实现一次写入和多次读取的功能。HDFS现在确实支持追加操作。对于最近的版本,他们将dfs.support.append默认设置为false。所以我的问题是我们可以通过什么方式进行某种更新操作。我曾尝试查看,但我只知道HDFS不支持更新操作。希望尽快收到您的来信。仅供引用:我已经阅读了很多关于claudera和其他关于此的帖子。我能够在hadoop贡献者的一些博客中找到HDFS确实支持更新操作的可能性。但是没有人提到或确切说明它是如何进行更新操作的。

hadoop - apache pig rank 运算符不适用于多个 reducer

我正在尝试使用pig的rank运算符为给定字符串分配整数。虽然当我将parallel子句设置为1时它起作用,但它没有更高的值(如200)。我需要使用多个reducer来加速处理,因为默认情况下,pig只使用一个reducer,这需要很长时间。我的查询如下:rank=按col1ASC并行200对tupl1进行排名; 最佳答案 实际上根据pig文档(https://pig.apache.org/docs/r0.11.1/perf.html#parallel):YoucanincludethePARALLELclausewithanyop