cube_it

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy，这些组会被放置到不同的节点上吗？如果这是真的，我想避免这种情况，因为我想对这些组执行这些计算而不需要过多改组。最佳答案首先，coalesce(1)并不能保证你的所有数据都在一个节点中，要确保你必须使用repartition(1)，这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组，因此如果您的数据分布在5个节点中(每个节点中有多个分区)，它

repartitioned experience 点中 code section scala apache-spark hadoop apache-spark-sql bigdata

hadoop - Cube.js 作为报告工具

我们可以使用cube.js进行报告吗？如果可能，那么如何将cube.js与hive数据库集成，以便我可以在我的表之上创建我的多维数据集并在cube.js上触发查询。最佳答案是的，你绝对可以。Cube.js专为此目的而设计。Hive驱动程序目前正在开发中，很快就会发布。如果您在Hive之上安装了Presto，您可以立即使用它。请查看此对话https://github.com/statsbotco/cube.js/pull/127和我们的社区Slack更新。关于hadoop-Cube.

hadoop Cube section https noreferrer hive analytics cubes

hadoop - Hive FunctionTask 执行错误，返回码-101 : What does it mean?

我正在运行使用cloudera管理器安装的clouderahadoop集群。我有一个UDF，我已使用直接配置单元CLI成功部署和运行它。这涉及使用“hive--auxpathxxx”向配置单元添加一些库jar，然后创建一个临时函数。但是当我尝试使用Hue+Beeswax做同样的事情时，我使用左侧方便的表单字段添加资源和临时函数，我不断收到此错误:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask翻来覆去都找不到'-101'的错误码翻译的地方。我目前查看的日志不是很有用。是

FunctionTask hadoop section code 配置单 hive hue beeswax

hadoop - Hive group by with cube 和 group by 在同一个查询中

假设我正在观察表架构如下的超速事故:createtablespeeding_data(date_of_occurrencedate,yearint,makestring,modelstring,speedint);我想观察这些特征的不同组合下的平均速度，但希望它始终按date_of_occurrence分组，例如可能是这样的selectdate_of_occurrence,year,make,model,avg(speed)fromspeeding_datagroupbydate_of_occurrencegroupbyyear,make,modelwithcube;只是想知道在h

group hadoop section code date_of_occurrence hive hql hiveql

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A，其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效，但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案您可以使用regexp_replaceudf来删除“{}”，例如:selectregexp_replace(i

Replace pattern section code pre hadoop hive apache-spark-sql hiveql

scala - 停止 Spark Streaming : exception in the cleaner thread but it will continue to run

我正在开发一个Spark-Streaming应用程序，我只是想获得一个KafkaDirectStream工作的简单示例:packagecom.usernameimport_root_.kafka.serializer.StringDecoderimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.kafka._importorg.apache.spark.streaming.{Seconds,StreamingContext}objectMyAppextendsApp{valtopic=args(

Streaming exception section code java scala hadoop apache-spark apache-kafka spark-streaming

hadoop - pig : Select records from a relaltion only if it is present in another relation

我有以下电影数据库的数据集:Ratings:UserID,MovieID,RatingMovies:MovieID,Genre我使用以下方法过滤掉类型为“Action”或“war”的电影:movie_filter=filterMoviesby(genrematches'.*Action.*')OR(genrematches'.*War.*');现在，我必须计算war片或Action片的平均收视率。但是评级存在于评级文件中。为此，我使用查询:movie_groups=GROUPmovie_filterBYMovieID;result=FOREACHmovie_groupsGENERATE

relaltion relation movie code movies hadoop apache-pig

Hadoop MapReduce : Is it possible to only use a fraction of the input data as the input to a MR job?

我的输入数据的关键类是WritableComparable，它以MapFile的形式存在。有没有什么方法可以设置最小和最大键值，并且只将记录传输到键值介于两者之间的映射器？最佳答案这是不可能的。因为对于map-reduce作业，我们只是指定输入。我们可以做的一件事是，在映射器中编写一个条件。如果键是黑白最小值和最大值，则只处理键值对并将输出发送到reducer。否则，什么都不做。但即使在这种情况下，我们的map阶段也会处理所有输入，而reduce阶段只会处理我们指定的键范围。更好的方法:当在给定输入上运行map-reduce作业

input MapReduce section 射器 apache hadoop

java - Hadoop : set a variable like hashSet only once so that it can be utilized multiple times in each map task

您好，我有一个HashSet，它需要在hadoop中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎提出任何建议。最佳答案看来你还没有真正了解Hadoop的执行策略。如果你是分布式模式，你不能在多个map任务中共享一个集合(HashSet)。这是因为任务是在它们自己的JVM中执行的，并且它不是确定性的，即使不使用jvm重用，你的集合在jvm被重置后仍然存在。您可以做的是在计算开始时为每个任务设置一个HashSet。因此您可以覆盖setup(Contextctx)方法。这将在调用映射方法之前

multiple variable section code HashSet java hadoop mapreduce configure

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索，我也没有找到答案。我的输入文件是由一个进程生成的，当文件达到1GB时，该进程将它们分块。现在，如果我要运行一个处理dfs中的输入目录的mapreduce作业，我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件？我觉得这几乎是不可能的，因为当hadoop作业运行时，它会计算剩余时间和所有这些东西，所以当我的输入不断堆积或换句话说是“可变的”时，Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。最佳答案您描述的用例不是Hadoop设计用来处

time-varying amp section Hadoop 的 java architecture

143 144 145146147 148 149