apache-spark-1.3

hadoop - Apache Kylin 容错

ApacheKylin看起来是一个很棒的工具，可以满足大量数据科学家的需求。这也是一个非常复杂的系统。我们正在开发一个内部解决方案，其目标完全相同，即具有低查询延迟的多维OLAP多维数据集。在众多问题中，我现在最关心的是容错。交易数据量大，立方体必须增量更新，有些立方体是长时间更新的，比如时间维度值为年尺度的立方体。在这么长的时间里，复杂系统的某些部分肯定会失败，系统如何确保所有原始交易记录只聚合到长方体中一次，不多也不少？即使每一block都有自己的容错机制，并不意味着它们会自动一起演奏。为简单起见，我们可以假设所有输入数据都由另一个进程保存在HDFS中，并且可以以您希望从任何中断中

hadoop Apache section 多维 Kylin bigdata analytics olap

hadoop - apache Pig 试图在每个组中获得最大计数

我有pig格式的数据{(group,productId,count)}。现在我想获得每个组中的最大计数，输出可能如下所示{(group,productId,maxCount)}。这是示例输入数据(南美,prod1,45),(南美,prod2,36),(拉丁美洲,prod1,48),(拉丁美洲,prod5,35)这里是这个输入的输出看起来像(南美，prod1,45)(北美，prod2，36)(拉丁美洲，prod1,48)谁能帮我解决这个问题。最佳答案根据您的示例输入数据，这应该可以解决问题:data=load'sf.csv'usi

hadoop apache code 拉丁美洲 section apache-pig hadoop2 hadoop-streaming

hadoop - 使用apache pig从url中提取主机名

例如，url:https://pig.apache.org/docs/r0.14.0/func.htmlurl:http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.htmlURL不仅仅局限于上面的例子。我想将主机名提取为:host_name:pig.apache.org谁能帮帮我。最佳答案您实际上是想提取主机名，而不是域名。pig.apache.org是主机名，apache.org是域名。幸运的是，Pig的好心人已经编

hadoop apache section code apache-pig

mongodb - 通过 spark-submit 将额外的 jar 传递给 Spark

我将Spark与MongoDB结合使用，因此依赖于mongo-hadoop驱动程序。多亏了对我原来问题的输入，我才开始工作here.我的Spark作业正在运行，但是，我收到了我不理解的警告。当我运行这个命令时$SPARK_HOME/bin/spark-submit--driver-class-path/usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-

spark-submit 传递 mongo-hadoop hadoop mongo mongodb jar apache-spark apache-spark-1.5

scala - Spark 中的广播变量

假设我在集群上运行了以下代码:privatedefmodifyDatasetFormat(data:String,mappings:Array[HashMap[String,Int]]):Array[Tuple2[Tuple3[Int,Int,Int],Int]]={}varmap=newHashMap[String,Int]()map+=("hello"->2)varmappings=newArray[HashMap[String,Int]])(1)mappings(0)=mapvaloriginalDataset=sc.textFile("/home/paourissi/Deskt

scala Spark section Int String hadoop apache-spark

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下？

ApacheSpark[http://spark.apache.org/]声称在内存方面比ApacheHadoop快100倍。它是如何实现这种惊人的加速的？这种加速仅适用于迭代机器学习算法还是适用于ETL(提取-转换-加载)任务，如JOIN和GROUPBY？Spark的RDD(弹性分布式数据集)和DataFrames都可以提供这种加速吗？Spark社区有针对上述部分场景的benchmark测试结果吗？最佳答案 Spark在内存中进行数据处理。不会像MapReduce那样有中间文件，所以没有I/O或者可以忽略不计。它并没有在所有情况

MapReduce hadoop section Spark li apache-spark bigdata distributed-computing

apache - Kerberos 升级

我们想升级Kerberos(服务器和客户端)当前:1.6.3-133.27.1目标:1.6.3-133.49.97.1问题是如果我们用包管理器升级它，下面会发生什么？KDC数据库所有主要信息所有以前生成的key表Kerberos配置是否一切都像以前一样工作，还是一切都必须重新配置？此处提供的升级步骤http://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.4/doc/krb5-install/Upgrading-Existing-Kerberos-V5-Installations.html用于我们升级MAJOR版本时(例如1.1到1.2.x)

Kerberos apache section li hadoop

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。使用hivecli执行showpartitionsods.user_info命令，将结果截图粘贴至答案表.docx中对应的任务序号下；13、编写Scala代码，使用Spark将MySQL的ds_db01库中表sku_info的全量数据抽取到H

mdash 笔记 xff0c xff xff0 分布式大数据 hadoop

hadoop - $SPARK_HOME 中包含的 hive-site.xml 是什么样的？

我是hive的初学者，当我启动spark作业并从hive读取数据时发生了一些事情(找不到表)。我没有在$SPARK_HOME/conf中设置hive-site.xml吗？提交spark作业命令在这里bin/spark-submit--masterlocal[*]--driver-memory8g--executor-memory8g--classcom.ctrip.ml.client.Client/root/GitLab/di-ml-tool/target/di-ml-tool-1.0-SNAPSHOT.jar 最佳答案在您的Hi

中包 SPARK_HOME section hive AdminManualConfiguration-hive-sit hadoop apache-spark

hadoop - 使用 Apache Drill Embedded 连接到 EMR 上的 Hive

我正在尝试以嵌入式模式在ApacheDrill1.4上进行实验，并尝试连接到在EMR上运行的Hive-Drill在EMR外部的服务器上运行。我有一些基本问题需要澄清，还有一些配置问题需要修复。这是我目前所拥有的-运行AWSEMR集群。运行DrillEmbedded服务器。根据有关为Hive配置存储插件的文档，https://drill.apache.org/docs/hive-storage-plugin/，我对是否使用RemoteMetastore或EmbeddedMetastore感到困惑。有什么区别？接下来，我的EMR集群正在运行，这里是hive-site.xml的样子-hive

Embedded hadoop 34 metastore hive jdbc emr apache-drill

195 196 197198199 200 201