sample_dataframe

hadoop - Cloudera 上的 Kylin Sample Cube 无法正常工作

我只是想弄清楚我的SampleCube出了什么问题，但我不知道如何找到解决方案。首先，我使用的是Cloudera，cdh5.8.0，Hadoop2.6.0。我有Hive、HBase等等。我必须从Kylin的站点下载cdh的二进制文件，并且...遇到的问题和解决的问题:1)我必须设置一个变量KYLIN_HOME，因为bin/check-env.sh和bin/kylin.shstart都不能正常工作。我只是将其设置为:$echo"exportKYLIN_HOME=/home/cloudera/Kylin_Folder/apache_kylin">>~/.bashrc$source~/.ba

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成，但是如果我检查文件系统，我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思？以及如何将dataframe写入parquethive表。最佳答案我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

dataframe parquet section spark scala apache-spark hadoop apache-spark-sql hiveql

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？

我的MongoDB和Spark在Zeppelin上运行，它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中？还是我需要使用MongoDBSpark连接器？最佳答案我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先，这些内部文件可能会在没有通知的情况下更改(不是面向公众的API)，而且对这些文件的任何意外修

DataFrame mongodb section noreferrer apache-spark hadoop hdfs

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy，这些组会被放置到不同的节点上吗？如果这是真的，我想避免这种情况，因为我想对这些组执行这些计算而不需要过多改组。最佳答案首先，coalesce(1)并不能保证你的所有数据都在一个节点中，要确保你必须使用repartition(1)，这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组，因此如果您的数据分布在5个节点中(每个节点中有多个分区)，它

repartitioned experience 点中 code section scala apache-spark hadoop apache-spark-sql bigdata

hadoop - Hive 负载数据 :No files matching path file:/home/hive/sample. 日志

我正在尝试加载HDP-sandbox上的sample.log文件我最初的努力LOADDATALOCALINPATH'sample.log'OVERWRITEINTOTABLElogs;好像路径不匹配Error:Errorwhilecompilingstatement:FAILED:SemanticExceptionLine1:23Invalidpath''sample.log'':Nofilesmatchingpathfile:/home/hive/sample.log(state=42000,code=40000)我注销，移动到/root，然后进入hive0:jdbc:hive2:/

matching hadoop code section sample hive

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中？

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中，这个data.frame占用大约。200MB内存。但是，当我尝试使用as.DataFrame()函数将其加载到Spark中时，Rsession永远被占用，它已经运行了1小时，我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小，大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

DataFrame 大型 sample replace 34 r hadoop apache-spark sparkr

python - Dataframe.toPandas 总是在驱动程序节点上还是在工作节点上？

假设您正在通过SparkContext和Hive加载大型数据集。所以这个数据集然后分布在你的Spark集群中。例如，对数千个变量的观察(值+时间戳)。现在您将使用一些map/reduce方法或聚合来组织/分析您的数据。例如按变量名分组。分组后，您可以获得每个变量的所有观察值(值)作为时间序列数据框。如果您现在使用DataFrame.toPandasdefmyFunction(data_frame):data_frame.toPandas()df=sc.load....df.groupBy('var_name').mapValues(_.toDF).map(myFunction)是否将其

Dataframe toPandas code section python hadoop pandas apache-spark pyspark

scala - 在 HDFS 上写入 DataFrame 期间出现 SparkException

我正在使用YARN在Hadoop集群上运行以下代码。它解析一些电子邮件并执行情感注释，最后将结果DataFrame写入HDFS上的Parquet表。不幸的是，它在HDFS上最后一个数据帧写入的#66行一直失败，错误显示在底部。无论如何，我无法解释为什么每当我使用数据集的一小部分样本时它都会成功终止。objectETLDriver{valappName="ENRON-etl"valconf=newSparkConf().setAppName(appName)valsc=newSparkContext(conf)defmain(args:Array[String]):Unit={valal

SparkException DataFrame java val code scala hadoop apache-spark

hadoop - Rumen 的 sample 输出或 Gridmix 的 sample 输入

我对使用Hadoop等大数据工具还很陌生。我想在Yarn/或YarnSimulator上执行公开可用的集群跟踪(https://github.com/google/cluster-data)。一种方法是通过Gridmix将输入馈送到Yarn。Gridmix(https://hadoop.apache.org/docs/r2.8.3/hadoop-gridmix/GridMix.html)接受输入的格式基本上是Rumen的输出。Rumen(https://hadoop.apache.org/docs/r2.8.3/hadoop-rumen/Rumen.html)将从map-reduce集

sample Gridmix 34 hadoop section mapreduce

scala - 如何在 Apache ignite 中缓存 Dataframe

我正在编写代码以使用sparkSQLContextJDBC连接来缓存RDBMS数据。创建Dataframe后，我想使用apacheignite缓存该reusltset，从而使其他应用程序使用结果集。这是代码片段。objecttest{defmain(args:Array[String]){valconfiguration=newConfiguration()valconfig="src/main/scala/config.xml"valsparkConf=newSparkConf().setAppName("test").setMaster("local[*]")valsc=newSp

何在 Dataframe section 34 code scala hadoop caching apache-spark ignite

78 79 808182 83 84