草庐IT

Pyspark-Cluster

全部标签

hadoop - 如何将 pyspark 输出写入 impala 表?

我将pyspark用于我的问题陈述,在这里,我想合并我的输出并将其作为我的其他模型的输入。但是在hdfs中,我的输出被分成几部分,因此很难将它们组合起来。所以我想将输出结果直接存储到impala表中,我该怎么做呢? 最佳答案 要将存储在HDFS中的文件内容公开为表,您可以定义一个外部表:CREATEEXTERNALTABLEtable_name(column_1string,...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/some/path/

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

python - 如何使用 pyspark 为非 pairwiseRDDs 正确 groupByKey

我是Python新手。我也是pysaprk的新手。我正在尝试运行一个代码,它采用一个元组的元组,看起来像这样(id,(span,mention))来执行.map(lambda(id,(span,text)):(id,text)).我正在使用的代码是:m=text\.map(lambda(id,(span,text)):(id,text))\.mapValues(lambdav:ngrams(v,self.max_ngram))\'''errortriggeredhere'''.flatMap(lambda(target,tokens):(((target,t),1)fortintoke

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs,如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的,但还有Spark。Spark拥有所有RDD类方法,这些方法完全有能力,但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库,为什么Hive会出现?文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

《PySpark大数据分析实战》-02.了解Hadoop

📋博主简介💖作者简介:大家好,我是wux_labs。😜热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。📝个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥📝个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥🎉请支持我:欢迎大家点赞👍+收

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类,或者我们可以定义自定义函数,该函数将提供划分为聚类桶的逻辑? 最佳答案 可以在任何列上创建集群/桶,对于非数字列,HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。 关于hadoop-Hive中字符串的CL

python - Pyspark sparkSql 问题

我正在使用clouderavm10.0,spark版本为1.6。登录pyspark控制台后,我正在尝试以下语句从配置单元中获取数据sqlContext.sql("select*from/user/hive/warehouse/default.party").show()我收到下面给出的错误。Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib/spark/python/pyspark/sql/context.py",line580,insqlreturnDataFrame(self._ssql_ctx.sql(sqlQue

sql - pyspark获取月份的周数

我对从pyspark中的datafrme列中的月份获取周数感到困惑,例如,将我的数据框视为WeekID,DateField,WeekNUM1,01/JAN/20172,15/Feb/2017我的输出应该如下所示WeekIDm,DateField,MOF1,01/JAN/2017,12,15/FEB/2017,2我尝试使用striftime和其他我无法执行的日期函数。请帮我解决这个问题。 最佳答案 您可以组合使用to_date和date_format:frompyspark.sql.functionsimportto_date,dat