草庐IT

Pyspark-Cluster

全部标签

hadoop - Wordcount Nonetype 错误 pyspark-

我正在尝试进行一些文本分析:defcleaning_text(sentence):sentence=sentence.lower()sentence=re.sub('\'','',sentence.strip())sentence=re.sub('^\d+\/\d+|\s\d+\/\d+|\d+\-\d+\-\d+|\d+\-\w+\-\d+\s\d+\:\d+|\d+\-\w+\-\d+|\d+\/\d+\/\d+\s\d+\:\d+','',sentence.strip())#datesremovedsentence=re.sub(r'(.)(\/)(.)',r'\1\3',sen

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

python - PySpark 动态列计算

下面是我的spark数据框abc134200410220我的输出应该如下所示abc13420241-1223公式是prev(c)-b+a即4-2+0=2和2-4+1=-1 最佳答案 frompyspark.sql.functionsimportlag,udffrompyspark.sql.typesimportIntegerTypefrompyspark.sql.windowimportWindownumbers=[[1,2,3],[2,3,4],[3,4,5],[5,6,7]]df=sc.parallelize(numbers).

python - Pyspark 在查找前一行时按组迭代数据帧

请帮助我,我是spark的新手。下面是我的数据框typecol1col2col3104101270011001183022null002null100301260320134003500下面应该是我的输出typecol1col2col3result1041001270014110013118302-1682null002null1003012600320112534001213500116挑战在于必须对每一组类型的列进行计算,公式类似于prev(col2)-col1+col3我尝试在col2上使用window和lag函数来填充结果列,但它没有用。下面是我的代码part=Window()

Spark在Windows下的环境搭建及pyspark的使用

  一、JDK的安装    Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTMPlatformStandardEditionDevelopmentKit),并将环境变量配置好。可参考我的另一篇博客:http://t.csdnimg.cn/6Kj8w二、Spark的安装1.下载Spark        从Spark官网进行下载:ApacheSpark™-UnifiedEngineforlarge-scaledataanalytics,点击Downloa

python - 多列上的 pyspark 条件并返回新列

我使用的是spark2.1,脚本是pyspark。请帮我解决这个问题,因为我被困在这里了。问题陈述:根据多个列的条件创建新列输入dataframe如下FLG1FLG2FLG3TFTFTTTTF现在我需要创建一个新列作为FLG,我的条件就像FLG1==T&&(FLG2==F||FLG2==T)我的FLG必须是T否则F将dataframe视为DF下面是我试过的代码片段DF.withColumn("FLG",DF.select(when(FLG1=='T'and(FLG2=='F'orFLG2=='T','F').otherwise('T'))).show()没有工作我在未定义时获取名称请帮

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中,Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动,但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

python - 在 hive 或 pyspark 中透视日志

我有很多这种格式的文件日志:[Windowsuser]Pâmela[Hostname]DV6000[Localtime]14:25:07[Systemtime]17:25:07[ASCWebBrowserinfo]1.1.1[LastWriteTime]07/19/201614:01[HDInfo]Volumename:,Serial:1713925408,FileSystem:NTFS,MaxComponentLength:255[NetworkInfo[Index]48[Type]1[Description]TAP-Win32AdapterOAS#6[Name]{343D77F2-

hadoop - 安装 Spark Cluster,Hive 的问题

我正在尝试启动Spark/Shark集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar,但不确定原因。这是详细信息,任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:14/03/1411:24:47信息Configuration.d