PySpark_草庐IT

python - 如何在pyspark sql中保存一个表？

我想将生成的表格保存到csv、文本文件或类似文件中，以便能够使用RStudio执行可视化。我正在使用pyspark.sql在hadoop设置中执行一些查询。我想将我的结果保存在hadoop中，然后将结果复制到我的本地驱动器中。myTable=sqlContext.sql("SOMEQUERIES")myTable.show()#ShowmyresultmyTable.registerTempTable("myTable")#SaveastablemyTable.saveAsTextFile("SEARCHPATH")#Savingresultinmyhadoop这将返回:Attribu

何在 pyspark section myTable code python hadoop save pyspark-sql

python - 从日期到字符串的 Pyspark 类型转换问题

我正在使用pyspark2.1。以下是我的数据框内容expecteddays,date139,30.JUl.2017134,01.NOV.2018我的输出应该如下所示138,30.JUL.2017,最后一列的填充由我的以下模块dateRangeBetween和get_date负责下面是我的代码fromdatetimeimportdatetimefromdatetimeimporttimedeltaimportpandasaspdfromdatetimeimporttimedeltafrompyspark.sqlimportSparkSessionfrompysparkimportSpa

Pyspark python calculatedDate datetime import hadoop apache-spark cloudera

session - pyspark 按用户标识计算 session 持续时间组

我正在尝试使用pyspark计算事件中每个用户ID的session持续时间，数据示例如下:diff_session.show(8,False):|userid|platform|previousTime|currentTime|timeDifference||1234|13|null|2017-07-2010:49:30.027|null||1234|13|null|2017-07-2010:04:23.1|null||1234|13|2017-07-2010:04:23.1|2017-07-2010:06:23.897|120||1234|13|2017-07-2010:04:23.

session pyspark 39 timeDifference 2017 hadoop apache-spark

hadoop - Pyspark 数据转换逻辑，用于将一列值分配给另一列

我正在使用spark2.1.0。我有如下所述的数据框。我对pyspark很陌生，我被这个问题困扰了现在的问题陈述是:考虑到b列，我应该根据对a列的引用填充C列，即对于a列中的每4个值，必须使用b列中的引用值来填充c列。例如，如下图所示，第4行的等效c值为30。这30是从b列获得的，其等效a为1下面是我的原始数据框ab0013021831045511826394354122183241515结果数据框应如下所示:abc000130021803100453051181810265391438546129218332441251518请帮我解决这个提前谢谢最佳答

配给 Pyspark section code 34 hadoop apache-spark transformation

python - pyspark 试图检索具有相同 id 的行

我正在使用spark2.1.0。下面是我的数据框。问题陈述来自b列，我需要检索在a中具有相同值而在b中具有不同值的行。提到了结果数据框ab1213142637结果数据框:ab121314我使用了下面的代码，但它不起作用sqlCtx.sql("select*fromdf1groupbya,bhavingcount(a)>=2")请帮我解决这个问题。最佳答案希望这对您有所帮助!importpyspark.sql.functionsasfuncdf=sc.parallelize([(1,2),(1,3),(1,4),(2,6),(3,

pyspark python section code 34 r hadoop

python - 文件名有空格的 Pyspark 错误处理

我正在使用pyspark2.1问题陈述:需要验证hdfs路径，文件如果存在需要将文件名复制到变量中以下是在引用了几个网站和stackoverflow后目前使用的代码importosimportsubprocessimportpandasaspdimporttimesdefrun_cmd(args_list):print('Runningsystemcommand:{0}'.format(''.join(args_list)))proc=subprocess.Popen(args_list,stdout=subprocess.PIPE,stderr=subprocess.PIPE)pro

有空 Pyspark code 39 details python regex hadoop

python - 使用pyspark从本地系统读取文件时获取文件名

补充更新:我尝试为我存在于hdfs中的文件编写相同的代码，它正在工作，但是当我为我的本地文件系统使用相同的代码时，我收到错误。Causedby:java.io.FileNotFoundException:Filefile:/root/cd/parsed_cd_5.xml不存在原始问题和初始更新我正在使用ElementTree来解析XML文件。我在python中运行了代码，它运行起来很有魅力。但是当我尝试使用spark运行相同的程序时，我遇到了以下错误。错误:File"/root/sparkCD.py",line82,inforfilenameinglob.glob(os.path.jo

pyspark python strong path section xml hadoop apache-spark

hadoop - 除了 pyspark 之外，我还需要使用普通的 python 还是 pyspark 拥有我需要的一切？

我的公司正在改用Hadoop和spark进行机器学习。我知道python在库中非常全面，但是当我们切换到pyspark时，如果我们需要的东西在pyspark中还不可用怎么办？另外，继续使用python可能更容易，因为我已经知道python。所以:我能否在spark中运行我的普通python代码并仍然获得速度等所有好处？人们是只使用pyspark还是同时使用普通python和pyspark？你能把它们混合在一起，一部分用python写，一部分用pyspark写吗？最佳答案 Pyspark或多或少是一个可以在python之上使用的函数

pyspark 拥有 code python hadoop machine-learning cloudera

xml - Pyspark:hdfs 中没有这样的文件或目录

我正在尝试使用pyspark解析xml文件。我的文件存在于HDFS中。我在下面写了我的代码，但是当我执行它时，它无法识别位置。请帮忙-下面是我的代码代码:importxml.etree.ElementTreeasETfilenme=sc.wholeTextFiles("/user/root/CDs")defadd_hrk(file):tree=ET.parse(file)doc=tree.getroot()filenme.map(lambda(filename,content):filename).foreach(add_hrk)错误:IOError:[Errno2]Nosuchfil

Pyspark hdfs strong section code xml hadoop elementtree

python - Pyspark 中的 Pickle 错误

我正在尝试在pyspark中解析xml。我有一个包含许多小xml文件的目录，我想解析所有xml并将其放入hdfs中，为此我在下面编写了代码。代码:importxml.etree.ElementTreeasETfromsubprocessimportPopen,PIPEimportpicklefilenme=sc.wholeTextFiles("/user/root/CD")dumpoff1=Popen(["hadoop","fs","-put","-","/user/cloudera/Demo/Demo.txt"],stdin=PIPE)defgetname(filenm):retur

Pyspark python code strong section hadoop pickle