pyspark-dataframes

hadoop - Pyspark 数据转换逻辑，用于将一列值分配给另一列

我正在使用spark2.1.0。我有如下所述的数据框。我对pyspark很陌生，我被这个问题困扰了现在的问题陈述是:考虑到b列，我应该根据对a列的引用填充C列，即对于a列中的每4个值，必须使用b列中的引用值来填充c列。例如，如下图所示，第4行的等效c值为30。这30是从b列获得的，其等效a为1下面是我的原始数据框ab0013021831045511826394354122183241515结果数据框应如下所示:abc000130021803100453051181810265391438546129218332441251518请帮我解决这个提前谢谢最佳答

配给 Pyspark section code 34 hadoop apache-spark transformation

python - pyspark 试图检索具有相同 id 的行

我正在使用spark2.1.0。下面是我的数据框。问题陈述来自b列，我需要检索在a中具有相同值而在b中具有不同值的行。提到了结果数据框ab1213142637结果数据框:ab121314我使用了下面的代码，但它不起作用sqlCtx.sql("select*fromdf1groupbya,bhavingcount(a)>=2")请帮我解决这个问题。最佳答案希望这对您有所帮助!importpyspark.sql.functionsasfuncdf=sc.parallelize([(1,2),(1,3),(1,4),(2,6),(3,

pyspark python section code 34 r hadoop

python - 文件名有空格的 Pyspark 错误处理

我正在使用pyspark2.1问题陈述:需要验证hdfs路径，文件如果存在需要将文件名复制到变量中以下是在引用了几个网站和stackoverflow后目前使用的代码importosimportsubprocessimportpandasaspdimporttimesdefrun_cmd(args_list):print('Runningsystemcommand:{0}'.format(''.join(args_list)))proc=subprocess.Popen(args_list,stdout=subprocess.PIPE,stderr=subprocess.PIPE)pro

有空 Pyspark code 39 details python regex hadoop

python - 使用pyspark从本地系统读取文件时获取文件名

补充更新:我尝试为我存在于hdfs中的文件编写相同的代码，它正在工作，但是当我为我的本地文件系统使用相同的代码时，我收到错误。Causedby:java.io.FileNotFoundException:Filefile:/root/cd/parsed_cd_5.xml不存在原始问题和初始更新我正在使用ElementTree来解析XML文件。我在python中运行了代码，它运行起来很有魅力。但是当我尝试使用spark运行相同的程序时，我遇到了以下错误。错误:File"/root/sparkCD.py",line82,inforfilenameinglob.glob(os.path.jo

pyspark python strong path section xml hadoop apache-spark

hadoop - 除了 pyspark 之外，我还需要使用普通的 python 还是 pyspark 拥有我需要的一切？

我的公司正在改用Hadoop和spark进行机器学习。我知道python在库中非常全面，但是当我们切换到pyspark时，如果我们需要的东西在pyspark中还不可用怎么办？另外，继续使用python可能更容易，因为我已经知道python。所以:我能否在spark中运行我的普通python代码并仍然获得速度等所有好处？人们是只使用pyspark还是同时使用普通python和pyspark？你能把它们混合在一起，一部分用python写，一部分用pyspark写吗？最佳答案 Pyspark或多或少是一个可以在python之上使用的函数

pyspark 拥有 code python hadoop machine-learning cloudera

xml - Pyspark:hdfs 中没有这样的文件或目录

我正在尝试使用pyspark解析xml文件。我的文件存在于HDFS中。我在下面写了我的代码，但是当我执行它时，它无法识别位置。请帮忙-下面是我的代码代码:importxml.etree.ElementTreeasETfilenme=sc.wholeTextFiles("/user/root/CDs")defadd_hrk(file):tree=ET.parse(file)doc=tree.getroot()filenme.map(lambda(filename,content):filename).foreach(add_hrk)错误:IOError:[Errno2]Nosuchfil

Pyspark hdfs strong section code xml hadoop elementtree

python - Pyspark 中的 Pickle 错误

我正在尝试在pyspark中解析xml。我有一个包含许多小xml文件的目录，我想解析所有xml并将其放入hdfs中，为此我在下面编写了代码。代码:importxml.etree.ElementTreeasETfromsubprocessimportPopen,PIPEimportpicklefilenme=sc.wholeTextFiles("/user/root/CD")dumpoff1=Popen(["hadoop","fs","-put","-","/user/cloudera/Demo/Demo.txt"],stdin=PIPE)defgetname(filenm):retur

Pyspark python code strong section hadoop pickle

hadoop - Pyspark:远程Hive仓库位置

我需要从Pyspark读取/写入存储在远程HiveServer中的表。关于这个远程Hive，我只知道它运行在Docker下。从HadoopHue中，我找到了一个iris表的两个url，我尝试从中选择一些数据:我有一个表元存储url:http://xxx.yyy.net:8888/metastore/table/mytest/iris和表格位置url:hdfs://quickstart.cloudera:8020/user/hive/warehouse/mytest.db/iris我不知道为什么最后一个url包含quickstart.cloudera:8020。也许这是因为Hive在Do

Pyspark hadoop code metastore Hive docker hadoop2

scala - 将 DataFrame 作为文本文件加载到 HDFS 和 S3

这个问题在这里已经有了答案:WritesingleCSVfileusingspark-csv(16个答案)关闭5年前。我正在尝试使用以下代码将DataFrame作为文本格式文件加载到HDFS和S3中。DataFrame名称为finalData。valtargetPath="/user/test/File"valnow=Calendar.getInstance().getTime()valformatter=newSimpleDateFormat("yyyyMMddHHmmss")valtimeStampAfterFormatting=formatter.format(now)valta

DataFrame 本文 section code test scala hadoop apache-spark hdfs

hadoop - 可以获取多个输入文件而不在 pyspark 中创建一个 RDD 吗？

在Hadoop中，我可以将应用程序指向一个路径，然后映射器将单独处理文件。我必须以这种方式处理它，因为我需要解析文件名和路径以匹配我直接在映射器中加载的其他文件。在pyspark中，将路径传递给SparkContext的文本文件会创建一个RDD。有什么方法可以在Spark/pyspark中复制相同的Hadoop行为吗？最佳答案我希望这能解决您的一些困惑:sparkContext.wholeTextFiles(path)返回一个pairRDD(有用链接:https://www.safaribooksonline.com/libra

建一中创 section file hadoop pyspark