PySpark3_草庐IT

python - 在 IntelliJ IDEA 中编写并运行 pyspark

我正在尝试在IntelliJ中使用Pyspark，但我不知道如何正确安装它/设置项目。我可以在IntelliJ中使用Python，我可以使用pysparkshell，但我无法告诉IntelliJ如何找到Spark文件(导入pyspark导致“ImportError:Nomodulenamedpyspark”)。任何有关如何包含/导入spark以便IntelliJ可以使用它的技巧都将受到赞赏。谢谢。更新:我试过这段代码:frompysparkimportSparkContext,SparkConfspark_conf=SparkConf().setAppName("scavengesom

编写 IntelliJ spark pyspark section python intellij-idea apache-spark

python - PySpark 使用 IAM 角色访问 S3

我想知道PySpark是否支持使用IAM角色访问S3。具体来说，我有一个业务限制，我必须担任AWS角色才能访问给定的存储桶。这在使用boto时很好(因为它是API的一部分)，但我找不到关于PySpark是否支持开箱即用的明确答案。理想情况下，我希望能够在本地以独立模式运行时承担一个角色，并将我的SparkContext指向该s3路径。我已经看到非IAM调用通常遵循:spark_conf=SparkConf().setMaster('local[*]').setAppName('MyApp')sc=SparkContext(conf=spark_conf)rdd=sc.textFile(

PySpark python code section gt amazon-web-services amazon-s3 amazon-iam

python - PySpark:写入时吐出单个文件而不是多个部分文件

有没有办法阻止PySpark在将DataFrame写入JSON文件时创建多个小文件？如果我运行:df.write.format('json').save('myfile.json')或df1.write.json('myfile.json')它创建了名为myfile的文件夹，我在其中找到了几个名为part-***的小文件，采用HDFS方式。是否可以通过任何方式让它吐出一个文件？最佳答案嗯，您的确切问题的答案是coalesce函数。但正如已经提到的那样，它根本没有效率，因为它会迫使一个工作人员获取所有数据并按顺序写入。df.coa

个部入时 code section json python amazon-s3 apache-spark pyspark apache-spark-sql

python - PySpark distinct().count() 在 csv 文件上

我是spark的新手，我正在尝试根据csv文件的某些字段制作一个distinct().count()。Csv结构(无标题):id,country,type01,AU,s102,AU,s203,GR,s203,GR,s2加载我输入的.csv:lines=sc.textFile("test.txt")然后lines上的不同计数按预期返回3:lines.distinct().count()但我不知道如何根据id和country进行不同的计数。最佳答案在这种情况下，您可以选择要考虑的列，然后计数:sc.textFile("test.tx

distinct PySpark code section pre python apache-spark

python - Pyspark Invalid Input Exception try except 错误

我正在尝试使用pyspark从s3读取最近4个月的数据并处理数据，但收到以下异常。org.apache.hadoop.mapred.InvalidInputException:InputPatterns3://path_to_clickstream/date=201508*在每个月的第一天，由于s3路径中没有条目(一个单独的作业处理数据并将数据上传到s3路径，而我的作业在该路径之前运行)，作业失败。我想知道是否有办法捕获此异常并允许作业继续处理所有存在的路径？最佳答案您可以简单地尝试在加载后立即触发廉价操作并捕获Py4JJava

Exception Pyspark section path code python amazon-s3 exception-handling apache-spark

python - 如何展平 PySpark 中的嵌套列表？

我有一个像这样的RDD结构:rdd=[[[1],[2],[3]],[[4],[5]],[[6]],[[7],[8],[9],[10]]]我希望它变成:rdd=[1,2,3,4,5,6,7,8,9,10]如何编写map或reduce函数使其工作？最佳答案例如，您可以使用flatMap并使用列表理解:rdd.flatMap(lambdaxs:[x[0]forxinxs])或者让它更通用一点:fromitertoolsimportchainrdd.flatMap(lambdaxs:chain(*xs)).collect()

展平 PySpark section code pre python apache-spark rdd

python - 连续行之间的日期差异 - Pyspark Dataframe

我有一个具有以下结构的表USER_IDTweet_IDDate11001ThuAug0519:11:39+0000201016022MonAug0917:51:19+0000201011041SunAug1911:10:09+0000201029483MonJan1110:51:23+0000201224532FriMay2111:11:11+0000201234374SatJul1003:21:23+0000201334334SunJul1104:53:13+00002013基本上我想做的是有一个PysparkSQL查询，它计算具有相同user_id号的连续记录的日期差异(以秒为单位

Dataframe Pyspark 0000 section 11 python apache-spark pyspark-sql

python - PySpark 减少按键？添加键/元组

我有以下数据，我要做的是[(13,'D'),(14,'T'),(32,'6'),(45,'T'),(47,'2'),(48,'0'),(49,'2'),(50,'0'),(51,'T'),(53,'2'),(54,'0'),(13,'A'),(14,'T'),(32,'6'),(45,'A'),(47,'2'),(48,'0'),(49,'2'),(50,'0'),(51,'X')]是为每个键计算值的实例(一个1字符串字符)。所以我先做了一张map:.map(lambdax:(x[0],[x[1],1]))现在将其作为键/元组:[(13,['D',1]),(14,['T',1]),(3

按键 PySpark 39 Counter code python apache-spark

python - 如何通过pyspark读取gz压缩文件

我有.gz压缩格式的行数据。我必须在pyspark中阅读它以下是代码片段rdd=sc.textFile("data/label.gz").map(func)但是我无法成功读取上面的文件。我如何读取gz压缩文件。我发现了一个类似的问题here但我当前的spark版本与该问题中的版本不同。我希望在hadoop中应该有一些内置函数。最佳答案 Sparkdocument明确指定可以自动读取gz文件:AllofSpark’sfile-basedinputmethods,includingtextFile,supportrunningondi

pyspark python section code textFile apache-spark

python - PySpark 与 sklearn TFIDF

我是PySpark的新手。我在玩tfidf。只是想检查他们是否给出相同的结果。但他们不一样。这是我所做的。#createthePySparkdataframesentenceData=sqlContext.createDataFrame(((0.0,"HiIheardaboutSpark"),(0.0,"IwishJavacouldusecaseclasses"),(1.0,"Logisticregressionmodelsareneat"))).toDF("label","sentence")#tokenizetokenizer=Tokenizer().setInputCol("se

PySpark sklearn gt lt td python apache-spark scikit-learn