sparking

scala - 从 Spark 中的 Google 存储桶中读取文件

我正在尝试从谷歌存储桶中读取文件，尽管我可以通过在进入sparkshell时包含gcsjar来通过spark-shell读取它。通过spark-submit提交时抛出以下错误。Exceptioninthread"main"java.lang.NoSuchMethodError:com.google.common.base.Splitter.splitToList(Ljava/lang/CharSequence;)Ljava/util/List;atcom.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase$ParentTimest

python - 输入路径不存在错误apache spark

我是学习spark的初学者。我正在关注一本书“HoldenKarau、AndyKonwinski、PatrickWendell和MateiZaharia的LearningSpark”。本书给出了python代码的例子>>>lines=sc.textFile("README.md")#CreateanRDDcalledlines>>>lines.count()#CountthenumberofitemsinthisRDD127>>>lines.first()#FirstiteminthisRDD,i.e.firstlineofREADME.mdu'#ApacheSpark'我想知道“RE

python apache section cloudera README hadoop apache-spark pyspark

java - 如何将 zip 文件的内容分配给 Spark 中的每个任务？

所以，我有一个应用程序，其中有多个压缩文件位于HDFS目录中。我想创建一个RDD，其中每个任务都处理zip文件的内容。此时，我根据文件名创建一个RDD，并在每个任务中使用HDFS客户端库读取一个zip文件的内容。但是，我不想这样做，而是让一个任务自动分配zip文件的内容。我认为这样会更有效率，因为计算任务会转到包含zip文件的节点，而在我目前的方法中，我将数据带到计算任务，这意味着任务可能必须读取zip文件分布在其他节点上。最佳答案您可以使用HadoopRDDAPI(示例PySpark代码):newconf={"mapred.i

配给 Spark section zip 34 java scala hadoop apache-spark

使用 spark-submit 时出现 Hadoop 错误

我正在尝试通过以下方式使用Amazonec2进行spark-submit:spark-submit--packagesorg.apache.hadoop:hadoop-aws:2.7.1--masterspark://amazonaws.comSimpleApp.py我最终遇到了以下错误。好像是在找hadoop。我的ec2集群是使用spark-ec2命令创建的。IvyDefaultCachesetto:/home/adas/.ivy2/cacheThejarsforthepackagesstoredin:/home/adas/.ivy2/jars::loadingsettings::u

时出 spark-submit hadoop hadoop-aws apache apache-spark amazon-ec2 spark-ec2

hadoop - 将 spark 数据帧导出到 hive 数据库时出现 Java 堆空间错误

我正在使用pyspark对Hive中的表进行一些文本分析。我使用以下代码frompyspark.sqlimportSQLContext,Row,HiveContextfrompyspark.sql.functionsimportcol,udf,StringTypefrompyspark.sql.typesimport*frompysparkimportSparkContexthc=HiveContext(sc)df=hc.sql("select*fromtable1")defcleaning_text(sentence):sentence=sentence.lower()sentenc

时出 hadoop section cleaned pyspark out-of-memory text-analysis

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport

hadoop tables spark lt gt apache-spark hive metastore hivecontext

hadoop - 使用 IPython 和 Jupyter 笔记本运行 Spark 应用程序

我正在尝试使用theseinstructions安装Jupyter.我已经在Anaconda下安装，当我尝试运行pyspark时(来自部分使用PySpark启动笔记本)我收到以下错误:$pysparkTraceback(mostrecentcalllast):File"/opt/cloudera/parcels/Anaconda/bin/jupyter",line4,infromjupyter_core.commandimportmainImportError:Nomodulenamedjupyter_core.command 最佳答案

IPython Jupyter section cloudera Anaconda hadoop pyspark

hadoop - Spark 分区修剪在 1.6.0 上不起作用

我在hdfs上创建了分区的parquet文件并创建了HIVE外部表。当我在分区列上使用过滤器查询表时，spark检查所有分区文件而不是特定分区。我们使用的是spark1.6.0。数据框:df=hivecontext.createDataFrame([("class1","Economics","name1",None),("class2","Economics","name2",92),("class2","CS","name2",92),("class1","CS","name1",92)],["class","subject","name","marks"])创建Parquet分区

hadoop Spark subject 34 students apache-spark pyspark-sql

scala - Spark/Scala - 从数据框中有条件地选择列

我有两个配置单元表A和B以及它们各自的数据帧df_a和df_bA+----+-----+-----------+|id|name|mobile1|+----+-----+-----------+|1|Matt|123456798|+----+-----+-----------+|2|John|123456798|+----+-----+-----------+|3|Lena||+----+-----+-----------+B+----+-----+-----------+|id|name|mobile2|+----+-----+-----------+|3|Lena|12345679

scala Spark code mobile section hadoop apache-spark hive

json - 在 Spark 或 Hive 中调用 get_json_object() 时无法获取值

json字符串'{"5.1":1,"s":2}'调用时selectget_json_object('{"5.1":1,"s":2}',concat("$.","5.1"))returnNULL什么时候打电话selectget_json_object('{"5.1":1,"s":2}',concat("$.","s"))return2看来。5.1中get_json_object()获取不到值。是否有任何方法可以使get_json_object()正常工作？hivedocument显示。是子运算符，我可以禁用它吗？最佳答案 .键内不支

json get_json_object code section hadoop apache-spark hive

215 216 217218219 220 221