草庐IT

apache-karaf

全部标签

apache-spark - 使用 Spark/Scala 读取序列文件时,无法序列化结果 : org. apache.hadoop.io.IntWritable

从逻辑上读取带有Int和String的序列文件,然后如果我这样做:valsequence_data=sc.sequenceFile("/seq_01/seq-directory/*",classOf[IntWritable],classOf[Text]).map{case(x,y)=>(x.toString(),y.toString().split("/")(0),y.toString().split("/")(1))}.collect这没问题,因为IntWritable已转换为String。如果我这样做:valsequence_data=sc.sequenceFile("/seq_0

python - apache spark 加载内部文件夹

importfindsparkfindspark.init('C:\spark')frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()a=[]i=1880whilei我运行代码但出现错误;dataset1=spark.read.format('csv').option('header','true').load('C://venq/uyh/'+a)类型错误:只能将str(不是“列表”)连接到str我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹

apache-spark - DCOS 集群上的 Spark 提交失败,出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

java - 是否在任何地方记录了 Apache Hadoop 的构建工件?

我刚刚开始使用ApacheHadoop,因此,我的第一个目标基本上是运行“helloworld”应用程序。首要任务始终是设置开发环境并能够编译代码。更具体地说,我正在尝试编译找到的类here.这些文件代表一个简单的MapReduce作业,作为Hadoop书籍的一部分。本书作者使用hadoop-client作为依赖项(source),但由于有太多工件-我将返回-我想知道我是否可以使用另一个依赖项。我总是试图“导入”或仅依赖于最少的一组工件和类型。本书作者(还)没有谈到Hadoop分发了哪些工件,以及我为什么要使用其中一个的话题。Hadoop的网站和Internet的其余部分似乎也不会在意

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此,每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是,我的数据不包含关于年月日的信息,因为这不是数据本身的一

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作,但尚不清楚这是否会将文件副本分发​​给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上,所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗? 最佳答案 cloudcp是使用Spark做复制的例子;文

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群,然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展,而sparkRM运算符允许进行fp-growth,从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者,现在已经安装了spark2.4,所以我想知道应该选择哪个版本最好。因为我想避免冲突,这太糟糕了。

hadoop - 如何修复 Jython 和 HBase 中的 "ImportError: No module name apache"错误

我正在尝试运行以下Jython代码来扫描hbase表:importjava.langfromorg.apache.hadoop.hbaseimportTableName,HBaseConfigurationfromorg.apache.hadoop.hbase.clientimportConnection,ConnectionFactory,Result,ResultScanner,Table,Adminfromorg.apache.hadoop.confimportConfigurationconf=HBaseConfiguration.create()connection=Conn