草庐IT

spark-csv

全部标签

hadoop - 在 spark 中使用 hadoop 配置连接到 Hbase

我正在尝试在spark的MapPartitionFunction中创建hbase连接。Causedby:java.io.NotSerializableException:org.apache.hadoop.conf.Configuration我试过下面的代码SparkConfconf=newSparkConf().setAppName("EnterPriseRiskScore").setMaster("local");conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");conf.set("s

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案

hadoop - 如何使用 Spark 编写 avro 文件?

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

scala - spark-submit 无法访问本地文件系统

第一个count()方法调用中的非常简单的Scala代码文件。defmain(args:Array[String]){//createSparkcontextwithSparkconfigurationvalsc=newSparkContext(newSparkConf().setAppName("SparkFileCount"))valfileList=recursiveListFiles(newFile("C:/data")).filter(_.isFile).map(file=>file.getName())valfilesRDD=sc.parallelize(fileList)

file - '无法从空字符串创建路径',使用 csv 的 hadoop -put 命令

我正在尝试将基本的csv文件拉入hdfs我正在使用这个:hadoopfs-putC:\Users\Desktop\Terrorism.csv/user/Mydata/terrorism.csv它给我以下错误:CannotcreateaPathfromanullstring我可以通过创建一个配置单元表并将数据加载到该表中来解决问题,但我只想将数据放到hdfs上。 最佳答案 在路径上使用转义,因为它是Windows并且使用反斜杠:)hadoopfs-copyFromLocalC:\\Users\\Desktop\\Terrorism.c

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql,我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先,我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是,在添加spark和yarn认证的配置时,还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr

scala - 列出文件 scala emr hdfs(缺少 csv 文件)

我试图通过以下方法列出emrhdfs上目录中的所有文件:valdirectory=newFile(directoryPath)valfileStatusListIterator:RemoteIterator[LocatedFileStatus]=FileUtils.fs.listFiles(newPath(directoryPath),true)while(fileStatusListIterator.hasNext){valfileStatus=fileStatusListIterator.nextif(fileStatus.isFile){log.info(s"IteratorFi

json - 在为下游应用程序写入HDFS时,JSON与CSV文件格式的Mertis

我们正在提取源数据(xls)并将其注入hdfs。是否最好以csv或json格式编写这些文件,我们正在考虑选择其中一个,但在调用之前,我们想知道使用其中一个文件的优点和缺点是什么。我们试图找出的因素有:性能(数据量为2-5GB)加载与读取数据从这些文件中提取元数据(结构)信息是多么容易。注入的数据将被同时支持json和csv的其他应用程序使用。 最佳答案 阅读本文,它将解决您的问题:https://community.hitachivantara.com/community/products-and-solutions/pentaho