sparking

apache-spark - 一旦写入最终完成，如何处理 HDFS 目录中的新文件？

在我的场景中，我将CSV文件连续上传到HDFS。一旦上传了新文件，我想用SparkSQL处理新文件(例如，计算文件中字段的最大值，将文件转换为parquet)。即我在每个输入文件和转换/处理的输出文件之间有一个一对一的映射。我正在评估SparkStreaming以监听HDFS目录，然后使用Spark处理“流文件”。但是，为了处理整个文件，我需要知道“文件流”何时完成。我想将转换应用于整个文件，以保留文件之间端到端的一对一映射。我怎样才能转换整个文件而不是它的微批处理？据我所知，SparkStreaming只能将转换应用于批处理(DStreams映射到RDD)，而不能一次应用于整个文件(

apache-spark 何处 Spark blockquote Streaming hadoop hdfs spark-structured-streaming

hadoop - Janusgraph spark Guava 版

这是我的问题:我们正在使用带有java1.8.0_74的cloudera5.7.0，我们有spark1.6.0、janusgraph0.1.1、hbase1.2.0。我在gremlinshell中运行以下代码::loaddata/call-janusgraph-schema-groovywriteGraphPath='conf/my-janusgraph-hbase.properties'writeGraph=JanusGraphFactory.open(writeGraphPath)defineCallSchema(writeGraph)writeGraph.close()readG

Janusgraph hadoop spark export apache-spark graph guava

hadoop - 使用 Spark 对 Parquet 文件进行计数操作

我在HDFS中有两组相同的Parquet格式数据。一组按col1排序，另一组未排序。sorted_table约为127GB，unsorted_table约为117GB。大小在这里无关紧要。我使用SparkSQL运行了以下两个查询:selectcol1,count(*)fromsorted_tablewherecol1=someIntgroupbycol1selectcol1,count(*)fromunsorted_tablewherecol1=someIntgroupbycol1我在sparkUI上分析了这些查询，我发现对sorted_table的查询只读取了127MB的数据，而对u

Parquet hadoop code section table apache-spark

hadoop - Hive on spark 读取文件

我在Spark上使用Hive。我在Hadoop中压缩了日志文件。它们的平均大小为40MB，而block大小为128MB。我相信如果我以某种方式连接日志文件，我将拥有更少的block，并且数据读取时间也会减少。例如。我每小时都有日志文件(每天24个文件->24个block)。聚合后，我在6个block中有1个文件(24小时)。我已经使用Hive运行了基准测试，并注意到连接后的读取时间和查询执行时间比之前增加了6倍。问题:我对Spark上的Hadoop-Hive的看法有什么问题？最佳答案 Gzippedtextfilesarenots

hadoop spark section 射器 Hive apache-spark hiveql

hadoop - hive 在 Spark 上。读取 Parquet 文件

我正在尝试将parquet文件读入Spark上的Hive。所以我发现我应该做这样的事情:CREATETABLEavro_testROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STOREDASAVROTBLPROPERTIES('avro.schema.url'='/files/events/avro_events_scheme.avsc');CREATEEXTERNALTABLEparquet_testLIKEavro_testSTOREDASPARQUETLOCATION'/files/events/parqu

Parquet hadoop 34 avro section hive spark-avro

Hadoop:两个数据节点，但 UI 显示一个和 Spark:两个工作人员 UI 显示一个

我在SO和Quora以及许多网站上看到了很多答案。当他们为从属IP配置防火墙时，一些问题得到了解决，有人说这是一个UI故障。我很迷惑。我有两个datanode:一个是纯datanode，一个是Namenode+datanode。问题是我什么时候做:50075它只显示一个数据节点(也有名称节点的机器)。但是我的hdfsdfsadmin-report显示我有两个数据节点，在我的主机上启动hadoop之后，如果我这样做了jps在我的pure-datanode-machineorslavemachine我可以看到数据节点正在运行。两台机器上的防火墙都关闭了。sudoufwstatusverbo

工作人员 Hadoop code Remaining Used apache-spark hdfs webhdfs

hadoop - 使用 sqlcontext spark 执行 sql join

这个问题在这里已经有了答案:UseSparkSession.sql()withJDBC(1个回答)关闭4年前。我尝试运行查询以使用sqlcontext等联接查询Oracle数据库，valsql="selectafromb,cwhereb.join=c.join"valdataframe=sqlcontext.read.jdbc(url,sql,connection_properties)我收到无效的表名错误。但是，如果我尝试像下面这样查询表，它就可以正常工作。valdf1=sqlcontext.read.jdbc(url,"b",connection_properties)valdf2

sqlcontext hadoop section connection_properties apache-spark

java - SPARK 驱动程序在读取多个 S3 文件时内存不足

情况我是SPARK的新手，我在EMR中运行SPARK作业，它读取一堆S3文件并执行Map/reduce作业。总共有200个S3位置，平均包含400个文件。在最后的示例中，textFile(...)API使用逗号分隔的S3路径和通配符(*)调用:sc.textFile("S3://FilePath1/\*","S3://FilePath2/\*"....."S3://FilePath200/\*")该作业在驱动程序中花费了大量时间，最终内存不足并出现以下错误。Container[pid=66583,containerID=container_1507231957101_0001_02_0

在读驱动 spark 1507231957101 code java hadoop apache-spark amazon-s3

hadoop - hadoop和spark现在支持ipv6了吗？

我想在纯IPv6环境上构建Hadoop和Spark集群。我已经在IPv4上构建了，如何配置才能在IPv6环境下运行？hadoop和spark现在支持IPv6吗？最佳答案事实并非如此。截止到今天HADOOP-11890跟踪IPv6支持进度的，仍未解决。关于hadoop-hadoop和spark现在支持ipv6了吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/4705495

hadoop spark section IPv6 IPv apache-spark

hadoop - Spark 中的分解结构

我有具有以下架构的DataFrame:|--data:struct(nullable=true)||--asin:string(nullable=true)||--customerId:long(nullable=true)||--eventTime:long(nullable=true)||--marketplaceId:long(nullable=true)||--rating:long(nullable=true)||--region:string(nullable=true)||--type:string(nullable=true)|--uploadedDate:long(n

hadoop Spark nullable true uploadedDate apache-spark apache-spark-sql

224 225 226227228 229 230