apache-karaf

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出？

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业，将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件，然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出，并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar

中压 apache-spark Number Spark bytes hadoop google-cloud-dataproc

hadoop - org.apache.kylin.job.exception.ExecuteException : java. lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/typeinfo/TypeInfo 问题

我在https://issues.apache.org/jira/browse/KYLIN-2511上发现了类似的错误环境:hadoop-2.7.1hbase-1.3.2apache-hive-2.1.1-binapache-kylin-1.6.0-hbase1.x-bin我已经尝试将所有的hive库复制到kylin，但是又出现了另一个错误。org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.NoClassDefFoundError:org/apache/hadoop/hive/serde2/typeinfo/T

hadoop apache section hive kylin

apache-spark - 阅读时忽略了 Spark 中已排序文件的 Parquet 摘要文件 (_metadata)？

我有一个包含不同列和ID的排序数据集。数据集已排序(也使用parquet-tools验证):示例:file1:ID1-10file2:ID10-12file3:ID12-33....我还生成并编写了_metadata和_common_metadata文件。我尝试使用过滤器查询(非常大的)数据集valmydata=spark.read.parquet("s3a://.../mylocation")valresult=mydata.filter(mydata("id")===11)result.explain(true)解释告诉我:==ParsedLogicalPlan==Filter(i

apache-spark metadata spark 34 parquet hadoop

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里，我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组，最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里，我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时，结果会在几秒钟内更快，但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比，它会产生性能问题。在尝试计算Impala表的统计信息时，我无法识别这两个表之间

apache-spark Parquet Impala section hadoop pyarrow

hadoop - Apache Hadoop HDFS 能否帮助加快大型文件上传(通过网络浏览器)到服务器的速度？

据我所知，HadoopHDFS不能提高网络速度，但我在与一些人讨论时试图集思广益，讨论如何显着加快上传速度，有人说他们能够显着提高使用HDFS的上传速度。如果用户在LAN(100MBPS)上，当用户使用浏览器上传大于100GB的大文件时，HadoopHDFS是否可以通过某种方式帮助提高上传速度？最佳答案网络浏览器和网络服务器本身将成为瓶颈。与hadoopfs-copyFromLocal的直接数据节点编写器相比，他们必须在那个服务器上缓冲文件，然后上传到HDFSHUE(使用WebHDFS)以这种方式运行，我认为没有一种简单的方法可

大型 hadoop section HDFS strong

java - Apache 凤凰java.lang.OutOfMemoryError : unable to create new native thread

我有一个微型Hadoop集群，它有5个数据节点和1个名称节点，所有4核/4线程机器每个都有4GB内存，除了一个数据节点有8GB内存。他们都在运行RHEL6x86_64。HBase版本为1.2，Phoenix版本为4.14我正在通过Phoenix查询服务器和“瘦”JDBC客户端连接到ApachePhoenix。Phoenix查询服务器在名称节点上运行。我正在尝试更新插入约2000个元组，每10分钟约25列，该表已经插入了超过200万个元组，但有时我会收到以下形式的异常:Causedby:java.lang.OutOfMemoryError:unabletocreatenewnativet

java OutOfMemoryError section native hadoop hbase apache-phoenix

apache-spark - native 文件系统上的 Spark 行为

我们正在尝试在没有Hadoop和HDFS等分布式存储的情况下在我们的项目中运行Spark。Spark安装在具有10个内核和16GBRAM的单个节点上，并且该节点不属于任何集群。假设Spark驱动程序占用2个内核，其余内核在执行时由执行程序(每个2个)消耗。如果我们将存储在Spark本地磁盘中的一个大CSV文件(大小为1GB)处理为RDD，并将其重新分区为4个不同的分区，执行程序是否会并行处理每个分区？如果我们不将RDD重新分区为4个差异分区，执行者会做什么？如果不使用HDFS，我们会失去分布式计算和并行性的能力吗？最佳答案 Spa

apache-spark apache section Spark 的 hadoop hdfs

apache-kafka - 如何在kafka中找到所有更正的索引文件

我们的集群中有3台kafka机器，kafka版本-0.10.0.2.6,和3个zookeeper服务器版本-3.4.6我们有一个kafka代理无法启动的问题，这似乎是因为损坏的索引文件我们注意到，kafka日志(/var/log/kafka/server.log)在每台kafka机器上指示大约数千个损坏的索引文件，如下所示来自server.log的示例[2019-02-2512:34:44,907]INFOCompletedloadoflogtopic.pop.control.gtp.enrichment-38with14logsegmentsandlogendoffset200458

kafka 更正 index kafka-logs apache-kafka

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7，hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分；即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

无故 apache-spark apache java parquet hadoop

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上？谢谢最佳答案 Beeline是一个ApacheHive客户端，与Spark无关，因此您不会在Spark历史服务器中看到查询。不过，查询应该在YARN中运行，如果您转到YARN资源管理器WebUI(如果您有权访问Ambari，应该在快速链接下)，您会在那里看到它们。关于apache-spark-在Yarn上运行Spark直线，我们在StackOverf

apache-spark apache section Spark 中运 hadoop apache-spark-sql hadoop-yarn

331 332 333334335 336 337