apache-karaf_草庐IT

hadoop - Apache spark - 许多输出文件

我正在使用apache-spark我的spark作业每天创建10k个小文件(~50MB)对于HDFS中的命名节点来说太过分了我尝试使用coalesce来减少输出文件的数量，但会减慢工作速度。谁能建议我应该使用什么？最佳答案我们有一个类似的案例。我们每小时运行一次批处理作业并合并所有新文件。您可以使用另一个spark作业或任何其他最适合您的框架来执行此操作。通过这种方式，您可以完全分离这2个任务，并从每个任务中获得最佳性能。关于hadoop-Apachespark-许多输出文件，我们

许多 hadoop section spark stackoverflow apache-spark hdfs partitioning

java - Apache Hadoop 字数统计错误

我的mongodb中存储了很多记录。看起来像这样:{"_id":xxxx,"url":"www.myurl.com/xxxxx","summary":"THISISDOCUMENTINTHE$url"}我想要的结果是这样的:{"_id":word_in_summary,"results":[{"url":"thecorrespondingurlthatwordappearsinsummary","count":"thetotalcountofthewordinthesummary"},{....}]}例如:{"_id":ObjectId("574ec02d8bee4f03d9174c1

Apache Hadoop INFO 55 mapred java mongodb mapreduce

sql - Apache Drill 对现有 Hadoop 集群中的其他 Hadoop 生态系统成员有什么负面影响吗？

如果我在现有的Hadoop集群中部署ApacheDrill，ApacheDrill是否会对现有Hadoop集群中的Hadoop生态系统的其他成员产生任何负面影响？最佳答案它不会对生态系统的其他成员产生任何负面影响，但会占用节点的大量内存。在安装Drill之前确保你有足够的内存。关于sql-ApacheDrill对现有Hadoop集群中的其他Hadoop生态系统成员有什么负面影响吗？，我们在StackOverflow上找到一个类似的问题： https://

Hadoop 负面 section sql olap apache-drill bigdata

apache - hdfsFileStatus 和 FileStatus 的区别

这两个类之间的主要区别是什么。主要是，在什么情况下我会使用一种而不是另一种？org.apache.hadoop.hdfs.protocol包http://www.sching.com/javadoc/hadoop/org/apache/hadoop/hdfs/protocol/HdfsFileStatus.htmlorg.apache.hadoop.fs包https://hadoop.apache.org/docs/r2.6.1/api/org/apache/hadoop/fs/FileStatus.html 最佳答案 HdfsFi

hdfsFileStatus FileStatus hadoop apache section

hadoop - 使用 int 数据类型加载时 apache pig 输出空值

我正在使用pig-0.16.0我正在尝试使用pig脚本连接两个制表符分隔文件(.tsv)。一些列字段是整数类型，所以我试图将它们加载为int。但是我看到我制作的“int”列没有加载数据，它们显示为空。我的连接没有输出任何结果，所以我退后一步，发现这个问题发生在加载步骤。我在这里粘贴我的pig脚本的一部分:REGISTER/usr/local/pig/lib/piggybank.jar;--$0=streaminputs/forum_node.tsv--$1=streaminputs/forum_users.tsvu_f_n=LOAD'$file1'USINGPigStorage('\t

hadoop apache 34 chararray code apache-pig

hadoop - 具有时间间隔的 apache pig 脚本

我想每小时对每个端口的RW列求和TimeIDNameRW----------------------------14:57:01000Port0134014:57:01001Port11314:58:01000Port086414:58:01001Port13614:59:01000Port0139414:59:01001Port12215:57:01000Port0134015:57:01001Port11315:58:01000Port086415:58:01001Port13615:59:01000Port0139415:59:01001Port122...20:57:01000

hadoop apache Port section Port0 apache-pig

hadoop - 无法在 Apache Tez 上运行

感谢您详细发布此内容以及屏幕截图。我已按照您提到的相同步骤进行操作，但我无法正确安装。我遇到的错误是错误:无法找到或加载主类org.apache.tez.dag.app.DAGAppMaster我已经下载了tez的构建版本。ApacheTez版本:0.8.4，Hadoop版本:2.6.0。我的tez-site.xml是tez.lib.uris${fs.defaultFS}/apps/tez-0.8.4,${fs.defaultFS}/apps/tez-0.8.4/lib/我的bashrc配置是:exportHADOOP_HOME=/usr/local/hadoopexportHADOO

hadoop Apache export HOME mapreduce apache-tez bigdata

hadoop - 在 Apache Hadoop 和 Hive (Redhat) 上安装 Hue

我有一个正在运行的Hadoop2.7和Hive2.0.1。我正在尝试安装Hive编辑器，以便我可以轻松编写HiveQL查询。因此，我下载并构建了Hue3.10。我将其配置为与HDFS和Hive一起使用(我不确定它们是否正确)。当我启动Hue时，它会检查配置，我在Hue的服务器日志中看到一些与webhdfs相关的错误[27/Jul/201623:08:55-0700]webhdfsERRORFailedtodeterminesuperuserofWebHdfsathttp://40.221.1.44:50070/webhdfs/v1/:..........[27/Jul/201623

hadoop Apache lt gt property hive hue

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作，但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性，将sparkassemblyjar链接到hivelib文件夹中，我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”，据我在配置单元日志中看到的那样，它执行带有所有必

spark NoClassDefFoundError java URLClassLoader ClassLoader hadoop apache-spark hive

java - Spring Hadoop 配置 - 没有符合条件的 org.apache.hadoop.conf.Configuration 类型的 bean

我正在尝试为Hadoop/Hive环境配置bean。根据文档，我需要ApacheHadoop配置类，它应该是Autowiring的。请参阅:http://docs.spring.io/spring-hadoop/docs/2.4.0.RELEASE/reference/html/springandhadoop-store.html(6.2.2节配置数据集支持)然而，当我尝试运行我的应用程序时，我得到:NoSuchBeanDefinitionException:没有找到类型为[org.apache.hadoop.conf.Configuration]的符合条件的bean依赖:预计至少有1

Configuration Spring hadoop section java spring-boot spring-data-hadoop