apache-karaf

hadoop - 在 RHEL 7 上安装 Apache Bigtop

我正在寻求帮助，我的任务是在工作中建立一个Hadoop集群。我在家里的笔记本电脑上使用开源堆栈完成了单节点的工作(我试图坚持使用开源Apache堆栈以避免任何许可成本。现在我们对Cloudera或HortonWorks没有兴趣。)。我偶然发现了ApacheBigTop堆栈(1.2.0)并在那里四处闲逛。现在，我仍在努力思考它提供的内容(我还没有找到对Hadoop/Spark版本等的引用)。我可以在以下方面获得一些帮助吗:1.2.0版本提供了哪些Hadoop/Spark/其他工具版本？是否有关于在RHEL7下从头开始安装完整Hadoop/Spark集群的良好引用？我有12个服务器，我计划

hadoop - beeline 和 spark-shell 可以为同一个 apache spark 显示不同的数据库吗？

我在ubuntu上安装了hadoop2.8.1，然后在上面安装了spark-2.2.0-bin-hadoop2.7。首先，当我通过spark-shell创建数据库并尝试通过javaJDBC程序访问它时，我发现没有表存在。然后我使用直线并观察到这里也不存在数据库。我通过直线创建数据库。为什么spark-shell和beeline显示的DB不同？他们可能应该显示相同的内容。我尝试了连接hive2并获取表的普通JDBC程序，观察到有时它显示我通过spark-shell创建的表，有时显示通过直线创建的表...请帮助。有时直线也会发生同样的情况。最佳答案

spark spark-shell section hive hadoop apache-spark jdbc

hadoop - Apache Drill 无法从 HDFS 读取文件(资源错误 : Failed to create schema tree)

在我们的HDFS集群的一个边缘节点上设置drill后，我无法读取任何hdfs文件。我可以从本地文件查询数据(只要它们位于具有777权限的文件夹中)但是从hdfs查询数据失败并出现以下错误:Error:RESOURCEERROR:Failedtocreateschematree.[ErrorId:d9f7908c-6c3b-49c0-a11e-71c004d27f46onserver-name:31010](state=,code=0)查询:0:jdbc:drill:zk=local>select*fromhdfs.`/names/city.parquet`limit2;从本地文件查询工

hadoop Apache section code pre apache-drill

hadoop - java.lang.NoSuchMethodError : org. apache.hadoop.fs.FsServerDefaults.<init>(JIISIZJLorg/apache/hadoop/util/DataChecksum$Type;)V

当我运行oozie示例时，在我的HADOOP2.6.5HA和oozie(使用oozie-4.1.0-cdh5.12.1)中。[oozie@mastershell]$catjob.propertiesnameNode=hdfs://cluster1:8020jobTracker=master:8032queueName=defaultexamplesRoot=examplesoozie.wf.application.path=${nameNode}/user/oozie/${examplesRoot}/apps/shell[hadoop@mastersbin]$[hadoop@maste

hadoop apache java oozie

获取时的 Apache Nutch 2.3.1 扩展点

我已成功配置Hadoop(2.x)、Hbase和Nutch2.3.1。我还抓取了一些示例页面也用于测试。现在我必须使用开源工具cld2对特定语言进行集中爬取。如果抓取的文档不包含该特定语言，则不应保存该文档(在Hbase中)，也不应将其索引到Solr。在NutchWIKI，在获取时没有给出扩展点。有没有其他可能的方法来完成这项工作？最佳答案目前Nutch附带的fetchers实现中没有扩展点。如果您考虑一下，您需要获取和解析文档(以提取语言)，然后您可以编写自己的IndexingFilter来检查文档的语言并决定是否要索引它与否

Apache Nutch section https hadoop hbase

hadoop - Hive 存档分区(动态)失败 : Execution Error, 从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我正在尝试从我的表中归档一些旧数据。使用ALTERTABLETABLE_NAMEARCHIVEPARTITION(part_col)查询。Hadoopversion-2.7.3Hiveversion-1.2.1表结构如下，hive>descclicks_fact;OKtimetimestampuser_idvarchar(32)advertiser_idintbuy_idintad_idintcreative_idintcreative_versionsmallintcreative_sizevarchar(10)site_idintpage_idintkeywordvarchar(4

hadoop Execution java apache hive hiveql hadoop2 hadoop-archive

apache - 如何限制 Apache Nutch 2.3.1 抓取故事内容而不是边栏

我必须抓取一些新闻网站。我已经使用Hadoop2.7.4和Hbase集群设置了apacheNutch2.3.1。我必须通过solr6.6.1提供搜索。在爬取一些网站后，我观察到Nutch会爬取一个页面中的所有内容。在新闻网站中，有包含最新或热门新闻等的侧边栏。这些侧边栏内容随时间而变化。有没有办法让Nutch爬取主要故事内容并避免出现此类侧边栏。最佳答案嗯，因为您使用的是Nutch2.x，所以这有点困难，对于Nutch1.x，您可以使用Tika上提供的样板管道实现。但不幸的是，它还没有移植到2.x分支。

apache section 侧边 Nutch hadoop web-crawler sitemap

hadoop - Apache Drill Query 数据恢复在 HDFS 系统上不是常量

我在我的项目中使用ApacheDrill和HDFS。我正在处理v.big文件(例如150GB)并且该文件存储在HDFS系统中。我正在编写我的Drill查询，这样我将获得一定数量的数据，我将处理这些数据(例如100行)，然后再次对该文件触发查询，这样我的性能就会提高。(例如SELECT*FROMdfs.文件路径LIMIT100)但是每次当我对HDFS系统中的那个文件执行查询时，我都没有得到一致的数据。它每次都会更改，因为Hadoop将从任何集群中获取该数据。因此，在获取所有记录的整个过程中，我可能会得到与我已经拥有的相同的记录。最佳答案

hadoop Apache section code stackoverflow hdfs apache-drill

java - 为什么 org.apache.hadoop.io.Writable 不能转换为 org.apache.hadoop.io.IntWritable？

我的mapreduce应用程序如下所示。我想对字符串中的3个值求和publicclassStockCount{publicstaticclassMapperClassextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline[]=value.toString().split(",");//mgrno,rdate,cusip,shares,sole,shared,no//[0],[1],[2],[3],[4],[5],[6]

apache hadoop IntWritable IntArrayWritable java mapreduce writable

java - ClassNotFoundException : org. apache.pdfbox.pdmodel.PDDocument

我在编译过程中遇到以下错误。我正在使用EclipseIDE并在Ubuntu上工作。我在构建路径中添加了以下jar文件1)pdfbox1.8.13及其所有依赖项2)Commons-logging-1.2。请告诉我为什么类在jar文件中时会出现错误？Error:java.lang.ClassNotFoundException:org.apache.pdfbox.pdmodel.PDDocumentatjava.net.URLClassLoader$1.run(URLClassLoader.java:359)atjava.net.URLClassLoader$1.run(URLClassLo

ClassNotFoundException PDDocument java hadoop URLClassLoader eclipse

328 329 330331332 333 334