apache-karaf

hadoop - Apache Kylin 是 SSRS(SQL Server Reporting Services)的良好替代品吗？

我们有分析数据的框架，借助OLAP的立方体设计和有ETL连接的仓库，它们都是sqlServer结构和SSRS(SQLServerReportingServices)。我们的一些报告需要很长时间才能得出结论，我们决定迁移到Hadoop生态系统。ApacheKylin是这个框架的一个很好的替代品吗？最佳答案首先，我会将SQLServerAnalysisServices与Kylin进行比较，而不是将ReportingServices与ReportingServices进行比较，因为ReportingServices更接近于前端系统。根

java - Apache Hadoop 2.7.4，配置 Fair Scheduler 导致错误

我配置了一个Hadoop2.7.4集群，其中有3个worker和1个master。我必须在集群上运行多个作业。一项工作需要很多时间才能完成，而其他工作则很小。我已经知道FairScheduler最适合我的情况。当我更新yarn-site.xmlFairSchedulerclass并重新启动集群，当我访问http://localhost:8088/cluster时会导致以下错误(资源管理器网页界面)HTTPERROR500Problemaccessing/cluster/.Reason:org.apache.hadoop.yarn.server.resourcemanager.sched

Scheduler Apache java hadoop org hadoop-yarn

hadoop - 如何在 Apache Pig 中合并相同关系的行(项目)

我是apachepig的新手。我有如下数据。tempdata=(linsys4f-PORT42-0211201516244460,dnis=3007047505)(linsys4fPORT42-0211201516244460,incoming_tfn=8778816235,tfn_location=AshburnAvaya,ivr_location=AshburnAvaya,state=NC)(linsys4f-PORT42-0211201516244460,language=ENGLISH)(linsys4f-PORT42-0211201516244460,outcome=Tran

何在 hadoop location incoming_tfn ivr_location apache-pig

apache-spark - 我有一个很大的 hql 查询，我正在使用 pyspark sql 调用它。但是我收到错误，例如 Bad connect ack with firstBadLink error

我知道以前也有人问过这个问题，但我问这个问题是因为我不确定问题是否相同。问题是我使用的是spark-sql，我首先创建了一个表:sqlContext=HiveContext(sc)sqlContext.sql("""droptableifexiststest_table""")sqlContext.sql("""createexternaltabletest_table......)partitionedby('column_name'datatype)storedastextfilelocation'/home/..../test_table'""")Thistablehaslike

apache-spark firstBadLink apache scheduler spark hadoop hive pyspark apache-spark-sql

java.lang.NoClassDefFoundError : Could not initialize class org. apache.hadoop.hbase.shaded.protobuf.ProtobufUtil$ClassLoaderHolder 错误

我尝试根据theofficialdocumentation安装和运行OpenTSDB我使用sudo./build/tsdbtsd--port=4242--config=/path/to/opentsdb/src/opentsdb.conf--staticroot=build/staticroot--cachedir="$tsdtmp"启动OpenTSDB一切似乎都运行良好，但是当我尝试使用./tsdbmkmetricmysql.bytes_receivedmysql.bytes_sent创建指标时，出现如下所示的错误。任何想法出了什么问题，我该如何解决？如果需要任何其他信息，请告诉我。

NoClassDefFoundError ClassLoaderHolder netty java org hadoop java-8 hbase opentsdb

hadoop - 如何在 Apache Pig 中使用 2 个 for 循环

如何在ApachePig中使用2个for循环？我有如下输入数据:1a315b41b225a515c31a315c225b4中间输出:对于1计数总数。a和b，15和25相似1a61b215b415c525a525b4最终输出:需要1个最大计数1a615c525a5 最佳答案 A=load'test.input'usingPigStorage()as(index:int,id:chararray,count:int);B=GROUPAby(index,id);C=FOREACHBGENERATEflatten(group),SUM(A.

何在 hadoop section code pre apache-pig

apache-spark - 如何使用 Spark Scala 连接 3 个 RDD

我想使用sparkrdd加入3个表。我使用sparksql实现了我的目标，但是当我尝试使用Rdd加入它时，我没有得到想要的结果。下面是我使用sparkSQL和output的查询:scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"===$"df2.act_id").join(movieDF.as("df3"),$"df2.mov_id"===$"df3.mov_id").filter(col("df3.mov_title")==="AnnieHall").select($"df1.act_fname",$"df

apache-spark apache 34 code String hadoop apache-spark-sql bigdata rdd

hadoop - Apache Kylin 是否需要 Apache Derby 或 Mysql 来运行示例多维数据集

我安装了Java、Hadoop、Hbase、Hive、Spark和Kylin。hadoop-3.0.3hbase-1.2.6apache-hive-2.3.3-binspark-2.2.2-bin-without-hadoopapache-kylin-2.3.1-bin如果有人帮助我安装和配置Kyle，我将不胜感激。最佳答案 http://kylin.apache.org/docs/这可能对你有帮助。您可以发送邮件至dev@kylin.apache.org，然后问题将在邮件列表中进行讨论和解答。发送邮件有一些提示:1.提供Kyli

多维 Apache section Kylin hadoop

hadoop - 尝试使用 Apache Pig 聚合数据时出错

这是我正在运行的代码:bigrams=LOAD's3://******'AS(bigram:chararray,year:int,occurrences:int,books:int);bg_tmp=filterbigramsBY(occurrences>=300)AND(books>=12);bg_tmp_2=GROUPbg_tmpALL;occ_cnt=FOREACHbg_tmp_2GENERATEbigram,SUM(bg_tmp_2.occurrences);x=LIMITocc_cnt100;DUMPx;这是我在计算occ_cnt时遇到的错误81201[main]ERRORor

时出 hadoop bg_tmp tmp section apache-pig

apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据？

假设我不是像Hive或HBase这样的工具(Spark无论如何都无法使用Hive索引进行优化)，将数据写入HDFS以便更快地访问该数据的最佳方式是什么。我的想法是保存许多不同的文件，其名称由键标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样，我们将有26x26=676个文件。因此，例如，如果我们想查看AlanWalker的记录，我们只需要加载文件AW.这是做这种事情的好方法还是有更好的方法？最佳答案我相信索引是您所需要的。在HDFS中和在数据库中一样，索引在插入时有一些开销，但查询速

apache-spark apache section strong HDFS hadoop

329 330 331332333 334 335