hortonworks-dataflow

hadoop - 如何正确配置 Hortonworks Sandbox 的客户端？

相关:HowconnecttoHortonworkssandboxHbaseusingJavaClientAPI我目前在虚拟机中使用Hortonworks沙盒进行概念验证。但是，我无法正确配置客户端(在VM之外，但在同一台计算机上)。我查找了有关如何配置客户端的文档，但没有找到。我需要客户端配置来访问HBase和MapReduce，但最值得赞赏的是一份列出客户端到沙箱所有部分的配置的文档。最佳答案它实际上比我想象的还要愚蠢。好像不是所有需要的端口都默认转发，有必要在VM配置中全部添加。

string - 使用 hortonworks hadoop hive 聚合字符串

我正在尝试将安全表展平，以便为每个国家/地区制作一行。如果这对所需的SQL有所不同，我正在使用Hive作为当前在hortonworks中的执行引擎。下面是我试图实现的示例。(country,Name)(US,'Matt'),(US,'Rocks'),(GB,'Stylus'),(FR,'Foo'),(FR,'Bar'),(FR,'Baz')我要的查询结果:CountryName-----------------------------------------GBStylusFRBar,Baz,FooUSMatt,Rocks我真的不知道从哪里开始。有人知道吗？我在另一个线程上发现了一些语

hortonworks string section stackoverflow questions hadoop hive hiveql hortonworks-data-platform

java - 在 Hortonworks 沙箱中流式传输 Hadoop jar 文件，没有 contrib 目录

我正在hortonworks沙箱中演示hadoopvirtualmachine.我之前在EC2上设置了简单的elasticmapreduce流作业，遵循patterns喜欢this,或this.但是，我似乎没有安装流媒体jar——事实上，我似乎缺少许多所需的基本目录:$HADOOP_HOME/mapred/contrib/我的ls-lah实际上是这样的:[root@sandbox~]#ls-lahtotal60Kdr-xr-x---.5rootroot4.0KApr1018:52.dr-xr-xr-x.24rootroot4.0KApr1018:31..-rw-------1rootr

沙箱中流 root hadoop streaming java hortonworks-data-platform

hadoop - Kafka console producer 在 Hortonworks HDP 2.3 Sandbox 中出错

我找遍了，没找到错误。我检查了ThisStackoverflowIssue但这不是我的问题我已经启动了一个zookeeper服务器启动服务器的命令是bin/zookeeper-server-start.shconfig/zookeeper.properties然后我使用Putty通过SSH连接到VM并使用启动kafka服务器$bin/kafka-server-start.shconfig/server.properties然后我创建了Kafka主题，当我列出主题时，它就会出现。然后我打开另一个putty并启动kafka-console-producer.sh并输入任何消息(甚至输入)并

Hortonworks producer image noreferrer noopener hadoop apache-kafka hortonworks-data-platform

hadoop - Google Dataflow 的工作流程编排

我们正在使用GoogleDataflow进行批量数据处理，并寻找一些工作流编排工具选项，类似于Azkaban为Hadoop所做的事情。我们正在寻找的关键事物是，配置工作流安排工作流程监控和警告失败的工作流能够重新运行失败的作业我们已经评估了Pentaho，但这些功能在其昂贵的企业版中可用。我们目前正在评估Azkaban，因为它支持javaprocess作业类型。但Azkaban主要是为Hadoop作业创建的，因此它与Hadoop基础设施的集成比普通的java进程更深入。感谢对开源或极低成本解决方案的一些建议。最佳答案听起来Apa

工作流程编排 section airflow incubator-airflow hadoop workflow google-cloud-platform google-cloud-dataflow azkaban

hadoop - 与 Cloudera 和 Hortonworks 相比，Hadoop 发行版 MapR 有哪些缺点？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭6年前。ImprovethisquestionCloudera和Hortonworks使用HDFS，这是ApacheHadoop的基本概念之一。MapR使用自己的概念/实现。您可以直接使用native文件系统，而不是HDFS。您可以在MapR的网站上找到使用这种方法的很多优势。我想知道这种方法有什么缺点？

Hortonworks Cloudera section class notice hadoop hdfs mapr

excel - 在 Excel 2013 中连接 Hortonworks Hive ODBC 时出错

我正在尝试通过Excel2013中的ODBC驱动程序查询HortonworksHive。我在这里下载了驱动程序(32位):http://hortonworks.com/downloads/霍顿工厂2.5配置单元2.5.0.0-1245然后我在ODBC数据源管理器(32位)中添加配置一切似乎都很好。然后当我进入Excel2013构建查询时:我遇到了这个错误:谁知道为什么？最佳答案问题出在Hortonworks的Hive驱动程序上。由于某些原因，它与Excel或PowerBI不兼容。我从https://www.microsoft.c

时出 Hortonworks image noreferrer noopener excel hadoop hive odbc hortonworks-data-platform

google-cloud-dataflow - 如何以编程方式取消运行时间过长的 Dataflow 作业？

我正在通过PythonAPI在Dataflow上使用ApacheBeam从Bigquery读取数据，对其进行处理，然后将其转储到Datastore接收器中。不幸的是，作业经常会无限期地挂起，我必须手动停止它。当数据写入Datastore和Redis时，从Dataflow图中我注意到只有几个条目卡住并导致作业挂起。因此，当有15台16核机器的作业运行9小时(正常情况下，作业运行30分钟)时，会导致巨大的成本。也许有一种方法可以设置一个计时器，如果超过时间限制，该计时器会停止Dataflow作业？最佳答案如果你能创建一个custom

google-cloud-dataflow 何以 section Dataflow pipeline apache-beam

c# - System.Threading.Tasks.Dataflow 和 Microsoft.Tpl.Dataflow 之间有什么区别

有2个不同的官方TPL数据流nuget包。我很困惑选择我应该使用哪个。据我了解，System.Threading.Tasks.Dataflow版本比其他版本稍新，而且System.Threading.Tasks.Dataflow似乎是针对最新版本的.net。谁能解释一下它们之间的区别？最佳答案 Microsoft.Tpl.Dataflow最初作为.net4.5的一部分作为独立于BCL的组件发布-这里是blogpostannouncingthereleaseSystem.Threading.Tasks.Dataflow作为一个单独的

Dataflow c#section Threading tpl-dataflow

c# - TPL Dataflow，如何将项目转发到许多链接目标 block 中的一个特定目标 block ？

我正在寻找一种TPL数据流block解决方案，它可以容纳多个项目，可以链接到多个目标block，但能够将项目仅转发到通过过滤器的特定目标block/谓词。任何时候都不应将一个项目同时传递给多个目标block，始终只传递给与过滤器匹配的目标block，否则可以丢弃该项目。我不喜欢BroadCastBlock，因为如果我理解正确的话，它不保证交付(或者确实如此？)并且过滤是在目标block端完成的，这意味着BroadCastBlock本质上将每个项目的副本发送到所有linkedTo目标block。如果我理解正确的话，它也不会在任何时候容纳超过一件元素。我不想使用Post/Async，而是维

c#block code section task-parallel-library actor message-passing tpl-dataflow