distributed-computing

hadoop - 配置单元 : remove stuff from distributed cache

我可以通过以下方式将内容添加到分布式缓存addfilelargelookuptable然后运行一堆HQL。现在当我有一系列命令时，如下所示addfilelargelookuptable1;selectblahfromblahnessusingsomehowlargelookuptable1;addfilelargelookuptable2;selectnewblahfromotherblahusinglargelookuptable2;在这种情况下，largelookuptable1对于第二个查询来说是不必要的。有没有办法在第二个查询运行之前摆脱它？最佳答

hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？

我设置了Cassandra+Pig/Hadoop的测试集成。8个节点为Cassandra+TaskTracker节点，1个节点为JobTracker/NameNode。我启动了cassandra客户端并在Cassandra发行版的Readme.txt中创建了一些简单的数据:[default@unknown]createkeyspaceKeyspace1;[default@unknown]useKeyspace1;[default@Keyspace1]createcolumnfamilyUserswithcomparator=UTF8Typeanddefault_validation_c

distributed Cassandra section default grunt hadoop apache-pig

hadoop - 查询预处理 : Hadoop or distributed system

我正在尝试通过预处理所有结果来优化搜索引擎的性能。我们有大约5万个搜索词。我计划事先搜索这50k个术语并将其保存在内存中(memcached/redis)。在我的案例中，搜索所有50k术语需要一天多的时间，因为我们进行了深度语义搜索。所以我计划将搜索(预处理)分布在多个节点上。我正在考虑使用hadoop。我的输入尺寸非常小。即使总搜索词超过50k，也可能不到1MB。但是搜索每个术语都会占用一分钟时间，即更多的是面向计算而不是面向数据。所以我在想是该用Hadoop还是自己搭建分布式系统。我记得读过hadoop主要是在输入非常大的情况下使用。请建议我如何去做。我读到hadoop以block

distributed hadoop section mapreduce search-engine distributed-computing

java - Google Compute Engine 上 Hadoop 中的标准输出

我正在尝试调试在GoogleComputeEngine上的Hadoop上运行的程序作为.jar文件。我尝试在reducer代码中同时使用System.out.println()和context.write()进行调试输出，但无法在任何地方找到它们的输出。我能找到的唯一日志是我的Google存储桶gs:/my_bucket/yarn-logs/my_name/logs/application_#####中的日志和存储在$hadoop_install_dir$中的本地日志/logs/但它们都没有我正在寻找的输出。在以前的日志中，我可以看到我的log4j没有正确初始化，但我不确定这是否是问题

Compute Google code section logs java debugging hadoop logging google-compute-engine

hadoop - Google Compute 引擎中的职位跟踪 URL 不起作用

我正在使用GoogleComputeEngine在Hadoop上运行Mapreduce作业(几乎所有默认配置)。在运行作业时，我得到一个形式为http://PROJECT_NAME:8088/proxy/application_X_Y/的跟踪URL但它无法打开。我是不是忘记配置什么了？最佳答案要详细说明在使用GoogleComputeEngineVM的“外部IP地址”的其他答案中提到的选项Amal，您可以通过运行gcloudcomputeinstancesdescribe--zone来获取外部IP地址。并寻找natIP.要打开端

Compute hadoop code section noreferrer mapreduce google-compute-engine google-hadoop

hadoop - 无法在 Google Compute Engine 中安装 Hadoop

当我尝试从谷歌计算引擎“部署ApacheHadoop”时，我收到一条消息“部署将超过us-central1的CPU配额。限制:8。减少使用，选择另一个区域中的区域，或者请求增加配额。”我尝试了所有区域。它仍然无法正常工作。最佳答案如果您使用的是GCE免费试用版，则限制为8个并发CPU内核。这对所有地区和地区都是如此，因此尝试在不同的地区并不能解决这个问题。要运行更大的部署，您需要升级到付费帐户。或者，您可以使用GoogleCloudDataproc或bdutil至deployaHadoopcluster并选择一些较小的实例类型，

中安 Compute section noreferrer noopener hadoop google-compute-engine

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群，其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行，每

SparkPi Compute section code br scala hadoop apache-spark google-compute-engine hadoop-yarn

java - 在 Google Compute Engine 上成功安装 Oryx？

我正在尝试在GoogleComputeEngine上启动并运行Oryx。我创建了一个新实例并通过以下方式安装了Oryx:gitclonehttps://github.com/cloudera/oryx.gitcdoryxmvn-DskipTestsinstall并将此安装保存为GoogleComputeEngine上的图像(“oryx-image”)。查找Oryx和Google文件系统的问题(Hadoop2.4.1andGoogleCloudStorageconnectorforHadoop)我一直在使用hdfs://作为默认文件系统。发现在GoogleComputeEngine上启动

Compute Google Hadoop java google-compute-engine oryx

hadoop - hadoop 集群上的 gcloud compute 权限不足

我在开发控制台上使用点击部署机制安装了hadoop集群。我对自定义设置做了一些修改，例如机器种类，机器数量。集群已部署。但是现在当我登录到master并运行以下命令时sudogcloudcompute防火墙规则列表我收到错误:权限不足我检查了主节点的权限，我看到了这个:权限用户信息-禁用，计算障碍存储满任务队列-禁用BigQuery-禁用CloudSQL-已禁用云数据存储-禁用云平台-禁用当我启动一个单独的虚拟机时，我可以为这些方面启用它的权限，但是当我启动一个集群时，我不能。这是我在hadoopmaster上看到权限错误的原因吗？如何修复？更多背景:我需要启用防火墙端口，以便我可以使

hadoop compute section gcloud google-compute-engine

hadoop - "Hadoop distribution"是什么意思

我是hadoop的新手。我最近阅读了有关ApacheHadoop、Pig、Hive、HBase的基础知识。然后我遇到了术语“Hadoop分布”，例子有Cloudera、MAPR、HortonWorks。那么ApacheHadoop(及其回声系统)与“HadoopDistribution”的关系是什么它像Java虚拟机规范(文档)和OracleJVM、IBMJVM(文档的工作实现)吗？但是我们从Apache获得zip，这实际上是逻辑实现。所以我有点困惑。最佳答案 SinceHadoopisanopensourceproject,an

distribution amp strong section Hadoop cloudera software-distribution mapr biginsights

46 47 484950 51 52