time_limit

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1"，无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB，1个reducer需要很长时间...[ihadanny@lv

python - Spark 异常 : Python worker did not connect back in time

我正在尝试将Python作业提交到2个工作节点的Spark集群，但我一直看到以下问题，最终导致spark-submit失败:15/07/0421:30:40WARNscheduler.TaskSetManager:Losttask0.1instage0.0(TID2,workernode0.rhom-spark.b9.internal.cloudapp.net):org.apache.spark.SparkException:Pythonworkerdidnotconnectbackintimeatorg.apache.spark.api.python.PythonWorkerFact

connect python spark apache java hadoop apache-spark hadoop-yarn pyspark

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索，我也没有找到答案。我的输入文件是由一个进程生成的，当文件达到1GB时，该进程将它们分块。现在，如果我要运行一个处理dfs中的输入目录的mapreduce作业，我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件？我觉得这几乎是不可能的，因为当hadoop作业运行时，它会计算剩余时间和所有这些东西，所以当我的输入不断堆积或换句话说是“可变的”时，Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。最佳答案您描述的用例不是Hadoop设计用来处

time-varying amp section Hadoop 的 java architecture

mongodb - Hive 需要很长时间才能进行 limit 1 查询

我最近安装了Hive。我创建了一个外部表来访问MongoDB中存在的数据库。现在，如果我运行类似SELECTidFROMusersLIMIT1;的查询，执行该命令平均需要大约18秒。即使将LIMIT设置为10、100、1000、10000，也将花费相同的时间。日志包含如下内容:2015-08-2409:19:37,918INFO[HiveServer2-Handler-Pool:Thread-29]:splitter.MongoCollectionSplitter(MongoCollectionSplitter.java:createSplitFromBounds(163))-Crea

长时 mongodb 34 MongoCollectionSplitter HiveServer2-Handler-Pool hadoop hive

hadoop - 尝试在 Hadoop 上运行 Mahout 测试分类器时出现 "GC overhead limit exceeded"

我在Linux上使用Hadoop版本0.20.2。我正在尝试使用以下命令测试分类器模型:bin/hadoopjar/usr/local/mahout/examples/target/mahout-examples-0.6-job.jar\org.apache.mahout.classifier.bayes.TestClassifier-mwikipediamodel-dwikipediainput但是我收到以下错误:14/03/0608:57:36INFOcommon.HadoopUtil:Deletingwikipediainput-output14/03/0608:58:32WAR

时出 amp java ReflectionUtils apache hadoop mahout

hadoop - Apache Spark - Hive 内部连接、LIMIT 和自定义 UDF

我正在尝试在配置单元中运行查询:这是最简单的设置(我知道我可以做一个=但我使用的是自定义UDF，它不仅仅是一个相等比较)数据集a和b各有30,000行左右SELECT*FROMaINNERJOINbONCustom_UDF_Equals_Comparison(a.id,b.id)LIMIT5其中custom_UDF_Equals_Comparison只是在a.id=b.id之间进行相等性检查当我运行这个查询时，我可以在我的日志输出中看到很多m/r任务正在运行，假设它在两个数据集之间进行比较，直到比较所有可能的排列，并且远高于5的限制(我会预计只有少数m/r任务，因为我知道大部分数据可以

自定 hadoop lenStr section stackoverflow apache-spark hive hiveql

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件，每条记录每30分钟生成一次，并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与

time Calculate event code 34 scala apache-spark dataframe hadoop apache-spark-sql

Hadoop 流式传输 "GC overhead limit exceeded"

我正在运行这个命令:hadoopjarhadoop-streaming.jar-Dstream.tmpdir=/tmp-input""-output""-mapper"grep20151026"-reducer"wc-l"在哪里是一个有很多avro的目录文件。出现这个错误:Exceptioninthread"main"java.lang.OutOfMemoryError:GCoverheadlimitexceededatorg.apache.hadoop.hdfs.protocol.DatanodeID.updateXferAddrAndInvalidateHashCode(Datan

流式 amp hadoop apache java out-of-memory hadoop-streaming

hadoop - HIVE: 'LIMIT' 上的 'SELECT * from' 如何在后台工作？

只是想知道以下简单查询的限制是如何工作的select*fromTlimit100假设表T有1300万条记录请问上面的查询:1.先将1300万全部加载到内存中，只显示结果集中的100条记录？2.只加载100条结果集100条记录现在已经搜索它很长一段时间了，大多数页面只谈论使用“LIMIT”而不是Hive如何在幕后处理它。感谢任何有用的回复。最佳答案 Ifnooptimizerapplied,hiveendupscanningentiretable.ButHiveoptimizesthiswithhive.fetch.task.con

台工 amp strong section noreferrer hadoop memory hive limit

hadoop - Spark SQL "Limit"

环境:使用Hadoop的spark1.6。Hortonworks数据平台2.5我有一个有100亿条记录的表，我想获取3亿条记录并将它们移动到一个临时表。sqlContext.sql("select....frommy_tablelimit300000000").repartition(50).write.saveAsTable("temporary_table")我看到Limit关键字实际上会让spark只使用一个执行器!!!这意味着将3亿条记录移动到一个节点并将其写回Hadoop。我怎样才能避免这种减少，但在拥有多个执行者的情况下仍然只能获得3亿条记录。我希望所有节点都写入hadoo

amp hadoop section code strong apache-spark hive hortonworks-data-platform

206 207 208209210 211 212