hadoop-examples

hadoop - 首选推荐系统

我正在实现一个员工规划解决方案，员工可以在其中设置自己喜欢的工作时间，该系统还可以推荐员工应该工作的最佳时间。为了向员工推荐他们的工作时间，我想要一个推荐系统，它可以根据以下条件向员工推荐一些工作类次:组织的员工要求。这是一个基于时间间隔(1小时)的人员要求，并且具有该时间间隔所需的最少/最多人员。(例如:在1300-1400点，我需要至少4到最多6名员工)。推荐的类次必须遵循的规则。(例如:提供的任何类次不应超过max_allowed_work_hours_in_week。如果员工在星期四之前完成了35小时并且max_allowed_work_hours_in_week为40，那么我

首选 hadoop blockquote section max_allowed_work_hours_in_week mahout recommendation-engine optaplanner predictionio

hadoop - 将 LD_PRELOAD 与 Apache Spark(或 YARN)结合使用

我们在ApacheHadoopYARN上运行Spark作业。我特别需要在这些作业上使用“LD_PRELOAD技巧”。(在任何人panic之前，它不是用于生产运行；这是自动化作业测试的一部分)。我知道如何在作业中提交额外的文件，我知道如何在节点上设置环境变量，所以将这些设置添加到spark-defaults.conf几乎提供了一个解决方案:spark.files=/home/todd/pwn_connect.sospark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.sospark.executorEnv.LD_PRELOAD=pwn_connect

LD_PRELOAD PRELOAD code spark hadoop apache-spark hadoop-yarn ld-preload

hadoop - 由于 tmp 文件夹权限，Snappy 压缩无法正常工作

每当我尝试使用pig、Sqoop或Spark以压缩格式存储数据时，我都会遇到问题。我知道问题出在将我们的tmp文件夹安装到nonexec上，这导致例如snappy给我这个错误:java.lang.IllegalArgumentException:java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.2-fe4e30d0-e4a5-4b1a-ae31-fd1861117288-libsnappyjava.so:/tmp/snappy-1.1.2-fe4e30d0-e4a5-4b1a-ae31-fd1861117288-libsnappyjava.s

hadoop Snappy section HADOOP_OPTS blockquote hdfs sqoop

hadoop - hive 列到行

如何根据存储在现有列中的类型在HIVE中创建新列？例如，我有:idProductType1car2bike3truck我想拥有:idcarbiketruck11nullnull2null1null3nullnull1 最佳答案 Use`case`statementtoconvertvaluesintocolumns:selectid,casewhenProductType='car'then1endascar,casewhenProductType='bike'then1endasbike,casewhenProductType='

hadoop hive section ProductType code hiveql

hadoop - Presto 不从 Hive Metabase 返回行

我是AWSEMR的新手。我已经启动并运行了Hive，并且可以毫无问题地查询S3中的外部表。我现在已经将Presto安装到EMR集群上，这似乎已启动并正在运行并且可以读取Hive元数据库。但是，我运行的每个查询都会返回列标题，但实际上不会返回任何列(下面的查询)。presto:default>selectcount(*)frompatrequests;_col0-------0(1row)Query20171113_163811_00033_vdw6c,FINISHED,1nodeSplits:17total,17done(100.00%)0:00[0rows,0B][0rows/s,0

Metabase hadoop section code SNAPSHOT-jar-with-dependencies hive presto

hadoop - 我们如何在 Hadoop 中导入视频或音频或图像，并可以做进一步的分析。

我知道如何使用Pig、hive、sqoop使用Jsonloader和Jsonserde在hadoop中导入和分析结构化和半结构化数据，但如何导入视频、音频或图像等非结构化数据以及如何对其进行进一步分析.请逐步简单地解释，如果您有任何分析非结构化数据的用例，将会有很大帮助。谢谢! 最佳答案由于Hadoop不能很好地处理小文件，一种方法是将二进制文件分组为少量大文件(以避免处理有大量的小文件)。为此，您可以使用自定义UDF将二进制文件(图像、音频、视频等)转换为序列文件，将它们聚合并存储到HDFS。下面的书PigDesignPatte

进一中导 section 结构化 https hadoop hive apache-pig

hadoop - 无法删除 HDFS 损坏的文件

我无法删除我的HDFS中存在的损坏文件。Namenode已进入安全模式。区block总数为980，其中978已报告。当我运行以下命令时，sudo-uhdfshdfsdfsadmin-report生成的报告是，SafemodeisONConfiguredCapacity:58531520512(54.51GB)PresentCapacity:35774078976(33.32GB)DFSRemaining:32374509568(30.15GB)DFSUsed:3399569408(3.17GB)DFSUsed%:9.50%Underreplicatedblocks:0Blockswit

hadoop HDFS code blocks quickstart hbase cloudera namenode

hadoop - 如何在 map reduce 中有选择地选择键中的行

我有以下包含5列和许多行的csv文件。但我只显示前6行。Date,Food,Vitamin,Protein,NumStudents01/01/17,Pasta,A,Yes,56001/01/17,Pizza,A,Yes,73001/01/17,Burrito,C,Yes,24002/01/17,Pizza,A,Yes,34002/01/17,Pasta,B,Yes,45002/01/17,Beef,B,Yes,450现在我想求出某一天只有Pizza和Pasta的NumStudents的总和。本质上，对于01/01/17，我只需要对Pizza和Pasta而非Burrito的NumStud

选择地何在 code keyvalue section hadoop mapreduce

java - hadoop 当前租户正在尝试重新创建文件

我的MapReduce作业按日期处理数据，需要将输出写入特定的文件夹结构。目前的期望是生成以下结构的输出:天=>天/月/文件reducer类:publicstaticclassReducerclassextendsReducer{DateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");privateMultipleOutputsmultipleOutputs;publicvoidreduce(Textrkey,Iterablervalue,Contextcontext)throwsIOException,Interr

建文租户 Text 34 String java hadoop mapreduce cloudera

java - 在运行时更改 Hadoop 用户名不起作用

我写了一个小的Hadoop客户端Java应用程序，它列出了HDFS(不安全)中的所有文件和Hive中的所有表，以及更多内容。但是，我需要在运行时更改Hadoop用户名。通过System.setProperty("HADOOP_USER_NAME","testuser");设置名称在我第一次需要这个用户名时工作正常。但是当我想将用户名更改为例如System.setProperty("HADOOP_USER_NAME","hdfs");我得到一个异常(在将hadoop用户名设置为hdfs之后，如上所示):org.apache.hadoop.security.AccessControlExc

Hadoop java section code HADOOP_USER_NAME hdfs

171 172 173174175 176 177