HADOOP_NAMENODE_OPTS

hadoop - 如何从每个节点访问 hadoop-yarn 应用程序上的 hdfs？

如何在“HADOOP(2.5.2)YARN应用”中访问HDFS并从各个节点读写文件？我通常知道YARN应用程序运行在HDFS上。我没有可以回答这些基本问题的网站或文档，所以我想问一下。最佳答案 YARN应用程序在YARN中运行(或至少请求内存空间)，而不是HDFS。HDFS只是一个用于文件存储的文件系统。您使用多种工具进行读写，例如HadoopCLI、MapReduce、ApacheSpark等。例如CLI是hadoopfs-put/local-filehdfs://remote/file这些应用程序是否由YARN管理与HDFS文

Hadoop数据可视化

我是一名新的hadoop开发人员，我已经能够在单节点集群中安装和运行hadoop服务。问题出现在数据可视化过程中。当我需要使用像Tableau这样的数据可视化工具时，MapReducejar文件有什么用。我有一个结构化数据源，我需要在其中添加一层逻辑，以便数据在可视化过程中有意义。如果我要使用其他工具进行可视化，是否需要编写MapReduce程序？请阐明我如何处理这个问题。最佳答案这可能取决于您使用的Hadoop发行版以及存在的工具。这也取决于实际的数据准备任务。如果您不想自己实际编写map-reduce或spark代码，您可以

Hadoop 数据 strong section 配置单

sql - 如何将 ElasticSearch 查询传递给 hadoop

我正在从事一个允许在Hadoop上进行搜索的项目。它的工作原理是首先将查询传递给ES，然后将生成的ID传递回SQL，如下所示:SELECT...WHEREidin[1,24,383,2912,...]当我们有100或1000个ID传回SQL-on-Hadoop时，这很有效，但如果我们有100K或1M+id传回，则效果不佳。将结果集(id列表？)从ES传回SQL有哪些替代方法？最佳答案将所有elasticsearchid插入到一个单独的表中，然后将其与源表连接。例如CREATETABLEELASTIC_SEARCH_ID(idIN

ElasticSearch 传递 section 传回 strong sql hadoop presto

file - 如何将文件(PDF)传输到 Hadoop 文件系统

我有Hortonworks系统，想将文件从文件系统复制到Hadoop。最好的方法是什么？最佳答案尝试:hadoopfs-put/your/local/file.pdf/your/hdfs/location或hadoopfs-copyFromLocal/your/local/file.pdf/your/hdfs/location引用putcommand 关于file-如何将文件(PDF)传输到Hadoop文件系统，我们在StackOverflow上找到一个类似的问题：

Hadoop file section code copy hortonworks-sandbox

hadoop - 带有 emrfs 的 hive

我正在使用sqoop将表从AmazonRDS导入到Hive。该进程正在运行，数据存储在配置单元默认的hdfs目录中:/user/hive/warehouse。我需要将存储位置从hdfs更改为emrfss3。据我了解，我需要将属性hive.metastore.warehouse.dir的值(在主节点上的hive-site.xml中)更改为s3//bucket/warehouse-location。看来我没有修改文件hive-site.xml的权限。我正在寻找一些关于如何最好地做到这一点的建议。苏堤最佳答案您需要sudo权限才能修改

hadoop emrfs section hive hive-site amazon-emr

hadoop - 如何使用 PIG 脚本获取两个纪元时间值之间的毫秒数

游戏ID|开始时间|结束时间1|1235000140|12350024572|1235000377|12350033003|1235000414|12350561281|1235000414|12350561282|1235000377|1235003300在这里，我想获取两个纪元时间字段BeginTime和EndTime之间的毫秒数。然后计算每场比赛的平均时间。最佳答案 games=load'games.txt'usingPigStorage('|')as(gameid:int,begin_time:long,end_time:

毫秒 hadoop strong section code apache-pig epoch

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流，但出现以下错误:E0701:XML架构错误，cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗？当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

cvc-pattern-valid pattern gt lt 34 hadoop hive oozie

hadoop - 本地缓存后映射减少占用空间的作业

我正在使用Hortonworks环境进行大数据处理。我观察到，作为来自Hive/Oozie/Pig等的MapReduce作业的一部分，我下面的本地缓存目录正在被填满。它为每个使用jar文件的mapreduce执行创建一个文件夹。/hadoop/yarn/local/usercache/root/filecache直接删除这些文件夹可以吗？有没有我可以设置为自动删除它的配置？最佳答案这些目录应该每600000毫秒(10分钟)自动清理一次。或者您可以通过在yarn-site.xml中设置此属性来缩短此时间段，yarn.nodeman

hadoop 本地 section code nodemanager caching hadoop-yarn hadoop2

hadoop - java.io.IOException : failure to login: No LoginModules configured for hadoop_simple 异常

我正在尝试从TAC运行我的第一个Talend作业。我正在尝试从标准作业中调用大数据批处理。它在本地集群中运行良好，但在从TAC运行相同的作业时我遇到了这个错误。moment;pid;root_pid;father_pid;project;job;context;priority;type;origin;message;code2017-02-1307:54:29;20170213075427_jnxLB;20170213075427_jnxLB;20170213075427_jnxLB;ELT_3_0;CustomerDataLoad;hadoop;6;JavaException;tR

hadoop hadoop_simple apache java talend

python - pyhive、sqlalchemy 无法连接到 hadoop 沙箱

我已经安装了，pipinstallthriftpipinstallPyHivepipinstallthrift-sasl和由于pipinstallsasl失败，我下载了sasl‑0.2.1‑cp27‑cp27m‑win_amd64.whl文件并将其安装在我的Windows8.1PC中。然后我写了这段代码，frompyhiveimporthivecursor=hive.connect('192.168.1.232',port=10000,auth='NONE')cursor.execute('SELECT*fromsample_07LIMIT5',async=True)printcurs

沙箱 sqlalchemy code sasl noreferrer python hadoop hive pyhive

51 52 535455 56 57