hadoop-examples

hadoop - 带有 emrfs 的 hive

我正在使用sqoop将表从AmazonRDS导入到Hive。该进程正在运行，数据存储在配置单元默认的hdfs目录中:/user/hive/warehouse。我需要将存储位置从hdfs更改为emrfss3。据我了解，我需要将属性hive.metastore.warehouse.dir的值(在主节点上的hive-site.xml中)更改为s3//bucket/warehouse-location。看来我没有修改文件hive-site.xml的权限。我正在寻找一些关于如何最好地做到这一点的建议。苏堤最佳答案您需要sudo权限才能修改

hadoop - 如何使用 PIG 脚本获取两个纪元时间值之间的毫秒数

游戏ID|开始时间|结束时间1|1235000140|12350024572|1235000377|12350033003|1235000414|12350561281|1235000414|12350561282|1235000377|1235003300在这里，我想获取两个纪元时间字段BeginTime和EndTime之间的毫秒数。然后计算每场比赛的平均时间。最佳答案 games=load'games.txt'usingPigStorage('|')as(gameid:int,begin_time:long,end_time:

毫秒 hadoop strong section code apache-pig epoch

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流，但出现以下错误:E0701:XML架构错误，cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗？当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

cvc-pattern-valid pattern gt lt 34 hadoop hive oozie

hadoop - 本地缓存后映射减少占用空间的作业

我正在使用Hortonworks环境进行大数据处理。我观察到，作为来自Hive/Oozie/Pig等的MapReduce作业的一部分，我下面的本地缓存目录正在被填满。它为每个使用jar文件的mapreduce执行创建一个文件夹。/hadoop/yarn/local/usercache/root/filecache直接删除这些文件夹可以吗？有没有我可以设置为自动删除它的配置？最佳答案这些目录应该每600000毫秒(10分钟)自动清理一次。或者您可以通过在yarn-site.xml中设置此属性来缩短此时间段，yarn.nodeman

hadoop 本地 section code nodemanager caching hadoop-yarn hadoop2

hadoop - java.io.IOException : failure to login: No LoginModules configured for hadoop_simple 异常

我正在尝试从TAC运行我的第一个Talend作业。我正在尝试从标准作业中调用大数据批处理。它在本地集群中运行良好，但在从TAC运行相同的作业时我遇到了这个错误。moment;pid;root_pid;father_pid;project;job;context;priority;type;origin;message;code2017-02-1307:54:29;20170213075427_jnxLB;20170213075427_jnxLB;20170213075427_jnxLB;ELT_3_0;CustomerDataLoad;hadoop;6;JavaException;tR

hadoop hadoop_simple apache java talend

python - pyhive、sqlalchemy 无法连接到 hadoop 沙箱

我已经安装了，pipinstallthriftpipinstallPyHivepipinstallthrift-sasl和由于pipinstallsasl失败，我下载了sasl‑0.2.1‑cp27‑cp27m‑win_amd64.whl文件并将其安装在我的Windows8.1PC中。然后我写了这段代码，frompyhiveimporthivecursor=hive.connect('192.168.1.232',port=10000,auth='NONE')cursor.execute('SELECT*fromsample_07LIMIT5',async=True)printcurs

沙箱 sqlalchemy code sasl noreferrer python hadoop hive pyhive

java - Hadoop 2.7 - 在 HDFS 中创建目录的简单 Java 代码

我正在尝试的是以编程方式使用Java在HDFS中创建一个目录。我收到此错误。线程“main”中的异常java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystem无法实例化引起:java.lang.NoClassDefFoundError:com/amazonaws/AmazonServiceException由以下原因引起:java.lang.ClassNotFoundException:com.amazonaws.Am

Hadoop java import apache amazon-s3 mapreduce

hadoop - HDFS 和 ZooKeeper 之间的区别？

在阅读ZooKeeper的文档时，在我看来，HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声，但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具，而HDFS是一个分布式文件管理系统，但是HDFS集群是否需要ZK？最佳答案是的，因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的，用于故障转移过程。在任何

ZooKeeper hadoop section strong hdfs bigdata

hadoop - 简单计数查询超出 Impala 内存限制

编辑:表中有一些损坏的AVRO文件。删除其中一些后，一切正常。我已经使用avro-tools将这些文件解压缩为json，并且解压缩的文件也不是很大。所以它似乎是Impala中处理损坏的AVRO文件的一些错误。我有一个Impala表，采用gzip压缩的AVRO格式，按“天”分区。当我执行查询时:从adhoc_data_fast.log中选择count(0)whereday='2017-04-05';它说:Query:selectcount(0)fromadhoc_data_fast.logwhereday='2017-04-05'Querysubmittedat:2017-04-0613

hadoop Impala 2017 avro log bigdata

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark