hadoop-worker

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流，但出现以下错误:E0701:XML架构错误，cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗？当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

cvc-pattern-valid pattern gt lt 34 hadoop hive oozie

hadoop - 本地缓存后映射减少占用空间的作业

我正在使用Hortonworks环境进行大数据处理。我观察到，作为来自Hive/Oozie/Pig等的MapReduce作业的一部分，我下面的本地缓存目录正在被填满。它为每个使用jar文件的mapreduce执行创建一个文件夹。/hadoop/yarn/local/usercache/root/filecache直接删除这些文件夹可以吗？有没有我可以设置为自动删除它的配置？最佳答案这些目录应该每600000毫秒(10分钟)自动清理一次。或者您可以通过在yarn-site.xml中设置此属性来缩短此时间段，yarn.nodeman

hadoop 本地 section code nodemanager caching hadoop-yarn hadoop2

hadoop - java.io.IOException : failure to login: No LoginModules configured for hadoop_simple 异常

我正在尝试从TAC运行我的第一个Talend作业。我正在尝试从标准作业中调用大数据批处理。它在本地集群中运行良好，但在从TAC运行相同的作业时我遇到了这个错误。moment;pid;root_pid;father_pid;project;job;context;priority;type;origin;message;code2017-02-1307:54:29;20170213075427_jnxLB;20170213075427_jnxLB;20170213075427_jnxLB;ELT_3_0;CustomerDataLoad;hadoop;6;JavaException;tR

hadoop hadoop_simple apache java talend

python - pyhive、sqlalchemy 无法连接到 hadoop 沙箱

我已经安装了，pipinstallthriftpipinstallPyHivepipinstallthrift-sasl和由于pipinstallsasl失败，我下载了sasl‑0.2.1‑cp27‑cp27m‑win_amd64.whl文件并将其安装在我的Windows8.1PC中。然后我写了这段代码，frompyhiveimporthivecursor=hive.connect('192.168.1.232',port=10000,auth='NONE')cursor.execute('SELECT*fromsample_07LIMIT5',async=True)printcurs

沙箱 sqlalchemy code sasl noreferrer python hadoop hive pyhive

java - Hadoop 2.7 - 在 HDFS 中创建目录的简单 Java 代码

我正在尝试的是以编程方式使用Java在HDFS中创建一个目录。我收到此错误。线程“main”中的异常java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystem无法实例化引起:java.lang.NoClassDefFoundError:com/amazonaws/AmazonServiceException由以下原因引起:java.lang.ClassNotFoundException:com.amazonaws.Am

Hadoop java import apache amazon-s3 mapreduce

hadoop - HDFS 和 ZooKeeper 之间的区别？

在阅读ZooKeeper的文档时，在我看来，HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声，但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具，而HDFS是一个分布式文件管理系统，但是HDFS集群是否需要ZK？最佳答案是的，因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的，用于故障转移过程。在任何

ZooKeeper hadoop section strong hdfs bigdata

hadoop - 简单计数查询超出 Impala 内存限制

编辑:表中有一些损坏的AVRO文件。删除其中一些后，一切正常。我已经使用avro-tools将这些文件解压缩为json，并且解压缩的文件也不是很大。所以它似乎是Impala中处理损坏的AVRO文件的一些错误。我有一个Impala表，采用gzip压缩的AVRO格式，按“天”分区。当我执行查询时:从adhoc_data_fast.log中选择count(0)whereday='2017-04-05';它说:Query:selectcount(0)fromadhoc_data_fast.logwhereday='2017-04-05'Querysubmittedat:2017-04-0613

hadoop Impala 2017 avro log bigdata

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark

hadoop - s3n/s3a如何管理文件？

我一直在使用KafkaConnect和Secor等服务将Parquet文件保存到S3。我对HDFS或Hadoop不是很熟悉，但似乎这些服务通常会在批量写入s3之前将临时文件写入本地内存或磁盘。s3n/s3a文件系统是在本地虚拟化HDFS样式的文件系统，然后按配置的时间间隔推送，还是在写入s3n/s3a和写入s3之间存在一对一的对应关系？我不确定我在这里问的问题是否正确。任何指导将不胜感激。最佳答案 S3A/S3N只是针对远程对象存储实现Hadoop文件系统API，包括假装它具有您可以重命名和删除的目录。它们历来保存您写入本地磁盘的

管理文件 hadoop section s3 code amazon-s3 hdfs apache-kafka

mysql - 如何将数据从 Hadoop 导出到 MySQL/任何数据库？

我研究过的大多数教程都指出我必须使用Sqoop用于导出/导入，很多手册都展示了如何将数据从DB导出到HDFS，但是我如何进行反向大小写？假设，我在localhost上有一个company数据库，它有一个空的users表，其中包含以下列:id、user和我有hadoop为我提供像(id,user)这样的数据，但将其保存到一些hadoop-output.txt中而不是到MySQL。是否有一些命令行命令可以通过Sqoop从HDFS导入MySQL？最佳答案 sqoop-export就是这样做的。sqoop-export--connectj

Hadoop mysql code section sqoop bigdata

70 71 727374 75 76