Hadoop

file - 如何将文件(PDF)传输到 Hadoop 文件系统

我有Hortonworks系统，想将文件从文件系统复制到Hadoop。最好的方法是什么？最佳答案尝试:hadoopfs-put/your/local/file.pdf/your/hdfs/location或hadoopfs-copyFromLocal/your/local/file.pdf/your/hdfs/location引用putcommand 关于file-如何将文件(PDF)传输到Hadoop文件系统，我们在StackOverflow上找到一个类似的问题：

java - 使用凭据缓存的 Kerberos 身份验证通过 Eclipse 工作，但不能通过命令行工作

描述:我构建了一个应用程序，它从应用了Kerberos身份验证的远程集群中获取HDFS(Hadoop分布式文件系统)文件。我可以从Eclipse执行HDFS.copyToLocalFile(path1,path2)并且它工作正常。但是当我将项目导出为可运行的jar并尝试通过命令行运行它时，它会抛出以下错误。注意:我已按照@https://sourceforge.net/p/jsch/mailman/message/26939797/中提到的步骤进行操作并成功地从Eclipse运行该项目。我已经检查了Eclipse中的其他文件，但找不到任何文件。我安装了KerberosV5MIT和Net

凭据 Kerberos Client java apache eclipse hadoop

mysql - 将变量添加到 CASE 语句中然后输出

如果我在Impala中有如下代码:(CASEWHENa3.shipped_qty1>a4.shipped_qty2ANDa1.min1a4.shipped_qty2ANDa1.min1>a2.min2THEN"MOVE"WHENa3.shipped_qty1a2.min2THEN"KEEP"ELSE"NOTSHIPPING"END)ASmove我希望文本输出如下内容:(CASEWHENa3.shipped_qty1>a4.shipped_qty2ANDa1.min1a4.shipped_qty2ANDa1.min1>a2.min2THEN"MOVETO**a4.supplier**"W

mysql CASE shipped_qty shipped min hadoop impala

performance - 使用 Group By 和 Like 的 Impala 查询性能低下

我们正在测试ApacheImpala，并注意到同时使用GROUPBY和LIKE的速度非常慢——单独的查询速度要快得多。这里有两个例子:#1.37s1.08s1.35sSELECT*FROMhive.default.pcopy1Bwhere(lower("by")like'%part%'andlower("by")like'%and%'andlower("by")like'%the%')or(lower(title)like'%part%'andlower(title)like'%and%'andlower(title)like'%the%')or(lower(url)like'%par

performance 低下 lower like 39 hadoop cloudera impala

hadoop - 带有 emrfs 的 hive

我正在使用sqoop将表从AmazonRDS导入到Hive。该进程正在运行，数据存储在配置单元默认的hdfs目录中:/user/hive/warehouse。我需要将存储位置从hdfs更改为emrfss3。据我了解，我需要将属性hive.metastore.warehouse.dir的值(在主节点上的hive-site.xml中)更改为s3//bucket/warehouse-location。看来我没有修改文件hive-site.xml的权限。我正在寻找一些关于如何最好地做到这一点的建议。苏堤最佳答案您需要sudo权限才能修改

hadoop emrfs section hive hive-site amazon-emr

hadoop - 如何使用 PIG 脚本获取两个纪元时间值之间的毫秒数

游戏ID|开始时间|结束时间1|1235000140|12350024572|1235000377|12350033003|1235000414|12350561281|1235000414|12350561282|1235000377|1235003300在这里，我想获取两个纪元时间字段BeginTime和EndTime之间的毫秒数。然后计算每场比赛的平均时间。最佳答案 games=load'games.txt'usingPigStorage('|')as(gameid:int,begin_time:long,end_time:

毫秒 hadoop strong section code apache-pig epoch

hadoop - E0701 : XML schema error, cvc-pattern-valid oozie 错误

我正在尝试运行oozie工作流，但出现以下错误:E0701:XML架构错误，cvc-pattern-valid:值“模型和映射表更新”对于模式“([a-zA-Z_]([\-_a-zA-Z0-9])*){1,39}'用于类型'IDENTIFIER'。我在查询中使用以下正则表达式。这有什么问题吗？当我通过Hive或CLI运行时一切正常。regexp_replace(id_col,'^0|[a-zA-Z]+$','')下面是我的workflow.xml${jobTracker}${nameNode}/user/sin/oozie/sources_creation.hql${jobTracke

cvc-pattern-valid pattern gt lt 34 hadoop hive oozie

hadoop - 本地缓存后映射减少占用空间的作业

我正在使用Hortonworks环境进行大数据处理。我观察到，作为来自Hive/Oozie/Pig等的MapReduce作业的一部分，我下面的本地缓存目录正在被填满。它为每个使用jar文件的mapreduce执行创建一个文件夹。/hadoop/yarn/local/usercache/root/filecache直接删除这些文件夹可以吗？有没有我可以设置为自动删除它的配置？最佳答案这些目录应该每600000毫秒(10分钟)自动清理一次。或者您可以通过在yarn-site.xml中设置此属性来缩短此时间段，yarn.nodeman

hadoop 本地 section code nodemanager caching hadoop-yarn hadoop2

hadoop - java.io.IOException : failure to login: No LoginModules configured for hadoop_simple 异常

我正在尝试从TAC运行我的第一个Talend作业。我正在尝试从标准作业中调用大数据批处理。它在本地集群中运行良好，但在从TAC运行相同的作业时我遇到了这个错误。moment;pid;root_pid;father_pid;project;job;context;priority;type;origin;message;code2017-02-1307:54:29;20170213075427_jnxLB;20170213075427_jnxLB;20170213075427_jnxLB;ELT_3_0;CustomerDataLoad;hadoop;6;JavaException;tR

hadoop hadoop_simple apache java talend

python - pyhive、sqlalchemy 无法连接到 hadoop 沙箱

我已经安装了，pipinstallthriftpipinstallPyHivepipinstallthrift-sasl和由于pipinstallsasl失败，我下载了sasl‑0.2.1‑cp27‑cp27m‑win_amd64.whl文件并将其安装在我的Windows8.1PC中。然后我写了这段代码，frompyhiveimporthivecursor=hive.connect('192.168.1.232',port=10000,auth='NONE')cursor.execute('SELECT*fromsample_07LIMIT5',async=True)printcurs

沙箱 sqlalchemy code sasl noreferrer python hadoop hive pyhive

67 68 697071 72 73