Hadoop

hadoop - 星火集群启动问题

我是spark的新手，正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态，但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041)，但没有看到任何结果。首先，我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗？)在Master/usr/local/spark/conf/slaveslocalhostslav

hadoop 星火 spark code master apache-spark cluster-computing iptables

hadoop - 我能否确保新的 Hadoop 任务将在输入文件中失败任务停止的位置恢复？

我正在运行Hadoop2.7.2。假设有10个Hadoop任务正在运行，并且每个任务正在处理1个HDFS输入文本文件。假设其中一项任务失败，比如在读取HDFS输入文件file05的第566行时。默认情况下会发生什么？Hadoop的第二次任务尝试会在file05的第567行恢复吗？或者第二个任务尝试会从file05的第一行开始吗？根据用例，我可能想从失败处理停止的地方继续。或者，在不同的情况下，我可能想要重新开始处理该文件。我该怎么做才能确保Hadoop的第二次任务尝试在file05的第567行继续？我该怎么做才能确保第二个任务尝试从file05的第一行开始？

hadoop section file parallel-processing hadoop2

hadoop - hdfs 和 hive 有什么关系？

我有psudeo分布式hadoop环境，使用sqoop和hive进行数据导入和分析。我使用sqoop将数据从mysql导入到hive并且它工作正常，我在我的hive位置获取了数据，即/user/hive/warehouse/我可以看到hive中的数据表。我的疑问是:当我从mysql导入到hive(构建在hadoop之上)时，数据会存储在hadoop中吗？为什么它在我的hdfs中创建/user/hive/warehouse？Hive如何处理数据？如果我在mysql中更新数据，我可以使用sqoop增量导入来更新hdfs中的数据，但如果我直接使用hive导入，它将反射(reflect)在hi

hadoop hdfs hive section warehouse

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令，例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

amazon-web-services services section aws output hadoop emr amazon-emr

r - 使用sparkR从hdfs导入rstudio中的csv文件

我在HadoopHDFS上存储了.csv文件，hadoopdfs-ls/afsDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.17/01/1215:15:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableFound1item-rw-r--r--2hdusersupergroup

rstudio sparkR code Accounts section r csv hadoop hdfs

hadoop - 如何将日期添加到我的 hbase 快照

我试图每天备份我的hbase表，如何在我的hbase快照中包含日期和时间？我想要这种格式的快照-'tablename-dd-mm-yyhh:mm:ss'。如果有人有shell脚本，请分享最佳答案用它来创建你需要的后缀hadoop@my-hadoop:~$suffix=$(date)#createwhateverformatyouneedhadoop@my-hadoop:~$echo"suffixis${suffix}"使用它来创建快照hadoop@my-hadoop:~$echo"snapshot'myTable','myTab

hadoop hbase section suffix

hadoop - Hive - 在不知道列名的情况下更改所有列的列类型

给定格式表:hive>describetableA;OKidinttstimestampvarfloat......我想使用类似于theone的解决方案由@interskh讨论在不知道并显式引用列名称的情况下将所有列转换为字符串。在语法行上:ALTERTABLEtableACHANGE>string 最佳答案据我所知，您必须逐一更改列的数据类型。根据官方文档，您不能在单个查询中更改所有列的名称或数据类型。请引用this我最近回答的问题。关于hadoop-Hive-在不知道列名的情况下

列名不知 section stackoverflow noreferrer hadoop hive casting hiveql

java - 将 hadoop 连接到 neo4j

我想将一个GML文件(Graphml文件)从hadoop导入到neo4j，为此我需要在hadoop和neo4j之间建立连接，我检查了neo4j站点但没有找到任何东西:https://neo4j.com/developer/apache-hadoop/这就是他们所说的hadoop和neo4j之间的连接:InthepastthereweresomeapproachesthatusedHadooptoquicklygenerate`Neo4jdatastoresdirectly.Whilethisapproachisperformant,itisalsotightlycoupledtothe

hadoop neo4j section neo4 java

hadoop - 如何比较 PIG 中的两列并删除任何相同的值，无论大写/小写

我有3列，一个id列和2个名称列。有时2个名称列的值相同，但其中一个在一列中为大写，而在另一列中为小写。如何删除值相同(或具有相似字符)但大小写不同的值？例如:a=加载txt文件a=foreacha生成id,name1,name2当前输出:id1,james,JAMESid2,tom,Tomid3,Jim,Bobid4,Bill,billy预期输出:下面只有这1个结果a=比较name1和name2，如果name1中有任何相似的字符也在name2中，则将其过滤掉id3，吉姆，鲍勃感谢您的帮助! 最佳答案假设您已经将数据加载到关系A中

hadoop PIG section name code apache-pig

sql - Impala select * 不显示表的所有详细信息

我在impalaselect*fromtable中有一个sql查询，但是当我执行这个时，某些列丢失了。而当我执行describetable时，那些列就在那里。我无法显示该代码段，但未显示的类型是映射、数组和结构。最佳答案 Impala不支持。复杂类型必须解包才能显示。TheresultsetofanImpalaqueryalwayscontainsallscalartypes;theelementsandfieldswithinanycomplextypequeriesmustbe"unpacked"usingjoinquerie

Impala select section strong complex sql hadoop

63 64 656667 68 69