如何使用Elasticsearch对存储在HDFS中的文档进行索引?如果记录已经以JSON格式存储为字符串,这会有帮助吗?我也有HBase表中的数据,如果我可以将Elasticsearch与HBase一起使用(以更合适的为准)。非常感谢任何指导。提前致谢 最佳答案 elasticsearch人员构建了一些工具,以便ES和Hadoop可以很好地协同工作。我没有使用过它们中的任何一个,但这里有一个或两个链接:ElasticsearchforHadoopDocoElasticsearchforHadoopGitRepo
我无法在本地创建文件。你能告诉我如何以及在哪里创建示例本地文件吗?我对本地和hdfs有点困惑。如何将文件从本地移动到HDFS,移动后如何检查文件是否在hdfs中。我是hadoop的新手。谢谢,内存 最佳答案 假设您使用的是基于Linux的操作系统使用创建文件:$nano/path/to/file.txt.您必须在创建文件的目录中具有足够的权限。将文件移动到HDFS(作为有权访问HDFS的用户,比如hdfs用户):hadoopfs-put/path/to/file.txt检查文件:hadoopfs-ls/user/检查文件内容:had
我正在尝试设置一个hadoop多节点集群,但遇到了以下问题。我有一个节点作为主节点,另一个节点作为从节点。似乎一切正常,因为当我执行{jps}时,我得到了master的这个过程:{29983SecondaryNameNode30596Jps29671NameNode30142ResourceManager}这是给奴隶的:{18096NodeManager17847DataNode18197Jps}不幸的是,当我尝试使用-put命令时,出现了这个错误:hduser@master:/usr/local/hadoop/bin$./hdfsdfs-put/home/hduser/Ejemplo
我正在尝试使用bash脚本在ClouderaHadoop4.4集群上自动停止、格式化和启动HDFS和MapReduce服务。使用“pkill-Uhdfs&&pkill-Umapred”可以很容易地终止HDFS和MapReduce进程,但是如何在不使用ClouderaManagerGUI的情况下再次启动这些进程? 最佳答案 好吧,显然CM有一个非常棒的API在这里查看http://cloudera.github.io/cm_api/ 关于hadoop-CDH4.4:Restarting
有谁知道从MPI中读取/写入文件到我的hdfs的好方法吗?我已经进行了大量的挖掘工作,试图弄清楚这一点,只需要一个大致的方向即可。 最佳答案 MPI标准中有一整章是关于MPII/O的。我将从那里开始阅读。MPI实现有这个实现,通常使用ROMIO。您也可以看看那个。 关于hadoop-MPI读写HDFS,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/23943803/
简介对thisquestion的后续问题.HBase已经连接到HDFS。是否可以向HBase提供一个文件,该文件随后使用命令存储在HDFS中。根据thisdocumentation有几个HBaseshell命令。然而,这些命令仅限于例如创建、删除表。问题需要发出哪个命令来向HBase提供一个文件,该文件随后将存储在HDFS中? 最佳答案 问题不明确。HBase是一个键值存储。要将数据放入HBase,您必须首先创建一个具有模式的表(实际上,只是一个列族列表)。创建表后,就可以向表中加载数据;HBase命令是“put”。引用HBase书
我正在寻找一种方法来将新文件系统挂接到Hadoop中,以针对HDFS对这个新文件系统的性能进行基准测试。我是Hadoop的新手,所以如果我问错了问题,请随时纠正我。如果有帮助,我将使用亚马逊的EMR。 最佳答案 您需要为新文件系统创建一个Hadoop文件系统驱动程序。这将是一个扩展org.apache.hadoop.fs.FileSystem的类.此类“驱动程序”的示例是众所周知的DistributedFileSystem又名。HDFS,LocalFilesystem或S3FileSystem等等。然后您必须使用core-site.
我刚刚安装完Hadoop。我正在从互联网上下载数据样本。我可以将哪些类型的数据放入HDFS?比如我可以放Excel表格吗?谢谢 最佳答案 您可以将任何类型的数据放在HDFS上(包括Excel工作表)。但是,您可能无法阅读它们。例如,除非excel上存在HDFS连接器,否则您将无法打开集群上的文件,并且必须将它们复制回您的计算机上。如果您想从excel工作表中读取数据,最简单的方法是将每个工作表导出为csv并通过hive在HDFS上读取它们,因为有多个excel兼容的ODBC驱动程序(请参阅thisexample)。
我有一个hdfs路径hdfs://host1:8899/path/to/file。我想以编程方式剥离host1和端口。结果,它应该是hdfs:/path/tofile。有什么辅助方法可以做到这一点吗? 最佳答案 "Isthereanyhelpermethodcandothat?"创建您自己的并不需要太多。只需使用基本的String类实用函数,如split()、indexOf()、substring()等。像这样的事情会做(对于Java,尽管大多数语言都有这些方法):publicclassTestPath{publicstaticvo
我可以使用以下uri从hdfs获取数据:hdfs://HOST:PORT/DATA_PATH。是否有将url协议(protocol)从hdfs更改为http的选项?例如:http://GOST:PORT/DATA_PATH 最佳答案 是的,您需要配置WebHDFS休息访问。参见WebHDFS–HTTPRESTAccesstoHDFS. 关于hadoop-是否可以使用http协议(protocol)从hdfs获取数据(而不是hdfs://)?,我们在StackOverflow上找到一个类似