草庐IT

hdfs_clusters

全部标签

sqlite - 如何将SQLite数据库导入Hadoop HDFS

我想将SQLite数据库导入到hadoophdfs中。这些数据库来自移动应用程序数据库,我想每天将多个数据库导入HDFS。 最佳答案 您可以尝试使用Sqoop将您的数据库导入到HDFS。试试这个(在安装sqoop并进行必要的配置之后):sqoopimport--connectjdbc:sqlite:/path/to/database/databasename.db--tabletablename--m1--target-dir/directory/name/in/hdfs--driverorg.sqlite.JDBCNOTE:You

java - 错误 : Could not find or load main class org. apache.hadoop.hdfs.server.datanode.DataNode

我是apachehadoop的新手。我正在安装多节点集群,但出现两个错误。我不知道这些是什么类型的错误以及它们产生的原因。我在谷歌上搜索了很多关于这些错误的信息,但我无法找出错误产生背后的原因。Error:Couldnotfindorloadmainclassorg.apache.hadoop.util.PlatformNameError:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.server.datanode.DataNode这两个错误都是由于datanode或slaves引起的。我需要知道错误的种类、产生的原因以及如何解决它

hadoop - Hadoop HDFS 中的数据保留

我们有一个Hadoop集群,在HDFS中有超过100TB的数据。我想删除某些Hive表中超过13周的数据。有什么工具或方法可以实现这一目标吗?谢谢 最佳答案 要删除特定时间段之前的数据,您有几种选择。首先,如果Hive表按日期分区,您可以简单地删除Hive中的分区并删除它们的底层目录。第二个选项是对新表运行INSERT,使用日期戳(如果可用)过滤掉旧数据。这可能不是一个好的选择,因为您有100TB的数据。第三种选择是递归列出Hive表的数据目录。hadoopfs-lsr/path/to/hive/table.这将输出文件列表及其创建

hadoop - 从 ambari 管理器获取核心站点和 hdfs 站点的位置

我需要能够找到Ambari管理器正在使用的core-site.xml和hdfs-site.xml的位置。我最初的想法是查询AmbariAPI来执行此操作,但我找不到任何端点可以返回这两个文件中任何一个的路径。谁能指出我正确的方向?我一直在浏览Ambari文档和谷歌搜索,但无济于事。提前致谢!~德鲁 最佳答案 这些服务的配置目录是静态的。它们在服务定义内的params.py文件中定义。例如,在Ambari2.0中,您可以在以下位置查看HDFS服务定义params.py文件:/var/lib/ambari-server/resource

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业?

当我们发出hdfsput或copyfromlocal命令时,它会调用mapreduce作业吗?如果是,运行了多少映射器?如果没有,转移是如何完成的?我阅读了Hadoop权威指南中的文件读取剖析,但想获得更多关于此的见解。 最佳答案 当我们使用put和copyFromLocal命令时,将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时,hadoop/hdfs二进制命令使用DistributedFileSystem类

hadoop - 保留对目录 HDFS 中所有文件的权限

我正在尝试对HDFS目录中的所有目录和文件执行chmod755,但它不会一直持续下去。例如,如果我有这样一个目录:/home/set1/data1/file1.txt我需要这样做,这样我的应用才能访问它:haddopfs-chmod755/home/set1/*haddopfs-chmod755/home/set1/data1/*haddopfs-chmod755/home/set1/data1/file*haddopfs-chmod755/home/set1/data2/*haddopfs-chmod755/home/set1/data2/file*haddopfs-chmod755

python - 如何在 python 中从 HDFS sequencefile 加载数据

我有一个mapreduce程序正在运行以读取HDFS文件,如下所示:hadoopjar/opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar-Dmapred.reduce.tasks=1000-file$homedir/mapper.py-mapper$homedir/mapper.py-file$homedir/reducer.py-reducer$homedir/reducer.py-input/user/data/*-output/output/2>output.text有什

hadoop - HDFS联邦

关于HDFSFederation,我有几个基本问​​题。是否可以从集群联邦中的另一个名称节点读取在一个名称节点上创建的文件?Hadoop的当前版本是否支持此功能? 最佳答案 让我根据Apachewebsite解释名称节点联合是如何工作的名称节点:为了横向扩展名称服务,联邦使用多个独立的名称节点/namespace。名称节点是联合的;Namenodes是独立的,不需要相互协调。数据节点被所有名称节点用作block的公共(public)存储。每个Datanode都向集群中的所有Namenode注册。数据节点发送周期性心跳和block报告

hadoop - HDFS 如何管理 block 大小?

我的文件大小是65MB和默认的hdfsblock大小(64MB),那么我的文件将分配多少个64MBblock?它是1-64MBblock、1-1MBblock还是2-64MBblock?如果它是2-64MBblock,它会浪费剩下的63MB还是会分配给其他文件? 最佳答案 block大小64MB表示block的上限大小。这并不意味着小于64MB的文件block将消耗64MB。它不会消耗64MB来存储1MB的block。如果文件是160兆字节,希望这对您有所帮助。 关于hadoop-HDF

hadoop - 使用 sqoop 从 Oracle(Windows) 导入数据到 HDFS (CDH3) 机器

您好,我正在参加HADOOP培训。我有一个任务,我必须使用sqoop将表数据从oracle(windows,11gxe)导入到hdfs。我正在阅读以下文章。我的问题是如何将数据从Windows准确导入到hdfs。通常我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfs(cdh3)机器上的MySql导入了数据。但是我不知道将数据从windows中的Oracle导入到hdfs。请帮忙。LinkthatIamfollowing 最佳答案 以下是分步过程:1.Connectoraclesql命令行使用您的凭据登