hdfs_clusters

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快？

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中，它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP，这种情况下HDFS里面存的是什么？当我们使用Titan连接HBase成功时(通过JavaIDE)，我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思？它们代表图中的顶点id吗？当我测试Titan的性能时，我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢？在

amazon-web-services - 由 s3 透明支持的 EMR hdfs

有了hadoop，我可以使用s3作为存储url。但目前我有很多使用hdfs://...的应用程序，我想将整个集群和应用程序迁移到EMR和s3。我是否必须将每个应用程序中的url从hdfs://...更改为s3://...或者是否可以以某种方式告诉EMR存储s3上的hdfs内容所以每个应用程序仍然可以使用hdfs://...但实际上它会指向s3？如果是，怎么办？最佳答案这是一个很好的问题。有协议(protocol)欺骗这样的东西吗？您真的可以通过编写覆盖协议(protocol)处理方式的内容来影响此行为吗？老实说，这种解决方案让我

amazon-web-services services code section hdfs hadoop emr amazon-emr

hadoop - 水槽+卡夫卡+HDFS : Split messages

我有以下flume代理配置来从kafka源读取消息并将它们写回HDFS接收器tier1.sources=source1tier1.channels=channel1tier1.sinks=sink1tier1.sources.source1.type=org.apache.flume.source.kafka.KafkaSourcetier1.sources.source1.zookeeperConnect=192.168.0.100:2181tier1.sources.source1.topic=testtier1.sources.source1.groupId=flumetier1

卡夫水槽 tier1 tier channel hadoop hdfs apache-kafka avro flume

hadoop - 在 hdfs/localFS 中进行文件操作的 FileSystem vs FileContext？

我习惯于使用FileSystem在hdfs(和用于测试的本地FS)中执行文件操作。最近我遇到了原子重命名的需要，虽然FileSystem有一个overloadedmethod具有这样的能力:protectedvoidrename(Pathsrc,Pathdst,org.apache.hadoop.fs.Options.Rename...options)它受到保护并已弃用。我试图找到解决这个问题的方法并找到了FileContext它具有相同的方法并且工作正常。我在Internet上可以找到的每个示例都使用FileSystem。所以我想知道为什么有两个类做同样的事情，在我的例子中可以使用F

中进行文 hadoop apache FileSystem hdfs

hadoop - 为 HDFS 目录中的文件创建 HBase 表

我正在尝试将HDFS目录中的所有文件数据加载到HBase现有表中。您能分享我如何将所有文件数据和增量数据加载到HBase表中吗？我将HBase表创建为hbase>create'sample','cf'我要复制hdfs://ip:port/user/test进入示例hbase表。请给我建议任何解决方案。最佳答案答案1:(可能)ImportTSV，如果您尝试仅提供/user/hadoop/目录路径而不是完整的文件路径，它应该处理该目录中的所有文件。答案2:(好像不可能)ThespecialcolumnnameHBASE_ROW_KE

hadoop HBase section strong column

hadoop - Sqoop 使用 Java 从 Mysql 导入到 Hadoop hdfs

我正在尝试使用Java从Mysql加载到HDFS。我的Hadoop版本2.7.2和Sqoop1.4.6。我收到以下异常ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:xxxxcause:org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion416/11/1617:40:57ERRORtool.ImportTool:EncounteredIOExceptionrunningimportj

hadoop options jar sqoop

hadoop - Hive:处理存储在 HDFS 中的数据中的负数

我有一种情况要处理负数值数据。文件(存储在HDFS中)中某些数值的负号位置在右侧(如这个12345-)，理想情况下负数在左侧表示为负号(如-12345)。我无法更改数据，因为该数据是正确的，并且当源系统(SAP)使用该数据时，它能够将数据读取为负数。在配置单元中，我必须运行一些算术操作，假设我想对包含“12345-”等数据的值求和，然后HIVE无法将此值识别为数字(列类型为DECIMAL(10,2))结果显示NULL作为值!需要您的建议如何处理这种情况。提前致谢。最佳答案检查最后一个字符，如果是'-'然后使用substr和con

hadoop Hive section 12345 39 integer hdfs negative-number

file - 如何在 HDFS 中创建所需大小的空文件？

我是Hadoop和HDFS的新手。我相信我的问题与thispost有点相关.本质上，我试图在HDFS中创建10GB大小的空文件。截断命令失败，因为指定的文件大小大于现有文件大小似乎被禁止。在这种情况下，有什么选择呢？例如，在Linux系统中，可以使用“truncate”命令来设置任意文件大小。最佳答案您可以使用TestDFSIO直接在HDFS中创建所需大小的文件。程序TestDFSIO打包在jar文件“hadoop-mapreduce-client-jobclient-tests.jar”中。这个jar随hadoop安装一起提供

中创空文 section TestDFSIO file hadoop resize hdfs truncate

从 hdfs 到 hive 的 Csv 文件摄取

我正在尝试使用以下命令将csv文件从我的hdfs摄取到配置单元。createtabletest(col1string,col2int,col3string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"")storedastextfile;但是我的配置单元表中仍然出现双引号，所以我尝试了下面的命令。altertabletestsetTBLPROPERTIES('skip.header.line.count'=

摄取 hdfs section 引号 39 csv hadoop hive hiveql

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作，就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它，我没有遇到任何问题。几次之后，我开始通过yarn-cluster模式启动它，但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"

yarn-cluster Spark-SQL apache hadoop java apache-spark hive hdfs apache-spark-sql

150 151 152153154 155 156