草庐IT

java - 将元数据存储到 Jackrabbit 存储库中

coder 2024-03-08 原文

任何人都可以向我解释一下,在以下情况下如何进行吗?

  1. 接收文档(MS 文档、ODS、PDF)

  2. 通过 Apache Tika 提取双重核心元数据 + 通过 jackrabbit-content-extractors 提取内容

  3. 使用 Jackrabbit 将文档(内容)与其元数据一起存储到存储库中 ?

  4. 检索文档 + 元数据

我对第 3 点和第 4 点感兴趣......

详情: 该应用程序以交互方式处理文档(一些分析 - 语言检测,字数统计等+收集尽可能多的细节 - Dublin core + 解析内容/事件处理)以便将处理结果返回给用户,然后返回提取的内容和元数据(提取和自定义用户元数据)存储到 JCR 存储库中

感谢任何帮助,谢谢

最佳答案

上传文件对于 JCR 2.0 和 JCR 1.0 基本相同。但是,JCR 2.0 添加了一些有用的附加内置属性定义。

“nt:file”节点类型旨在表示一个文件,并且在 JCR 2.0 中有两个内置属性定义(这两个都是在创建节点时由存储库自动创建的):

  • jcr:创建(日期)
  • jcr:创建者(字符串)

并定义了一个名为“jcr:content”的子项。这个“jcr:content”节点可以是任何节点类型,但一般来说,与内容本身有关的所有信息都存储在这个子节点上。事实上的标准是使用“nt:resource”节点类型,它定义了这些属性:

  • jcr:data (BINARY) 强制
  • jcr:lastModified (DATE) 自动创建
  • jcr:lastModifiedBy (STRING) 自动创建
  • jcr:mimeType (STRING) protected ?
  • jcr:encoding (STRING) protected ?

请注意,“jcr:mimeType”和“jcr:encoding”是在 JCR 2.0 中添加的。

特别是,“jcr:mimeType”属性的目的是完全按照您的要求进行 - 捕获内容的“类型”。但是,“jcr:mimeType”和“jcr:encoding”属性定义可以(由 JCR 实现)定义为 protected (意味着 JCR 实现自动设置它们)——如果是这种情况,您将不允许手动设置这些属性。我相信JackrabbitModeShape不要将这些视为 protected 。

下面是一些代码,展示了如何使用这些内置节点类型将文件上传到 JCR 2.0 存储库:

// Get an input stream for the file ...
File file = ...
InputStream stream = new BufferedInputStream(new FileInputStream(file));

Node folder = session.getNode("/absolute/path/to/folder/node");
Node file = folder.addNode("Article.pdf","nt:file");
Node content = file.addNode("jcr:content","nt:resource");
Binary binary = session.getValueFactory().createBinary(stream);
content.setProperty("jcr:data",binary);

如果 JCR 实现不将“jcr:mimeType”属性视为 protected (即 Jackrabbit 和 ModeShape),您必须手动设置此属性:

content.setProperty("jcr:mimeType","application/pdf");

元数据可以很容易地存储在“nt:file”和“jcr:content”节点上,但开箱即用的“nt:file”和“nt:resource”节点类型不允许额外的属性。因此,在您可以添加其他属性之前,您首先需要添加一个 mixin(或多个 mixin),这些 mixin 具有您要存储的各种属性的属性定义。您甚至可以定义一个允许任何属性的混合。下面是一个 CND 文件,定义了这样一个 mixin:

<custom = 'http://example.com/mydomain'>
[custom:extensible] mixin
- * (undefined) multiple 
- * (undefined) 

注册此节点类型定义后,您可以在您的节点上使用它:

content.addMixin("custom:extensible");
content.setProperty("anyProp","some value");
content.setProperty("custom:otherProp","some other value");

您还可以定义和使用允许任何 Dublin Core element 的 mixin :

<dc = 'http://purl.org/dc/elements/1.1/'>
[dc:metadata] mixin
- dc:contributor (STRING)
- dc:coverage (STRING)
- dc:creator (STRING)
- dc:date (DATE)
- dc:description (STRING)
- dc:format (STRING)
- dc:identifier (STRING)
- dc:language (STRING)
- dc:publisher (STRING)
- dc:relation (STRING)
- dc:right (STRING)
- dc:source (STRING)
- dc:subject (STRING)
- dc:title (STRING)
- dc:type (STRING)

所有这些属性都是可选的,并且这个 mixin 不允许任何名称或类型的属性。我也没有真正解决这个 'dc:metadata' 混合问题,因为其中一些已经用内置属性表示(例如,“jcr:createBy”、“jcr:lastModifiedBy”、“jcr:created” , "jcr:lastModified", "jcr:mimeType"),其中一些可能与内容更相关,而另一些可能与文件更相关。

您当然可以定义其他更适合您的元数据需求的 mixin,并在需要时使用继承。但是要小心使用 mixin 的继承——因为 JCR 允许一个节点到多个 mixin,所以通常最好将 mixin 设计为严格限定范围和面向方面(例如,“ex:taggable”、“ex:describable”等)然后根据需要简单地将适当的混合应用到节点。

(甚至有可能定义一个 mixin,允许在“nt:file”节点下有更多子节点,并在那里存储一些元数据。)

Mixins 非常棒,可以为您的 JCR 内容提供极大的灵 active 和强大的功能。

哦,当你创建了所有你想要的节点后,一定要保存 session :

session.save();

关于java - 将元数据存储到 Jackrabbit 存储库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5155764/

有关java - 将元数据存储到 Jackrabbit 存储库中的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  3. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  4. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  5. java - 我的模型类或其他类中应该有逻辑吗 - 2

    我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我

  6. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  7. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  8. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  9. ruby - Rack:如何将 URL 存储为变量? - 2

    我正在编写一个简单的静态Rack应用程序。查看下面的config.ru代码:useRack::Static,:urls=>["/elements","/img","/pages","/users","/css","/js"],:root=>"archive"map'/'dorunProc.new{|env|[200,{'Content-Type'=>'text/html','Cache-Control'=>'public,max-age=6400'},File.open('archive/splash.html',File::RDONLY)]}endmap'/pages/search.

  10. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

随机推荐