草庐IT

javascript - 解析 Adob​​e InDesign 的 HTML 文本——其他标签内的标签

coder 2024-07-02 原文

在 InDesign 中,我从 xml 文件中提取文本并将其放置在 textFrame 中。由于 textFrame 不支持某些标签,因此我必须使用以编程方式应用的格式替换 textFrame 中的粗体、斜体和 boldItalic 标签。我最初是使用 Adob​​e 的 GREP 搜索/替换来执行此操作的,但是如果一个标签在另一个标签内,它就无法正常工作(例如,“<b>a<i>b</i>c</b>”)。所以我决定使用蛮力并按标签拆分字符串,然后循环遍历每个项目。我想出的代码有效,但我很好奇是否有更好、更有效的方法来做到这一点?

目前,它存储字体和添加该字体的文本位置。标签也被删除。

注意:有一种单独的字体可以将文本设置为粗体和斜体。如果我对 <bi> 造成任何混淆,我深表歉意标签。它本来是一个需要粗体和斜体的字符的标签。 <b><i>text</i></b>可能是更好的解决方案。无论如何,它绝对需要作为适当字符的单独样式。

var TAGSOBJ = {'<b>': 'Arial\tBold',
               '<i>': 'Arial\tItalic',
               '<bi>': 'Arial\tBold Italic',
               '</b>': 'Arial\tBold',
               '</i>': 'Arial\tItalic',
               '</bi>': 'Arial\tBold Italic'};
var BGNTAGSOBJ = {'<b>': null, '<i>': null, '<bi>': null};
var ENDTAGSOBJ = {'</b>': null, '</i>': null, '</bi>': null};

var txt = 'This is some <b>really important <i>text</i></b> with <i>some <b>very <bi>very <br> very</bi> important</b> things</i> in it.';

var n = 0;
var prevTag = '';
var noTagTxt = '';
var dataArray = [['none']];

var txtArray = txt.split(/(<\/?(?:b|i|bi)>)/);

for (var i = 0; i < txtArray.length; i++) {
    var iTxt = txtArray[i];

    if (iTxt in BGNTAGSOBJ) {
        dataArray.push([TAGSOBJ[iTxt]]);
        prevTag = iTxt;
    } else if (iTxt in ENDTAGSOBJ) {
        if (prevTag in ENDTAGSOBJ) {
            dataArray[dataArray.length - 1][0] = TAGSOBJ[iTxt];
        }

        dataArray.push(['none']);
        prevTag = iTxt;
    } else if (iTxt.length > 0) {
        var iTxtLen = iTxt.length;

        dataArray[dataArray.length - 1].push([n, n + (iTxtLen - 1)]);

        noTagTxt += iTxt;

        n += iTxtLen;
    } else {
        dataArray[dataArray.length - 1][0] = 'none';
    }
}

for (var i = 0; i < dataArray.length; i++) {
    $.writeln(dataArray[i]);  // print to console in extendscript
}
$.writeln(noTagTxt);

/* Outputs to console in extendscript:
none,0,12
Arial   Bold,13,29
Arial   Italic,30,33
Arial   Bold
none,34,39
Arial   Italic,40,44
Arial   Bold,45,49
Arial   Bold Italic,50,63
Arial   Bold,64,73
Arial   Italic,74,80
none,81,87
This is some really important text with some very very <br> very important things in it.
Result: undefined
*/

最佳答案

我在等<bi>的解释标签,但与此同时,这里有一些代码可以去除标签并收集您需要的信息。我也不是 100% 清楚字体的内容。 TAGSOBJ 中的值是实际应用格式所需的值吗?

var
    content = 'This is some <b>really important <i>text</i></b> with <i>some <b>very very <br>very important</b> things</i> in it.',
    tagPattern = /<\/?(i|b)\b[^>]*>/ig,
    stack = [],
    tags = [],
    offset = 0,
    match,
    tag;

while (match = tagPattern.exec(content)) {
    if (match[0].substr(1, 1) !== '/') {
        stack.push(match.index - offset);
    } else {
        tags.push({
            tag: match[1],
            from: stack.splice(-1, 1)[0],
            to: match.index - offset
        });
    }
    offset += match[0].length;
}
content = content.replace(tagPattern, '');
// now use tags array and perform needed actions.

这是 a fiddle demonstrating this .

最后,就其值(value)而言,我认为在 javascript 中使用大写标识符不是标准做法。

关于javascript - 解析 Adob​​e InDesign 的 HTML 文本——其他标签内的标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12135627/

有关javascript - 解析 Adob​​e InDesign 的 HTML 文本——其他标签内的标签的更多相关文章

  1. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  2. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  3. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  4. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  5. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  6. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  7. ruby - 在院子里用@param 标签警告 - 2

    我试图使用yard记录一些Ruby代码,尽管我所做的正是所描述的here或here#@param[Integer]thenumberoftrials(>=0)#@param[Float]successprobabilityineachtrialdefinitialize(n,p)#initialize...end虽然我仍然得到这个奇怪的错误@paramtaghasunknownparametername:the@paramtaghasunknownparametername:success然后生成的html看起来很奇怪。我称yard为:$yarddoc-mmarkdown我做错了什么?

  8. ruby-on-rails - Rails HTML 请求渲染 JSON - 2

    在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这

  9. ruby-on-rails - 使用 Sublime Text 3 突出显示 HTML 背景语法中的 ERB? - 2

    所以我在关注Railscast,我注意到在html.erb文件中,ruby代码有一个微弱的背景高亮效果,以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果?谢谢! 最佳答案 为SublimeText安装ERB包。假设您安装了SublimeText包管理器*,只需点击cmd+shift+P即可获得命令菜单,然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中,键入ERB并在看到包时选择

  10. ruby-on-rails - Ruby url 到 html 链接转换 - 2

    我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.

随机推荐