我处理来自飞机制造商 B 的数据。我需要将此数据提供给第三方,以便他们开发可以处理它的工具。
问题是数据需要匿名,因为我们与 B 签订了保密协议(protocol)。所以每当我们有像
<element>Some really sensitive information</element>
我们需要用非敏感内容替换文本内容。 我可以用 perl 一行代码做到这一点,将所有字母数字字符替换为 *。
perl -ne 'if(/<(PARA)>([^<]*)<\/PARA>(.*)/){$tag = $1;$content = $2; $content =~ s/\S/*/g;print "<".$tag.">".$content."</".$tag.">".$3."\n"}else{print $_;}' infile > outfile
但是,因为我想让匿名化数据更具可读性,并且相关工具更容易解决问题,所以我想插入“真实”文本而不是 *,需要注意的是,entrie 文本内容需要长度相同。个别单词改变长度没有问题,但整个文本内容必须具有相同的长度。
所以结果将是“lorem ipsum”类型的东西。
这样做的一个缺点是我最终会得到所有 <title>元素,例如,具有相同的开头,例如<title>Lorem Ipsum</title> & <title>Lorem Ips</title>人类读者很难区分。
所以最终的解决方案是我有一个可用的文本文件,我将从该文本 block 中的随机起点选择正确长度的文本 block 。 (我在想 Marcel Proust 的地方只是为了自命不凡)
如果有人可以将此作为 perl 单行代码,我将永远敬畏。
假设目标元素总是单独在一行上,并且元素只包含文本,没有子元素或属性。
最佳答案
好的,这是一个正确的方法,使用 XML 解析器和所有的(非常!)长行:
perl -MText::Lorem -MXML::Twig -E'$t= Text::Lorem->new; XML::Twig->parse( twig_roots => { PARA => sub { $l= length $_->text; $_->set_text( substr( $t->words( $l), 0, $l)); $_->flush} }, twig_print_outside_roots => 1, keep_spaces => 1, $ARGV[0])' myfile.xml
采用正则表达式方式:
perl -MText::Lorem -p -E'BEGIN { $t= Text::Lorem->new; } s{<PARA>(.*)</PARA>}{$l=length $1; "<PARA>" . substr( $t->words( $l), 0, $l) . "</PARA>"}eg' myfile.xml
如果您想就地更改文件,请使用-i
在这两种情况下,由于 Text::Lorem 不允许指定生成字符串的字符数,我生成了一个(更长的)单词字符串,然后取适当长度的子字符串。我怀疑您可以使用 $l/2 作为生成的单词数,它仍然可以正常工作。
关于xml - 如何用另一个通用文本的内容替换 XML 元素的文本内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19006132/
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为
如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案