我正在尝试对 xhtml 文档执行 xpath 查询。使用 .NET 3.5。
文档看起来像这样:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html lang="en" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
<head>
....
</head>
<body>
...
</body>
</html>
因为文档包含各种字符实体( 等),我需要使用 DTD,以便使用 XmlReader 加载它.所以我的代码看起来像这样:
var s = File.OpenRead(fileToRead)
var reader = XmlReader.Create(s, new XmlReaderSettings{ ProhibitDtd=false });
但是当我运行它时,它返回
An error has occurred while opening external DTD 'http://www.w3.org/TR/xhtml1-transitional.dtd': The remote server returned an error: (503) Server Unavailable.
现在,我知道为什么我会收到 503 错误。 W3C explained it very clearly .
我见过人们只是禁用 DTD 的“解决方法”。这就是 ProhibitDtd=true 可以做的,它消除了 503 错误。
但在我的例子中,这会导致其他问题——应用程序没有获得实体定义,因此不是格式正确的 XML。如何在不访问 w3.org 网站的情况下使用 DTD 进行验证并获取实体定义?
我认为 .NET 4.0 有一个很好的内置功能来处理这种情况:XmlPreloadedResolver .但我需要 .NET 3.5 的解决方案。
相关:
- java.io.IOException: Server returned HTTP response code: 503
最佳答案
答案是,我必须提供我自己的XmlResolver .我认为这不是 .NET 3.5 的内置功能。真令人费解。令人困惑的是我花了这么长时间才发现这个问题。同样令人困惑的是我找不到其他人已经解决了这个问题?
好的,所以.. XmlResolver。我创建了一个新类,派生自 XmlResolver 并覆盖了三个关键内容:Credentials (set)、ResolveUri 和 GetEntity。
public sealed class XhtmlResolver : XmlResolver
{
public override System.Net.ICredentials Credentials
{
set { throw new NotSupportedException();}
}
public override object GetEntity(Uri absoluteUri, string role, Type t)
{
...
}
public override Uri ResolveUri(Uri baseUri, string relativeUri)
{
...
}
}
关于这些东西的文档非常简陋,所以我会告诉你我学到了什么。这个类的操作是这样的:XmlReader首先调用ResolveUri,然后,给定一个解析的Uri,然后调用GetEntity。该方法应返回类型 t 的对象(作为参数传递)。我只看到它请求 System.IO.Stream。
我的想法是使用 csc.exe /resource 选项将 DTD 的本地副本及其 XHTML1.0 的依赖项嵌入到程序集中,然后检索该资源的流。
private System.IO.Stream GetStreamForNamedResource(string resourceName)
{
Assembly a = Assembly.GetExecutingAssembly();
return a.GetManifestResourceStream(resourceName);
}
很简单。这是从 GetEntity() 调用的。
但我可以改进这一点。我没有将 DTD 嵌入纯文本,而是先将它们压缩。然后像这样修改上面的方法:
private System.IO.Stream GetStreamForNamedResource(string resourceName)
{
Assembly a = Assembly.GetExecutingAssembly();
return new System.IO.Compression.GZipStream(a.GetManifestResourceStream(resourceName), System.IO.Compression.CompressionMode.Decompress);
}
该代码打开嵌入式资源的流,并返回配置为解压缩的 GZipStream。读者得到明文 DTD。
我想做的是只解析来自 Xhtml 1.0 的 DTD 的 URI。所以我编写了 ResolveUri 和 GetEntity 来查找那些特定的 DTD,并且只对它们做出肯定的响应。
对于带有DTD语句的XHTML文档,流程是这样的;
XmlReader 使用 XHTML DTD 的公共(public) URI 调用 ResolveUri,即 "-//W3C//DTD XHTML 1.0 Transitional//EN"。如果 XmlResolver 可以解析,它应该返回...一个有效的 URI。如果它不能解决,它应该抛出。我的实现只是抛出公共(public) URI。
XmlReader 然后使用 DTD 的系统标识符调用 ResolveUri,在本例中为 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"。在这种情况下,XhtmlResolver 返回一个有效的 Uri。
XmlReader 然后使用该 URI 调用 GetEntity。 XhtmlResolver 获取嵌入的资源流并将其返回。
依赖项也会发生同样的事情 - xhtml_lat1.ent,等等。为了让解析器工作,所有这些东西都需要嵌入。
是的,如果 Resolver 无法解析 URI,它会抛出异常。据我所知,这没有正式记录。似乎有点意外。 (严重违反 the principle of least astonishment )。相反,如果 ResolveUri 返回 null,则 XmlReader 将对 null URI 调用 GetEntity,这……啊,没希望了。
这对我有用。它应该适用于 任何 从 .NET 对 XHTML 进行 XML 处理的人。如果您想在自己的应用程序中使用它,grab the DLL .该 zip 包含完整的源代码。根据 MS Public License 获得许可.
您可以将它插入您的 XML 应用程序中,这些应用程序使用 XHTML。像这样使用它:
// for an XmlDocument...
System.Xml.XmlDocument doc = new System.Xml.XmlDocument();
doc.XmlResolver = new Ionic.Xml.XhtmlResolver();
doc.Load(xhtmlFile);
// for an XmlReader...
var xmlReaderSettings = new XmlReaderSettings
{
ProhibitDtd = false,
XmlResolver = new XhtmlResolver()
};
using (var stream = File.OpenRead(fileToRead))
{
XmlReader reader = XmlReader.Create(stream, xmlReaderSettings);
while (reader.Read())
{
...
}
关于.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2558021/
作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时,它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器?这是不可能的吗?谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
是的,我知道最好使用webmock,但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou
最近,当我启动我的Rails服务器时,我收到了一长串警告。虽然它不影响我的应用程序,但我想知道如何解决这些警告。我的估计是imagemagick以某种方式被调用了两次?当我在警告前后检查我的git日志时。我想知道如何解决这个问题。-bcrypt-ruby(3.1.2)-better_errors(1.0.1)+bcrypt(3.1.7)+bcrypt-ruby(3.1.5)-bcrypt(>=3.1.3)+better_errors(1.1.0)bcrypt和imagemagick有关系吗?/Users/rbchris/.rbenv/versions/2.0.0-p247/lib/ru
在Rails4.0.2中,我使用s3_direct_upload和aws-sdkgems直接为s3存储桶上传文件。在开发环境中它工作正常,但在生产环境中它会抛出如下错误,ActionView::Template::Error(noimplicitconversionofnilintoString)在View中,create_cv_url,:id=>"s3_uploader",:key=>"cv_uploads/{unique_id}/${filename}",:key_starts_with=>"cv_uploads/",:callback_param=>"cv[direct_uplo
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b
您如何在Rails中的实时服务器上进行有效调试,无论是在测试版/生产服务器上?我试过直接在服务器上修改文件,然后重启应用,但是修改好像没有生效,或者需要很长时间(缓存?)我也试过在本地做“脚本/服务器生产”,但是那很慢另一种选择是编码和部署,但效率很低。有人对他们如何有效地做到这一点有任何见解吗? 最佳答案 我会回答你的问题,即使我不同意这种热修补服务器代码的方式:)首先,你真的确定你已经重启了服务器吗?您可以通过跟踪日志文件来检查它。您更改的代码显示的View可能会被缓存。缓存页面位于tmp/cache文件夹下。您可以尝试手动删除
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
1.错误信息:Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)或者:Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:TLShandshaketimeout2.报错原因:docker使用的镜像网址默认为国外,下载容易超时,需要修改成国内镜像地址(首先阿里