.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用

coder 2024-06-23 原文

我正在尝试对 xhtml 文档执行 xpath 查询。使用 .NET 3.5。

文档看起来像这样:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html lang="en" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
  <head>
   ....
  </head>
  <body>
    ...
  </body>
</html>

因为文档包含各种字符实体( 等)，我需要使用 DTD，以便使用 XmlReader 加载它.所以我的代码看起来像这样:

var s = File.OpenRead(fileToRead)
var reader = XmlReader.Create(s, new XmlReaderSettings{ ProhibitDtd=false });

但是当我运行它时，它返回

An error has occurred while opening external DTD 'http://www.w3.org/TR/xhtml1-transitional.dtd': The remote server returned an error: (503) Server Unavailable.

现在，我知道为什么我会收到 503 错误。 W3C explained it very clearly .

我见过人们只是禁用 DTD 的“解决方法”。这就是 ProhibitDtd=true 可以做的，它消除了 503 错误。

但在我的例子中，这会导致其他问题——应用程序没有获得实体定义，因此不是格式正确的 XML。如何在不访问 w3.org 网站的情况下使用 DTD 进行验证并获取实体定义？

我认为 .NET 4.0 有一个很好的内置功能来处理这种情况:XmlPreloadedResolver .但我需要 .NET 3.5 的解决方案。

最佳答案

答案是，我必须提供我自己的XmlResolver .我认为这不是 .NET 3.5 的内置功能。真令人费解。令人困惑的是我花了这么长时间才发现这个问题。同样令人困惑的是我找不到其他人已经解决了这个问题？

好的，所以.. XmlResolver。我创建了一个新类，派生自 XmlResolver 并覆盖了三个关键内容:Credentials (set)、ResolveUri 和 GetEntity。

public sealed class XhtmlResolver : XmlResolver
{
    public override System.Net.ICredentials Credentials
    {
        set { throw new NotSupportedException();}
    }

    public override object GetEntity(Uri absoluteUri, string role, Type t)
    {
       ...
    }

    public override Uri ResolveUri(Uri baseUri, string relativeUri)
    {
      ...
    }
}

关于这些东西的文档非常简陋，所以我会告诉你我学到了什么。这个类的操作是这样的:XmlReader首先调用ResolveUri，然后，给定一个解析的Uri，然后调用GetEntity。该方法应返回类型 t 的对象(作为参数传递)。我只看到它请求 System.IO.Stream。

我的想法是使用 csc.exe /resource 选项将 DTD 的本地副本及其 XHTML1.0 的依赖项嵌入到程序集中，然后检索该资源的流。

private System.IO.Stream GetStreamForNamedResource(string resourceName)
{
    Assembly a = Assembly.GetExecutingAssembly();
    return  a.GetManifestResourceStream(resourceName);
}

很简单。这是从 GetEntity() 调用的。

但我可以改进这一点。我没有将 DTD 嵌入纯文本，而是先将它们压缩。然后像这样修改上面的方法:

private System.IO.Stream GetStreamForNamedResource(string resourceName)
{
    Assembly a = Assembly.GetExecutingAssembly();
    return  new System.IO.Compression.GZipStream(a.GetManifestResourceStream(resourceName), System.IO.Compression.CompressionMode.Decompress);
}

该代码打开嵌入式资源的流，并返回配置为解压缩的 GZipStream。读者得到明文 DTD。

我想做的是只解析来自 Xhtml 1.0 的 DTD 的 URI。所以我编写了 ResolveUri 和 GetEntity 来查找那些特定的 DTD，并且只对它们做出肯定的响应。

对于带有DTD语句的XHTML文档，流程是这样的；

XmlReader 使用 XHTML DTD 的公共(public) URI 调用 ResolveUri，即 "-//W3C//DTD XHTML 1.0 Transitional//EN"。如果 XmlResolver 可以解析，它应该返回...一个有效的 URI。如果它不能解决，它应该抛出。我的实现只是抛出公共(public) URI。
XmlReader 然后使用 DTD 的系统标识符调用 ResolveUri，在本例中为 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"。在这种情况下，XhtmlResolver 返回一个有效的 Uri。
XmlReader 然后使用该 URI 调用 GetEntity。 XhtmlResolver 获取嵌入的资源流并将其返回。

依赖项也会发生同样的事情 - xhtml_lat1.ent，等等。为了让解析器工作，所有这些东西都需要嵌入。

是的，如果 Resolver 无法解析 URI，它会抛出异常。据我所知，这没有正式记录。似乎有点意外。 (严重违反 the principle of least astonishment )。相反，如果 ResolveUri 返回 null，则 XmlReader 将对 null URI 调用 GetEntity，这……啊，没希望了。

这对我有用。它应该适用于任何从 .NET 对 XHTML 进行 XML 处理的人。如果您想在自己的应用程序中使用它，grab the DLL .该 zip 包含完整的源代码。根据 MS Public License 获得许可.

您可以将它插入您的 XML 应用程序中，这些应用程序使用 XHTML。像这样使用它:

// for an XmlDocument...
System.Xml.XmlDocument doc = new System.Xml.XmlDocument();
doc.XmlResolver = new Ionic.Xml.XhtmlResolver();
doc.Load(xhtmlFile);

// for an XmlReader...
var xmlReaderSettings = new XmlReaderSettings
    {
        ProhibitDtd = false,
        XmlResolver = new XhtmlResolver()
    };
using (var stream = File.OpenRead(fileToRead))
{
    XmlReader reader = XmlReader.Create(stream, xmlReaderSettings);
    while (reader.Read())
    {
     ...
    }

关于.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2558021/

有关.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用的更多相关文章

ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
ruby - 具有身份验证的私有(private) Ruby Gem 服务器 - 2
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时，它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器？这是不可能的吗？谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
ruby - 如何模拟 Net::HTTP::Post？ - 2
是的，我知道最好使用webmock，但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou
ruby-on-rails - 启动 Rails 服务器时 ImageMagick 的警告 - 2
最近，当我启动我的Rails服务器时，我收到了一长串警告。虽然它不影响我的应用程序，但我想知道如何解决这些警告。我的估计是imagemagick以某种方式被调用了两次？当我在警告前后检查我的git日志时。我想知道如何解决这个问题。-bcrypt-ruby(3.1.2)-better_errors(1.0.1)+bcrypt(3.1.7)+bcrypt-ruby(3.1.5)-bcrypt(>=3.1.3)+better_errors(1.1.0)bcrypt和imagemagick有关系吗？/Users/rbchris/.rbenv/versions/2.0.0-p247/lib/ru
ruby-on-rails - s3_direct_upload 在生产服务器中不工作 - 2
在Rails4.0.2中，我使用s3_direct_upload和aws-sdkgems直接为s3存储桶上传文件。在开发环境中它工作正常，但在生产环境中它会抛出如下错误，ActionView::Template::Error(noimplicitconversionofnilintoString)在View中，create_cv_url,:id=>"s3_uploader",:key=>"cv_uploads/{unique_id}/${filename}",:key_starts_with=>"cv_uploads/",:callback_param=>"cv[direct_uplo
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
ruby-on-rails - 在 Rails 中调试生产服务器 - 2
您如何在Rails中的实时服务器上进行有效调试，无论是在测试版/生产服务器上？我试过直接在服务器上修改文件，然后重启应用，但是修改好像没有生效，或者需要很长时间(缓存？)我也试过在本地做“脚本/服务器生产”，但是那很慢另一种选择是编码和部署，但效率很低。有人对他们如何有效地做到这一点有任何见解吗？最佳答案我会回答你的问题，即使我不同意这种热修补服务器代码的方式:)首先，你真的确定你已经重启了服务器吗？您可以通过跟踪日志文件来检查它。您更改的代码显示的View可能会被缓存。缓存页面位于tmp/cache文件夹下。您可以尝试手动删除
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting - 2
1.错误信息：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)或者：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:TLShandshaketimeout2.报错原因：docker使用的镜像网址默认为国外，下载容易超时，需要修改成国内镜像地址（首先阿里

.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用

有关.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用的更多相关文章

随机推荐