javascript - 解析复杂的 HTML 表格

coder 2023-08-05 原文

我正在尝试解析我的大学提供的类(class)表，以便将信息导入某种日历。
可以在此处查看时间表示例:
http://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIA13-7.%20Block.html

在我看来，自动生成的 HTML 内容是一团糟，很难掌握。例如。这些表主要是用rowspans和colspans构建的(代码中单元格的位置与其在浏览器中的实际视觉位置相比似乎部分是任意的)。

我已经尝试过的:

要求大学行政办公室单独提供一个更简单、更易于阅读的文件。当然这是不可能的，毕竟这意味着一分钟的额外努力。

研究用于生成 HTML 的原始工具。它被称为“sked Stundenplan 软件”。我找不到任何提示或工具来“逆转”生成过程。

在寻找现有解决方案时，我发现了一些不适用于我的日程安排的工具(例如 http://code.google.com/p/skd-schedule-parser/ )。在研究了这些工具的代码后，我得出结论，它们一定是为其他/过时版本的 sked 设计的。

使用 PHP 解析 HTML(主要使用 DOMDocument)。这有时有效，但太不可靠了……要考虑的异常(exception)情况似乎是不确定的。

现在，我认为传统的 HTML 解析不会让我走得太远，至少在可接受的开发时间内不会。
我正在寻找的是从复杂的 HTML 表中获取信息的其他方法，例如 YQL，或者可以使用 col-/rowspans 规范化此类表的实用程序。
因为我没有任何具体的想法，所以我主要是在寻求另一种方法的一些提示或提示。

是否还有其他更合适的方法来解析此类表格，或者我是否坚持使用传统的 HTML 解析？

编辑:

代表一个请求，我将粘贴一个原始代码示例......

本星期:

此代码的结果:
http://pastebin.com/BJduUVtU

编辑2:
由于一些解析讨论，我还将添加我的 PHP 代码。这是我第一次使用 PHP，所以它不是很复杂。它应该更深入地了解我在理论上解析表格方面走了多远。实际工作发生在函数 parseSkedTable() 中，请专注于这一点。另外，我想指出评论中出现的“双门类(class)”一词，它描述了同时发生的两门不同的类(class)(类(class)会在这样的时刻被分开)。这些类(class)的一个例子可以在第二周找到:
http://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIB14-4.%20Block.html

它看起来像这样:

那一周的相应 HTML 代码也可以在这里访问:
http://pastebin.com/gLTWz5KU

现在是 PHP 代码(我很难翻译这些评论，因为我已经在努力用我的第一语言表达它们......我希望它们可能仍然有帮助):
http://pastebin.com/Nzi8m2v8

更新

到目前为止，我的解析问题已经有了一些解决方案，每个都使用 JavaScript。由于 JavaScript(由于使用浏览器渲染数据的能力而在这里特别强大)似乎是从 HTML 中检索可靠信息的唯一有效方法，我现在正在寻找一种方法来实现某种 headless 浏览器或渲染引擎在我位于 x10hosting.com 的免费服务器上。可悲的是，我无法安装 softaculous 提供的软件。也不允许使用 PHP 的 exec() 命令。
任何想法将不胜感激!

为了完整起见，我将发布两个解决方案，直到现在都存在:

jQuery parser皮埃尔·杜布瓦:

(函数($){
$(文档).ready(函数() {

    var _pe = window.pe || {
        fn : {}
    };

    var tblNumber = 0; // Just a incremental number to identify the schedule item with the table

    // For each table
    $('table').each(function () {

        $('#output').append('Parsing the table number: ' + tblNumber + '<br>');
        // console.log('Parsing the table number: ' + tblNumber);
        tblNumber += 1;

        var currentTable = this;


        // Parser the complex table
        _pe.fn.parsertable.parse($(currentTable));

        // Retrieve the parsed data
        var parsedData = $(currentTable).data().tblparser;

        //
        // Information about the column structure, nice that is consistent
        //

        // Day: Cell index position (0 based)
        // Mo: 3
        // Di: 7
        // Mi: 11
        // Do: 15
        // Fr: 19
        // Sa: 23

        // Title Location at Row index position "0"

        // "i" represent the middle column position
        for (var i = 3; i < 24; i += 4) {

            var currentDay;

            // Get the day
            currentDay = $(parsedData.row[0].cell[i].elem).text();

            $('#output').append('  Day: ' + currentDay + '<br>');
            // console.log('Day: ' + currentDay);

            // Get all the events for that day, excluding the first row and the last row
            for (var j = 1; j < parsedData.col[i].cell.length - 2; j += 1) {

                // First column 
                if (parsedData.col[i - 1].cell[j - 1].uid !== parsedData.col[i - 1].cell[j].uid ) {

                    // Get the content of that cell and remove ending space
                    var event = $(parsedData.col[i - 1].cell[j].elem).text().trim();

                    if (event.length > 0) {
                        $('#output').append('  + Event: ' + event + '<br>');
                        // console.log('Event: ' + event);
                    }
                }

                // Second Column
                if (parsedData.col[i].cell[j - 1].uid !== parsedData.col[i].cell[j].uid &&
                    parsedData.col[i - 1].cell[j].uid !== parsedData.col[i].cell[j].uid) {

                    // Get the content of that cell and remove ending space
                    var event = $(parsedData.col[i].cell[j].elem).text().trim();

                    if (event.length > 0) {
                        $('#output').append('  + Event: ' + event + '<br>');
                        // console.log('Event: ' + event);
                    }
                }

                // Third Column
                if (parsedData.col[i + 1].cell[j - 1].uid !== parsedData.col[i + 1].cell[j].uid &&
                    parsedData.col[i].cell[j].uid !== parsedData.col[i + 1].cell[j].uid) {

                    // Get the content of that cell and remove ending space
                    var event = $(parsedData.col[i + 1].cell[j].elem).text().trim();

                    if (event.length > 0) {
                        $('#output').append('  + Event: ' + event + '<br>');
                        // console.log('Event: ' + event);
                    }
                }
            } 

        }

    });


});

}(jQuery));

JS parser using positional information由我，实现兰博
程序员的想法

最佳答案

您可以在这里使用浏览器渲染/布局引擎。

使用http://phantomjs.org/访问 headless 浏览器，让您在网页的 dom 上执行 javascript。

一点 jquery 将使剩余的伪代码易于实现:

foreach (td.t as dateElement) {
    //parse date from element text
    //use pixel position + dimensions to calc pixel coord of center
    // save this center in a list along with the date
}

foreach (td.v as calendarEntryElement) {
    //parse time + other stuff from element text
    //use pixel position to find the closest date element in that list(it must be the closest one above)
}

我觉得位置信息在这里会非常可靠，因为一切都是嵌套的矩形，并且都是通过表格完成的。

您不需要使用 phantomjs，您可以轻松地手动执行浏览器，并让它向本地服务器发送请求以收集结果。

一些shell命令大致像

firefox file://foo123.html

您在其中添加了一些自定义 <script>到他们的一个网页的末尾并保存。

关于javascript - 解析复杂的 HTML 表格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12988863/

javascript HTML br parsedData 39 php web-scraping html-table

有关javascript - 解析复杂的 HTML 表格的更多相关文章

Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 用逗号、双引号和编码解析 csv - 2
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
ruby-on-rails - Rails HTML 请求渲染 JSON - 2
在我的Controller中，我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时，它会自然地以HTML呈现。但是，当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法)，我仍然将HTML作为响应。如何获取JSON作为响应？我还需要说明什么？最佳答案您应该将.json附加到请求的url，提供的格式在routes.rb的路径中定义。这
ruby-on-rails - 使用 Sublime Text 3 突出显示 HTML 背景语法中的 ERB？ - 2
所以我在关注Railscast，我注意到在html.erb文件中，ruby代码有一个微弱的背景高亮效果，以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果？谢谢! 最佳答案为SublimeText安装ERB包。假设您安装了SublimeText包管理器*，只需点击cmd+shift+P即可获得命令菜单，然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中，键入ERB并在看到包时选择
ruby-on-rails - Ruby url 到 html 链接转换 - 2
我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时，我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有，我有一些不错的正则表达式示例代码可以使用... 最佳答案查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.
ruby-on-rails - 我更新了 ruby gems，现在到处都收到解析树错误和弃用警告! - 2
简而言之错误:NOTE:Gem::SourceIndex#add_specisdeprecated,useSpecification.add_spec.Itwillberemovedonorafter2011-11-01.Gem::SourceIndex#add_speccalledfrom/opt/local/lib/ruby/site_ruby/1.8/rubygems/source_index.rb:91./opt/local/lib/ruby/gems/1.8/gems/rails-2.3.8/lib/rails/gem_dependency.rb:275:in`==':und
ruby-on-rails - capybara ::ElementNotFound:无法找到 xpath "/html" - 2
我正在学习http://ruby.railstutorial.org/chapters/static-pages上的RubyonRails教程并遇到以下错误StaticPagesHomepageshouldhavethecontent'SampleApp'Failure/Error:page.shouldhave_content('SampleApp')Capybara::ElementNotFound:Unabletofindxpath"/html"#(eval):2:in`text'#./spec/requests/static_pages_spec.rb:7:in`(root)'
ruby-on-rails - Prawn - 表格单元格内的链接 - 2
我正在尝试用Prawn生成PDF。在我的PDF模板中，我有带单元格的表格。在其中一个单元格中，我有一个电子邮件地址:cell_email=pdf.make_cell(:content=>booking.user_email,:border_width=>0)我想让电子邮件链接到“mailto”链接。我知道我可以这样链接:pdf.formatted_text([{:text=>booking.user_email,:link=>"mailto:#{booking.user_email}"}])但是将这两行组合起来(将格式化文本作为内容)不起作用:cell_email=pdf.make_c

javascript - 解析复杂的 HTML 表格

有关javascript - 解析复杂的 HTML 表格的更多相关文章

随机推荐