问题：

在html/xhtml中解析RDFa？

米俊喆

2023-03-14

使用perl中的RDF::RDFa::解析器模块解析网站中的rdf数据。在网站上与！DOCTYPE超文本标记语言PUBLIC"-//W3C//DTD超文本标记语言4.01过渡//EN"

测试网站-

use RDF::RDFa::Parser;

my $url     = 'http://www.filmstarts.de/kritiken/186918.html';
my $options = RDF::RDFa::Parser::Config->tagsoup;
my $rdfa    = RDF::RDFa::Parser->new_from_url($url, $options);

print $rdfa->opengraph('image');
print $rdfa->opengraph('description');

共有1个答案

严宸

2023-03-14

（我是RDF:：RDFa:：Parser的作者。）

RDFa解析器使用的超文本标记语言解析器似乎在该页面上失败。（我也是超文本标记语言解析器的维护者，所以我不能把责任推给任何人！）因此，当RDFa解析开始时，它只看到一个空的DOM树。

这个页面是非常可怕的无效XHTML，但我仍然期望超文本标记语言解析器能做一个合理的工作。我已经为你提交了一份错误报告。

同时，一种解决方法可能是在RDF::RDFa::解析器之外构建XML::LibXML DOM树（也许使用libxml的内置超文本标记语言解析器？）。您可以将该树直接传递给RDFa解析器：

use RDF::RDFa::Parser;
use LWP::Simple qw(get);

my $url     = 'http://www.filmstarts.de/kritiken/186918.html';
my $xhtml   = get($url);
my $dom     = somehow_build_a_dom_tree($xhtml);  # hand-waving!!
my $options = RDF::RDFa::Parser::Config->tagsoup;
my $rdfa    = RDF::RDFa::Parser->new($dom, $url, $options);

print $rdfa->opengraph('image');
print $rdfa->opengraph('description');

我希望这有帮助！

更新：这里有一个可能的实现somehow_build_a_dom_tree...

sub somehow_build_a_dom_tree {
    my $p = XML::LibXML->new;
    $p->recover_silently(1);
    $p->load_html( string => @_ );
}

类似资料：

在Jsoup中解析html

我试图在这里使用JSOUP解析html标记。我对jsoup是新来的。基本上，我需要解析这些标记，获取这些标记中的文本，并应用class属性中提到的样式。我正在创建一个SpannableStringBuilder，它可以创建子字符串，应用样式，并将它们附加到没有样式的文本中。我不确定如何解析不在任何标记之间的字符串，例如“there are”和“worker from the”。需要输出，例如
在XOM中解析XHTML文档时DTD下载错误

问题内容：我试图解析具有声明为使用过渡性dtd的doctype的HTML文档，如下所示： <！DOCTYPE html PUBLIC“-// W3C // DTD XHTML 1.0 Transitional // EN”“ http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd ”> 在文档上执行Builder.build时，出现以下异常
如何在PHP中解析HTML？

问题内容：我知道我们可以使用PHP DOM 来使用PHP解析HTML。我也在堆栈溢出中发现了很多问题。但是我有一个特定的要求。我有如下的HTML内容我想解析以上HTML并将内容保存到两个不同的数组中，例如：和我可以简单地使用jQuery来实现。但是我不确定这是否正确。如果有人能指出我正确的方向，那就太好了。提前致谢。问题答案：尝试查看PHP简单HTML DOM解析器它具有类似于jQu
HTML 解析

HTML5 Boilerplate 默认提供两个 html 页面： index.html 404.html index.html no-js类 no-js 类可以让开发者依据 JavaScript 被启用（.js）或被禁止(.no-js)两种状态，更轻易准确地添加自定义样式。使用这个技巧也有助于避免浏览器闪烁（FOUC）。 lang 属性请认真考虑在 <html> 中添加 lang 属性，从而
HTML 5与XHTML 1.0 Transitional

本文向大家介绍HTML 5与XHTML 1.0 Transitional，包括了HTML 5与XHTML 1.0 Transitional的使用技巧和注意事项，需要的朋友参考一下 HTML表示为SGML，XHTML表示为XML。创建XHTML具有更多的标记形式的限制。避免在XHTML 1.0 Transitional中使用<video>或<audio>标记，因为它们不是该规范的元素。从HTML
HTML/XHTML 常见问题

Flask 文档和示例应用使用 HTML5 。你可能会注意到，在许多情况下当结束标签是可选的时候，并不使用它们，这样 HTML 会更简洁且加载更迅速。因为在开发者中，关于 HTML 和 XHTML 有许多混淆，本文档试图回答一些主要的疑问。 XHTML 的历史一段时间， XHTML 的出现欲取代 HTML 。然而，Internet 上几乎没有任何实际的 XHTML （用 XML 规则处理的

在html/xhtml中解析RDFa？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档