当前位置: 首页 > 面试题库 >

如何在C#中将HTML转换为文本?

柳珂
2023-03-14
问题内容

我正在寻找C#代码以将HTML文档转换为纯文本。

我不是在寻找简单的标记剥离方法,而是会输出纯文本并 合理 保留原始布局的东西。

输出应如下所示:

W3C的Html2Txt

我看过HTML Agility Pack,但我认为这不是我所需要的。有人还有其他建议吗?

编辑: 我只是从CodePlex下载HTML Agility
Pack ,并运行了Html2Txt项目。真令人失望(至少是将html转换为文本的模块)!它所做的只是剥离标签,展平表等。输出看起来与生成的Html2Txt
@ W3C有所不同。不幸的是,该源似乎不可用。我一直在寻找是否有更多的“罐头”解决方案可用。

编辑2: 谢谢大家的建议。 FlySwat
向我提示了我要走的方向。我可以使用System.Diagnostics.Process类的“突降”开关运行lynx.exe将文本发送到标准输出,并与捕获标准输出ProcessStartInfo.UseShellExecute = falseProcessStartInfo.RedirectStandardOutput = true。我将所有这些包装在C#类中。只会偶尔调用此代码,因此与在代码中进行操作相比,我不太担心产生新进程。另外,山猫快!


问题答案:

您正在寻找的是文本模式DOM渲染器,该输出器可以输出文本,就像Lynx或其他文本浏览器一样……这比您预期的要难得多。



 类似资料:
  • 问题内容: 我在表格中存储了HTML片段。 不是整个页面,没有标签等,只是基本格式。 我希望能够在给定页面上将Html仅显示为文本,而 无需设置格式 (实际上只是前30-50个字符,但这很容易)。 如何将Html中的“文本”作为纯文本放入字符串中? 所以这段代码。 成为: 你好,世界。有没有人在那里? 问题答案: 如果您在谈论标签剥离,那么无需担心标签之类的事情就相对简单了。如果您需要做的就是显示

  • 问题内容: 我正在开发一个简单的RSS Reader应用程序,作为Xcode中的初学者项目。目前,我已设置它解析提要,并放置标题,发布日期,描述和内容,并将其显示在WebView中。 我最近决定在用于选择帖子的TableView中显示说明(或内容的删节版本)。但是,这样做时: 它显示了帖子的原始HTML。 我想知道如何仅将TableView的详细UILabel转换为纯文本的HTML。 谢谢! 问题

  • 问题内容: 我维护着一个公告板,用于将富文本消息保存为HTML。现在,我需要将所有这些消息迁移到需要HTML的BBCode表示的Joomla Kunena公告板上。 是否有任何库可以将HTML干净地转换为BBCode。有大量的脚本,可以将BBCode转换为HTML,但是没有相反的方法。 谢谢… 问题答案: 它应该可以在 文本输出模式下 与XSLT一起 使用 : 要到达那里,解析HTML并使用内置的

  • 问题内容: 我有一个带有HTML实体的ASCII字符串,例如: 我需要此字符串不包含那些实体,并将其转换为UTF-8字符。有没有简单的方法,在Java中可以做到这一点? 哪里: 返回“aà” 或类似的东西? 问题答案: 看一下org.apache.commons.lang.StringEscapeUtils.unescapeHtml(…)。显然,它可以理解HTML 4中定义的所有字符实体。

  • 问题内容: 我有Java程序,它将从服务器接收纯文本。纯文本可能包含URL。Java库中是否有任何Class可以将纯文本转换为HTML文本?还是其他图书馆?如果没有,那该怎么办呢? 问题答案: 我找到了使用模式匹配的解决方案。这是我的代码- 这是输入和输出- 输入文字是可变的: 输出:

  • 如何获取文件的数据而不是路径?我使用了,它返回文件的路径。 现在我想要的是将文件(而不是路径)转换为Base64。我知道如何将其转换为base64,但我想知道的是如何获取文件的数据。 知道吗?对不起,我是C#的新手 我不知道在这里是否是正确的术语:)