当前位置: 首页 > 面试题库 >

如何使用.NET的WebBrowser或mshtml.HTMLDocument动态生成HTML代码?

韩晋
2023-03-14
问题内容

我已阅读的有关该主题的大多数答案都指向System.Windows.Forms.WebBrowser类或Microsoft
HTML对象库程序集的COM接口mshtml.HTMLDocument。

WebBrowser类没有带我到任何地方。以下代码无法检索由我的Web浏览器呈现的HTML代码:

[STAThread]
public static void Main()
{
    WebBrowser wb = new WebBrowser();
    wb.Navigate("https://www.google.com/#q=where+am+i");

    wb.DocumentCompleted += delegate(object sender, WebBrowserDocumentCompletedEventArgs e)
    {
        mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)wb.Document.DomDocument;
        foreach (IHTMLElement element in doc.all)
        {
                    System.Diagnostics.Debug.WriteLine(element.outerHTML);
        }     
    };
    Form f = new Form();
    f.Controls.Add(wb);
    Application.Run(f);
}

以上仅是示例。我对寻找一种解决方法以找出我所在的城镇的名字并不感兴趣。我只需要了解如何以编程方式检索这种动态生成的数据即可。

(调用新的System.Net.WebClient.DownloadString(“
https://www.google.com/#q=where+am+i
”),将所得文本保存在某处,搜索您当前所在城镇的名称找到,让我知道您是否能够找到它。)

但是,当我从Web浏览器(即Firefox)访问“
https://www.google.com/#q=where+am+i
”时,我会在网页上看到自己的城镇名称。在Firefox中,如果我右键单击城镇名称并选择“检查元素(Q)”,则可以清楚地看到用HTML代码编写的城镇名称,其外观与WebClient返回的原始HTML完全不同。

在我厌倦了玩System.Net.WebBrowser之后,我决定尝试一下mshtml.HTMLDocument,最后得到同样的无用的原始HTML:

public static void Main()
{
    mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)new mshtml.HTMLDocument();
    doc.write(new System.Net.WebClient().DownloadString("https://www.google.com/#q=where+am+i"));

    foreach (IHTMLElement e in doc.all)
    {
            System.Diagnostics.Debug.WriteLine(e.outerHTML);
    }
}

我认为必须有一种优雅的方式来获取此类信息。现在,我所能想到的就是将WebBrowser控件添加到表单中,让它导航到有问题的URL,发送键“
CLRL,A”,然后将页面上显示的所有内容复制到剪贴板,然后尝试解析它。但是,这是一个可怕的解决方案。


问题答案:

我想为Alexei的答案贡献一些代码。几点:

  • 严格来说,不一定总能确定页面何时以100%的概率完成渲染。有些页面非常复杂,并使用连续的AJAX更新。但是,通过轮询页面的当前HTML快照以查找更改并检查WebBrowser.IsBusy属性,我们可以非常接近。这就是 LoadDynamicPage下面的内容。

  • 在页面上方永无休止的情况下,必须在上面加上一些超时逻辑(请注意CancellationTokenSource)。

  • Async/await 是一个很好的编码工具,因为它为我们的异步轮询逻辑提供了线性代码流,从而大大简化了它。

  • 使用浏览器功能控件启用HTML5呈现非常重要,因为WebBrowser默认情况下,该功能以IE7仿真模式运行。这就是SetFeatureBrowserEmulation下面的内容。

  • 这是一个WinForms应用程序,但是可以轻松地将该概念转换为控制台应用程序。

  • 此逻辑在您专门提到的URL上很好用:https : //www.google.com/#q=where+am+i。

    using Microsoft.Win32;
    using System;
    using System.ComponentModel;
    using System.Diagnostics;
    using System.Threading;
    using System.Threading.Tasks;
    using System.Windows.Forms;

    namespace WbFetchPage
    {
    public partial class MainForm : Form
    {
    public MainForm()
    {
    SetFeatureBrowserEmulation();
    InitializeComponent();
    this.Load += MainForm_Load;
    }

        // start the task
        async void MainForm_Load(object sender, EventArgs e)
        {
            try
            {
                var cts = new CancellationTokenSource(10000); // cancel in 10s
                var html = await LoadDynamicPage("https://www.google.com/#q=where+am+i", cts.Token);
                MessageBox.Show(html.Substring(0, 1024) + "..." ); // it's too long!
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
        }
    
        // navigate and download 
        async Task<string> LoadDynamicPage(string url, CancellationToken token)
        {
            // navigate and await DocumentCompleted
            var tcs = new TaskCompletionSource<bool>();
            WebBrowserDocumentCompletedEventHandler handler = (s, arg) =>
                tcs.TrySetResult(true);
    
            using (token.Register(() => tcs.TrySetCanceled(), useSynchronizationContext: true))
            {
                this.webBrowser.DocumentCompleted += handler;
                try 
                {           
                    this.webBrowser.Navigate(url);
                    await tcs.Task; // wait for DocumentCompleted
                }
                finally
                {
                    this.webBrowser.DocumentCompleted -= handler;
                }
            }
    
            // get the root element
            var documentElement = this.webBrowser.Document.GetElementsByTagName("html")[0];
    
            // poll the current HTML for changes asynchronosly
            var html = documentElement.OuterHtml;
            while (true)
            {
                // wait asynchronously, this will throw if cancellation requested
                await Task.Delay(500, token);
    
                // continue polling if the WebBrowser is still busy
                if (this.webBrowser.IsBusy)
                    continue;
    
                var htmlNow = documentElement.OuterHtml;
                if (html == htmlNow)
                    break; // no changes detected, end the poll loop
    
                html = htmlNow;
            }
    
            // consider the page fully rendered 
            token.ThrowIfCancellationRequested();
            return html;
        }
    
        // enable HTML5 (assuming we're running IE10+)
        // more info: https://stackoverflow.com/a/18333982/1768303
        static void SetFeatureBrowserEmulation()
        {
            if (LicenseManager.UsageMode != LicenseUsageMode.Runtime)
                return;
            var appName = System.IO.Path.GetFileName(System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName);
            Registry.SetValue(@"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BROWSER_EMULATION",
                appName, 10000, RegistryValueKind.DWord);
        }
    }
    

    }



 类似资料:
  • 问题内容: 我正在尝试在我的网站上生成QR码。他们要做的就是在其中包含一个URL,该URL将在我的网站上提供。最简单的方法是什么? 问题答案: 值得补充的是,除了@abaumg发布的QR码库外,Google还提供了一个 [QR Code API] QRCodes API非常感谢链接更新。 要使用this,基本上是: 是您要生成的QR图像的尺寸, 这是您要更改为QR码的url编码的字符串,并且 的是

  • 目前,我正在生成表头和行,但我希望使行更具动态性。如何在不重复一次的情况下打印行的数据?我怎样才能像标题一样使用1语句呢?所以基本上我只需要调用{row},它应该生成该行包含的所有内容,而不必键入{row.school}等等。。。

  • 本文向大家介绍如何使用mybatis-generator自动生成代码,包括了如何使用mybatis-generator自动生成代码的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了如何使用mybatis-generator自动生成代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1、在pom文件中添加mybatis-generator

  • 问题内容: 我正在寻找一种生成代码的解决方案。我已经用谷歌搜索,搜索了SO和一些博客,但没有找到一个好的解决方案。 我想在类上添加注释,并且在编译时,一些方法和属性会自动添加到类中。 我正在寻找的解决方案的要点: 生成的代码可定制(强制) 无需调用任何外部工具(强制性) 仅JDK,无第三方框架( 强制 选配) 注释名称可自定义(可选) 例如 : 编译后,我的课看起来像这样: 编辑: 最后,我将我的

  • 我有一个由hazelcast节点网格组成的应用程序,它使用了广泛的运行时字节码生成(asm)。具体地说,我正在根据用户输入的过滤器表达式动态构建谓词<>Java函数。我希望将谓词存储在一个映射中,这样它们就可以在整个集群中使用,而不必重新编译。谓词不是唯一的实例。我还有在运行时生成的ORM样式映射类,它们需要在整个集群中共享。这些类由名为DynamicLassLoader的自定义类加载器加载。 一

  • 本文向大家介绍用.NET如何生成二维码,包括了用.NET如何生成二维码的使用技巧和注意事项,需要的朋友参考一下 下面介绍一下如何用.NET生成二维码(QR Code码制),下面给出详细步骤: 1、新建一个window应用程序,然后引入.NET二维码类库(开源的类库,可从网上下载): 2、构建UI界面,代码如下: 图形如下所示:   3、编写 编码和解码按钮事件,进行编码和解码处理: 4、编译运行,