当前位置: 首页 > 知识库问答 >
问题:

如何从网页中提取文本?

潘志国
2023-03-14

我有一个Excel工作表,其中一栏填充了专利号。我需要提取每个相应专利的标题,并将其放在专利号旁边的单元格中。因此,代码应执行以下操作:

  1. 访问espacenet.com并打开需要名称的专利号。
  2. 获取标题。
  3. 将其放在所需单元格的Excel工作表中。

这是一个完美适用于第一个专利号的代码,但在这之后会立即出现错误。错误显示:“运行时错误'-2147417848(80010108)':

自动化错误调用的对象已与其客户端断开连接。"

代码:

Sub tryextraction()

Dim ie As New InternetExplorer
Dim num1 As Integer
Dim num0 As Integer
Dim sdd As String
Dim doc As HTMLDocument
num1 = ActiveSheet.UsedRange.Rows.Count
'ie.Visible = True
For num0 = 2 To num1
ie.navigate "http://worldwide.espacenet.com/searchResults?compact=false&PN=" & Range("A" & num0).Value & "&ST=advanced&locale=en_EP&DB=EPODOC"
Do
DoEvents
Loop Until ie.readyState = READYSTATE_COMPLETE
Set doc = ie.document
sdd = Trim(doc.getElementsByTagName("a")(88).innerText)
ie.Quit
Range("B" & num0).Value = sdd
Next num0

End Sub

共有1个答案

邬楚青
2023-03-14

移动即。退出For…Next循环中的行并结束。否则,它在第一个实例之后关闭IE。

 类似资料:
  • 问题内容: 我正在用Java开发一个应用程序,该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如,假设我在不同的网页(例如印度教,印度时报,政治家等)上都有新闻。该应用程序应该从这些页面的每个页面中提取要点,并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者,我不知道从哪里开始我浏览了一些研究论文,这些论文将消除噪声作为构建此应用程序的第一步。 因此,如果给我

  • 问题内容: 我正在寻找一种使用jdk或其他库从网页(最初为html)提取文本的方法。请帮忙 谢谢 问题答案: 尽可能使用HTML解析器;Java有很多可用的。 或者您可以像许多人一样使用正则表达式。但是,通常不建议这样做,除非您进行的处理非常简单。 相关问题 Java HTML解析 哪种HTML解析器最好? 任何好的Java HTML解析器? 文字提取: 从HTML Java提取文本 标签剥离:

  • 问题内容: 使用Java,如何从给定的网页中提取所有链接? 问题答案: 将Java文件下载为纯文本/ html格式,并通过Jsoup或 html clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用 并找到所有链接,然后使用 取自http://j

  • 我有这个代码在一个网页我试图刮与硒: 我试图实现这样的方法(我在SO上找到的)来获得至少一个id: 这样: 它不起作用。我假设我应该使用,但不能使用getAttribute。如何提取所有id的列表?谢谢

  • 了解如何将 PSD 作品快速转换为基于 HTML 的、适用于移动设备和桌面的 Web 设计。将 CSS、图像、度量值、字体、颜色、渐变等内容从 Photoshop 直接提取到 Dreamweaver 中。 注意:  Typekit 现已更名为 Adobe Fonts,包含在 Creative Cloud 和其他订阅中。了解详情。 Extract 与 Dreamweaver 集成,让 Web 设计人

  • 问题内容: 我正在尝试使用提取此 PDF文件中包含的文本。 我正在使用PyPDF2模块,并具有以下脚本: 运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同: 如何提取PDF文档中的文本? 问题答案: 要从PDF提取文本,请使用以下代码