我正在用Python做网页抓取。我需要获得所有搜索结果页面的链接。但是,我发现href值不是一个常规的html链接,而是如下所示的内容。如何获得正确的页面链接?谢谢
<a href="javascript:showDocumentSearchResult('20','20','en','','0', '10','srt', 'docdt', 'desc');">2</a>
<a href="javascript:showDocumentSearchResult('20','40','en','','0', '10','srt', 'docdt', 'desc');">3</a>
您需要在JS代码中找到show DocumentSearchResult
函数(尽管它可能在一个单独的文件中)。然后知道这个函数是做什么的,如果可能的话,你可以用Python模拟这样的动作。
请参见以下示例:https://webscraping.pro/download-a-file-from-a-link-in-python/
我们会很感激你的帮助。
我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接? 编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?
问题内容: 我正在开发一个需要从链接获取网页源,然后从该页面解析html的应用程序。 您能给我一些例子,还是从哪里着手开始编写这样的应用程序? 问题答案: 您可以使用HttpClient执行HTTP GET并检索HTML响应,如下所示:
问题内容: 对于我的网站,我想添加一个新功能。 我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件… 我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索? 使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。 我真的不介意它是否使用jq
我尝试了下面给出的代码,但每次运行代码时,都会有一些链接添加到missing。我想在一个列表中获取页面中的所有链接,这样我就可以使用切片来访问我想要的任何链接。 有没有办法在不遗漏任何元素的情况下获得所有元素。
问题内容: 如何使用JavaScript获取HTML页面的标题? 问题答案: 用途: