当前位置：首页 > 面试题库 >

PHP中的HTML抓取

苍恩

2023-03-14

问题内容：

我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的，但结果是挑剔和脆弱的。有没有人使用过提供更强大解决方案的软件包？配置驱动的解决方案将是理想的选择，但我并不挑剔。

问题答案：

从页面抓取HTML后，我将推荐PHP简单HTMLDOM解析器。它支持无效的HTML，并提供了一种非常简单的方法来处理HTML元素。

类似资料：

使用php抓取html页面？

问题内容：该网站在一个列表中列出了250多种课程。我想获取每个课程的名称，然后使用php将其插入到我的mysql数据库中。这些课程如下所示：有没有办法在PHP中做到这一点，而不是让我陷入疯狂的数据输入梦night？问题答案：正则表达式效果很好。请参阅文档 preg_match。
PHP中的Web抓取

问题内容：我正在寻找一种方法，可以根据用户在PHP中提供的URL对另一个页面进行小的预览。我只想检索页面标题，图像（如网站徽标）以及一些文字或说明（如果有）。有没有任何外部库/类的简单方法？谢谢到目前为止，我已经尝试过使用DOCDocument类，加载HTML并将其显示在屏幕上，但是我认为这不是正确的方法问题答案：我建议您考虑为此使用simple_html_dom。这将使其非常容易。这
HTML 抓取

网页爬取编写网页需要使用 HTML 语言，如果你有 HTML 学习经历就能知道所谓 HTML 语言就是一种规格化文档。有时我们能很方便的从中获取一些需要的数据，并且保持数据原有格式，如 csv 、json 等格式。但有时网站并不会提供一目了然的数据格式。所以我们就需要爬取网页。网页爬取就是通过电脑程序编写，从不同的网页中去删选、挖掘你需要的数据，并且保存数据相应的格式。网页请求（ Reque
HTML抓取的选项？

问题内容：我正在考虑尝试BeautifulSoup，一个用于HTML抓取的Python包。还有其他我应该查看的HTML抓包工具吗？Python不是必需的，我实际上也对其他语言感兴趣。到目前为止的故事： Python Beautiful Soup lxml HTQL Scrapy Mechanize Ruby Nokogiri Hpricot Mechanize scrAPI scRUBYt!
从html元素中抓取数据

我正在使用JSoup，这是纯Java中的一个HTML解析器库，从互联网上提取和解析纯HTML页面（当然，只有很少的JS）。到目前为止，如果我想要刮取的数据附加到非常详细的HTML元素（如
使用python抓取javascript生成的html

问题内容：我需要用python抓取网站。我使用urlib模块获取了源html代码，但是我还需要抓取由javascript函数（包含在html源代码中）生成的html代码。该功能在站点中的作用是，当您按下按钮时，它会输出一些html代码。如何使用python代码“按”此按钮？可以帮助我吗？我用firebug捕获了POST请求，但是当我尝试在url上传递它时，出现403错误。有什么建议么？问题答案

PHP中的HTML抓取

相关阅读

相关文章

相关问答

相关工具

相关文档