该网站在一个列表中列出了250多种课程。我想获取每个课程的名称,然后使用php将其插入到我的mysql数据库中。这些课程如下所示:
<td> computer science</td>
<td> media studeies</td>
…
有没有办法在PHP中做到这一点,而不是让我陷入疯狂的数据输入梦night?
正则表达式效果很好。
$page = // get the page
$page = preg_split("/\n/", $page);
for ($text in $page) {
$matches = array();
preg_match("/^<td>(.*)<\/td>$/", $text, $matches);
// insert $matches[1] into the database
}
请参阅文档 preg_match。
问题内容: 我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的,但结果是挑剔和脆弱的。有没有人使用过提供更强大解决方案的软件包?配置驱动的解决方案将是理想的选择,但我并不挑剔。 问题答案: 从页面抓取HTML后,我将推荐PHP简单HTMLDOM解析器。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。
网页爬取 编写网页需要使用 HTML 语言,如果你有 HTML 学习经历就能知道所谓 HTML 语言就是一种规格化文档。有时我们能很方便的从中获取一些需要的数据,并且保持数据原有格式,如 csv 、json 等格式。但有时网站并不会提供一目了然的数据格式。 所以我们就需要爬取网页。网页爬取就是通过电脑程序编写,从不同的网页中去删选、挖掘你需要的数据,并且保存数据相应的格式。 网页请求( Reque
问题内容: 我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标,但是我发现在某些加载了的页面中,我没有获得良好的结果。 例如,如果一些代码添加了一些文本,则看不到它,因为当我调用 我得到的原始文本没有添加文本(因为在客户端执行了)。 因此,我正在寻找一些解决此问题的想法。 问题答案: 一旦安装了,请确保二进制文件在当前路径中可用: 例 举个例子,我用以下HTML代码创建
我正在尝试使用preg_match当前只检索1个值(在我开始检索多个值之前),但是,我没有运气。执行print_r()时,数组中没有存储任何内容。 以下是我目前正在尝试的代码: 所需输出: 我的上述代码不起作用。在这方面的任何帮助都将不胜感激。提前感谢。
问题内容: 我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容?使用什么模块?有没有可用的教程? 问题答案: 结合使用urllib2和出色的BeautifulSoup库:
我想刮从多个网站与类似的网址的,如https://woollahra.ljhooker.com.au/our-team, https://chinatown.ljhooker.com.au/our-team和https://bondibeach.ljhooker.com.au/our-team. 我已经写了一个脚本,第一个网站的工作,但我不知道如何告诉它从其他两个网站刮。 我的代码: 有没有一种方