当前位置：首页 > 编程笔记 >

Python实现抓取百度搜索结果页的网站标题信息

墨雨华

2023-03-14

本文向大家介绍Python实现抓取百度搜索结果页的网站标题信息，包括了Python实现抓取百度搜索结果页的网站标题信息的使用技巧和注意事项，需要的朋友参考一下

比如，你想采集标题中包含“58同城”的SERP结果，并过滤包含有“北京”或“厦门”等结果数据。

该Python脚本主要是实现以上功能。

其中，使用BeautifulSoup来解析HTML，可以参考我的另外一篇文章：Windows8下安装BeautifulSoup

代码如下：


__author__ = '曾是土木人'

# -*- coding: utf-8 -*-

#采集SERP搜索结果标题

import urllib2

from bs4 import BeautifulSoup

import time

#写文件

def WriteFile(fileName,content):

    try:

        fp = file(fileName,"a+")

        fp.write(content + "\r")

        fp.close()

    except:

        pass
#获取Html源码

def GetHtml(url):

    try:

        req = urllib2.Request(url)

        response= urllib2.urlopen(req,None,3)#设置超时时间

        data    = response.read().decode('utf-8','ignore')

    except:pass

    return data
#提取搜索结果SERP的标题

def FetchTitle(html):

    try:

        soup = BeautifulSoup(''.join(html))

        for i in soup.findAll("h3"):

            title = i.text.encode("utf-8")　　　　　　 

　　　　　　　if any(str_ in title for str_ in ("北京","厦门")):

　　　　　　　　  continue

            else:

                print title

            WriteFile("Result.txt",title)

    except:

        pass
keyword = "58同城"

if __name__ == "__main__":

    global keyword

    start = time.time()

    for i in range(0,8):

        url = "http://www.baidu.com/s?wd=intitle:"+keyword+"&rn=100&pn="+str(i*100)

        html = GetHtml(url)

        FetchTitle(html)

        time.sleep(1)

    c = time.time() - start

    print('程序运行耗时:%0.2f 秒'%(c))

类似资料：

python实现提取百度搜索结果的方法

本文向大家介绍python实现提取百度搜索结果的方法，包括了python实现提取百度搜索结果的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了python实现提取百度搜索结果的方法。分享给大家供大家参考。具体实现方法如下：希望本文所述对大家的Python程序设计有所帮助。
用Python实现动态网站的抓取

我尝试用BS4 python来抓取动态网站： https://www.nadlan.gov.il/?search=תל אביב יפו 我试过：我有两个问题： > 当我打开站点时，数据加载需要几秒钟：硒如何解决这些问题？
python抓取百度首页的方法

本文向大家介绍python抓取百度首页的方法，包括了python抓取百度首页的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下：希望本文所述对大家的Python程序设计有所帮助。
使用Python的Google搜索网络抓取

问题内容：最近我一直在学习很多python，以便在工作中的某些项目上工作。目前，我需要对Google搜索结果进行一些网页抓取。我发现了几个站点，这些站点演示了如何使用ajax google api进行搜索，但是在尝试使用它之后，似乎不再受支持。有什么建议？我一直在寻找一种方法，但似乎找不到当前有效的解决方案。问题答案：您随时可以直接抓取Google搜索结果。为此，您可以使用将返回前10个
Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
ESPN. com Python网页抓取问题

我试图为所有大学足球队的名单收集数据，因为我想根据他们的名单组成对球队表现进行一些分析。我的脚本在第一页上工作，它迭代每个团队，并可以打开每个团队的名册链接，但是然后我在名册页面上为一个团队运行的美丽汤命令继续抛出索引错误。当我查看超文本标记语言时，似乎我正在编写的命令应该工作，但当我从美丽的汤中打印页面源时，我在Chrome的开发人员工具中看不到什么。这是JS被用来提供内容的一些实例吗？如果是

相关阅读

JS 实现百度搜索功能 Python使用scrapy抓取网站sitemap信息的方法 Python实现提取谷歌音乐搜索结果的方法 Selenium Python-访问搜索结果的下一页 Python实现周期性抓取网页内容的方法

相关文章

结合实例解析深度优先搜索(DFS)搜索百度搜索产品经理实习面经 26日常实习百度搜索架构二面百度搜索架构后端二面百度搜索架构、百度云数据库研发面经

相关问答

Python网页抓取/数据提取 Python网页抓取（如果使用所有标量值，您必须传递索引）使用Python抓取多个网页用包含多个页面的多个字母标签抓取网站 Liferay搜索结果

相关工具

读取txt并实现翻页效果 Eclipse搜索引擎网页应用接口多线程页面抓取服务器百度地图标注插件获取网页的所有图片

相关文档

百度站长平台工具使用手册深度学习入门：基于 Python 的理论与实现百度网盘开放平台开发者文档物联网安全百科百度统计 API 手册