当前位置: 首页 > 编程笔记 >

python基于BeautifulSoup实现抓取网页指定内容的方法

夏侯昆琦
2023-03-14
本文向大家介绍python基于BeautifulSoup实现抓取网页指定内容的方法,包括了python基于BeautifulSoup实现抓取网页指定内容的方法的使用技巧和注意事项,需要的朋友参考一下

本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下:

# _*_ coding:utf-8 _*_
#xiaohei.python.seo.call.me:)
#win+python2.7.x
import urllib2
from bs4 import BeautifulSoup
def jd(url):
  page = urllib2.urlopen(url)
  html_doc = page.read()
  soup = BeautifulSoup(html_doc.decode('gb2312','ignore'))
  for i in soup.find_all('div', id="sortlist"):
    one = i.find_all('a')
    two = i.find_all('li')
    print ("%s %s" % (one,two))
jd("http://channel.jd.com/computer.html")

希望本文所述对大家的Python程序设计有所帮助。

 类似资料:
  • 本文向大家介绍ASP.NET抓取网页内容的实现方法,包括了ASP.NET抓取网页内容的实现方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了ASP.NET抓取网页内容的实现方法。分享给大家供大家参考。具体实现方法如下: 一、ASP.NET 使用HttpWebRequest抓取网页内容 二、ASP.NET 使用 WebResponse 抓取网页内容 希望本文所述对大家的C#程序设计有所帮助

  • 本文向大家介绍Python实现周期性抓取网页内容的方法,包括了Python实现周期性抓取网页内容的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数 论坛在线人数统计代码: 希

  • 问题内容: 基本上,我想使用来严格抓取网页上的可见文本。例如,此网页是我的测试用例。我主要想获取正文文本(文章),甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数,以便仅获取网页上的可见文本。 那么,我应该如何查找除脚本,注释,CSS等之外的所有可见文本? 问题答案: 尝试这个:

  • 本文向大家介绍php基于curl实现随机ip地址抓取内容的方法,包括了php基于curl实现随机ip地址抓取内容的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php基于curl实现随机ip地址抓取内容的方法。分享给大家供大家参考,具体如下: 使用php curl 我们可以模仿用户行为,既可以设置我们访问的ip及浏览器信息还可以设置post方式。 curl是一个特别牛逼的东西!~ 居

  • 问题内容: 我正在使用Python从网站上抓取内容。首先,我用和Python的,但我看到,该网站有一个按钮,通过JavaScript创建的内容,所以我决定使用。 假设我可以使用Selenium等方法找到元素并获取其内容,那么当我可以对所有内容都使用Selenium时,有什么理由要使用? 在这种特殊情况下,我需要使用Selenium来单击JavaScript按钮,以便更好地使用Selenium进行解

  • 本文向大家介绍java简单网页抓取的实现方法,包括了java简单网页抓取的实现方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下: 背景介绍 一 tcp简介   1 tcp 实现网络中点对点的传输   2 传输是通过ports和sockets   ports提供了不同类型的传输(例如 http的port是80)     1