当前位置: 首页 > 编程笔记 >

Python实现登录人人网并抓取新鲜事的方法

魏鸿禧
2023-03-14
本文向大家介绍Python实现登录人人网并抓取新鲜事的方法,包括了Python实现登录人人网并抓取新鲜事的方法的使用技巧和注意事项,需要的朋友参考一下

本文实例讲述了Python实现登录人人网并抓取新鲜事的方法。分享给大家供大家参考。具体如下:

这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~)

from sgmllib import SGMLParser
import sys,urllib2,urllib,cookielib
class spider(SGMLParser):
  def __init__(self,email,password):
    SGMLParser.__init__(self)
    self.h3=False
    self.h3_is_ready=False
    self.div=False
    self.h3_and_div=False
    self.a=False
    self.depth=0
    self.names=""
    self.dic={}  
    self.email=email
    self.password=password
    self.domain='renren.com'
    try:
      cookie=cookielib.CookieJar()
      cookieProc=urllib2.HTTPCookieProcessor(cookie)
    except:
      raise
    else:
      opener=urllib2.build_opener(cookieProc)
      urllib2.install_opener(opener)    
  def login(self):
    url='http://www.renren.com/PLogin.do'
    postdata={
         'email':self.email,
         'password':self.password,
         'domain':self.domain 
         }
    req=urllib2.Request(
              url,
              urllib.urlencode(postdata)      
              )
    self.file=urllib2.urlopen(req).read()
    #print self.file
  def start_h3(self,attrs):
    self.h3 = True
  def end_h3(self):
    self.h3=False
    self.h3_is_ready=True
  def start_a(self,attrs):
    if self.h3 or self.div:
      self.a=True
  def end_a(self):
    self.a=False
  def start_div(self,attrs):
    if self.h3_is_ready == False:
      return
    if self.div==True:
      self.depth += 1
    for k,v in attrs:
      if k == 'class' and v == 'content':
        self.div=True;
        self.h3_and_div=True  #h3 and div is connected
  def end_div(self):
    if self.depth == 0:
      self.div=False
      self.h3_and_div=False
      self.h3_is_ready=False
      self.names=""
    if self.div == True:
      self.depth-=1
  def handle_data(self,text):
    #record the name
    if self.h3 and self.a:
      self.names+=text
    #record says
    if self.h3 and (self.a==False):
      if not text:pass
      else: self.dic.setdefault(self.names,[]).append(text)
      return
    if self.h3_and_div:
      self.dic.setdefault(self.names,[]).append(text)
  def show(self):
    type = sys.getfilesystemencoding()
    for key in self.dic:
      print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \
         ( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)
renrenspider=spider('your email','your password')
renrenspider.login()
renrenspider.feed(renrenspider.file)
renrenspider.show()

希望本文所述对大家的Python程序设计有所帮助。

 类似资料:
  • 本文向大家介绍python实现自动登录人人网并采集信息的方法,包括了python实现自动登录人人网并采集信息的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python实现自动登录人人网并采集信息的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的Python序设计有所帮助。

  • 本文向大家介绍python人人网登录应用实例,包括了python人人网登录应用实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python人人网登录应用的实现方法,分享给大家供大家参考。 具体方法如下: 希望本文所述对大家的Python程序设计有所帮助。

  • 本文向大家介绍python实现自动登录人人网并访问最近来访者实例,包括了python实现自动登录人人网并访问最近来访者实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python实现自动登录人人网并访问最近来访者的方法,分享给大家供大家参考。 具体方法如下: 希望本文所述对大家的Python程序设计有所帮助。

  • 本文向大家介绍SpringBoot 并发登录人数控制的实现方法,包括了SpringBoot 并发登录人数控制的实现方法的使用技巧和注意事项,需要的朋友参考一下 通常系统都会限制同一个账号的登录人数,多人登录要么限制后者登录,要么踢出前者,Spring Security 提供了这样的功能,本文讲解一下在没有使用Security的时候如何手动实现这个功能 demo 技术选型 SpringBoot JW

  • 本文向大家介绍python爬虫 模拟登录人人网过程解析,包括了python爬虫 模拟登录人人网过程解析的使用技巧和注意事项,需要的朋友参考一下 requests 提供了一个叫做session类,来实现客户端和服务端的会话保持 使用方法 1.实例化一个session对象 2.让session发送get或者post请求 下面就用人人网来实战一下 就这么简单,模拟登录上人人网并且获取了个人首页信息页面保

  • 本文向大家介绍对python抓取需要登录网站数据的方法详解,包括了对python抓取需要登录网站数据的方法详解的使用技巧和注意事项,需要的朋友参考一下 scrapy.FormRequest login.py selenium登录获取cookie get_cookie_by_selenium.py 获取浏览器cookie(以Ubuntu的Firefox为例) get_cookie_by_firefo