当前位置：首页 > 面试题库 >

带代理支持的多线程蜘蛛Python包？

乐正远

2023-03-14

问题内容：

除了使用urllib以外，没有人知道最有效的软件包来快速，多线程下载可通过http代理进行操作的URL吗？我知道诸如Twisted，Scrapy，libcurl等之类的东西，但我对它们还不够了解，因此他们无法做出决定，甚至他们也可以使用代理。谢谢！

问题答案：

在python中实现这一点很简单。

urlopen（）函数与不需要身份验证的代理透明地一起工作。在Unix或Windows环境中，在启动Python解释器之前，将http_proxy，ftp_proxy或gopher_proxy环境变量设置为标识代理服务器的URL。

# -*- coding: utf-8 -*-

import sys
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
from Queue import Queue, Empty
from threading import Thread

visited = set()
queue = Queue()

def get_parser(host, root, charset):

    def parse():
        try:
            while True:
                url = queue.get_nowait()
                try:
                    content = urlopen(url).read().decode(charset)
                except UnicodeDecodeError:
                    continue
                for link in BeautifulSoup(content).findAll('a'):
                    try:
                        href = link['href']
                    except KeyError:
                        continue
                    if not href.startswith('http://'):
                        href = 'http://%s%s' % (host, href)
                    if not href.startswith('http://%s%s' % (host, root)):
                        continue
                    if href not in visited:
                        visited.add(href)
                        queue.put(href)
                        print href
        except Empty:
            pass

    return parse

if __name__ == '__main__':
    host, root, charset = sys.argv[1:]
    parser = get_parser(host, root, charset)
    queue.put('http://%s%s' % (host, root))
    workers = []
    for i in range(5):
        worker = Thread(target=parser)
        worker.start()
        workers.append(worker)
    for worker in workers:
        worker.join()

类似资料：

蜘蛛记录

蜘蛛记录分为两部分：时间筛选和蜘蛛记录（详情） 1.时间筛选便捷按钮有今日、昨日、前日、上周 X、近七天，并且能自定义选择时间段来得出想要的结果报表 2.蜘蛛记录（时间段详情） 1)蜘蛛记录便是搜索引擎通过蜘蛛爬行所留下的痕迹，蜘蛛记录中的细分做的非常的详细，包含蜘蛛IP地址、访问URL、蜘蛛类型、来访时间 2)搜索引擎爬取网页时,只有触发js统计代码才能被统计，故数据仅供参考
海蜘蛛EWP

海蜘蛛EWP（Easy Webserver Platform）是专门针对服务器运营商/企业等为各类网站运营而设计的稳定易用Web服务平台。它兼有路由器的功能，集专业级防火墙于一体，能够精确控制内外网的访问和各个用户的权限，打造一个高稳定性、易维护、投资低的全新智能化Web应用平台。 EWP基于嵌入式架构，提供稳定高效的底层核心功能和应用接口。能够兼容绝大多数国内外常见的Web应用，提供主流的Web
python支持多线程的爬虫实例

本文向大家介绍python支持多线程的爬虫实例，包括了python支持多线程的爬虫实例的使用技巧和注意事项，需要的朋友参考一下 python是支持多线程的, 主要是通过thread和threading这两个模块来实现的，本文主要给大家分享python实现多线程网页爬虫一般来说，使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里，让它来执行. 另一种是直接从Th
粗糙的蜘蛛不爬行

我正试着测试这只痒痒的爬行蜘蛛，但我不明白它为什么不爬行。它应该做的是在wikipedia的数学页面上爬行一个深度级别，然后返回每个爬行页面的标题。我错过了什么？非常感谢您的帮助！设置：日志：
让 libevent 支持多线程

Libevent本身不是多线程安全的，在多核的时代，如何能充分利用CPU的能力呢，这一节来说说如何在多线程环境中使用libevent，跟源代码并没有太大的关系，纯粹是使用上的技巧。 1 错误使用示例在多核的CPU上只使用一个线程始终是对不起CPU的处理能力啊，那好吧，那就多创建几个线程，比如下面的简单服务器场景。 1 主线程创建工作线程1； 2 接着主线程监听在端口上，等待新的连接； 3 在线程
Python的机械化代理支持

问题内容：我对python机械化的代理支持有疑问。我正在制作一些Web客户端脚本，我想在我的脚本中插入代理支持功能。例如，如果我有：如何在我的机械化脚本中添加代理支持？每当我打开此网站时，我都希望它通过代理。问题答案：您使用mechanize.Request.set_proxy（host，type）（至少从0.1.11开始）假设运行在localhost：8888的http代理应该管用

相关阅读

Python打印scrapy蜘蛛抓取树结构的方法使用一个Scrapy蜘蛛访问多个网站理解python多线程（python多线程简明教程）为什么JavaScript不支持多线程？JavaScript脚本判断蜘蛛来源的方法

相关文章

C#多线程 TP-LINK技术支持工程师迪普技术支持工程师 Pycharm Javascript支持 JasperReports Unicode支持

相关问答

狼蛛SQL支持在哪里？刮痕爬行蜘蛛不连接 weblogic如何支持多线程应用 Python多重处理/线程阻塞主线程 Python多处理池与多处理线程池

相关工具

海蜘蛛EWP iOS 多线程编程实例 ios所支持的所有字体多线程TCP端口扫描器多线程页面抓取服务器

相关文档

Java 并发性和多线程 Python 自然语言处理教程线性代数笔记 HTML5 在线教程 Python 文本处理