如何使用多重处理来遍历大量URL？

空夕

2023-03-14

问题内容：

问题：检查超过1000个网址的列表，并获取网址返回码（status_code）。

我拥有的脚本有效，但速度很慢。

我认为必须有一种更好的pythonic（更漂亮）的方法，在该方法中我可以产生10或20个线程来检查网址并收集共振。（即：

200 -> www.yahoo.com
404 -> www.badurl.com
...

www.example.com
www.yahoo.com
www.testsite.com

....

import requests

with open("url10.txt") as f:
    urls = f.read().splitlines()

print(urls)
for url in urls:
    url =  'http://'+url   #Add http:// to each url (there has to be a better way to do this)
    try:
        resp = requests.get(url, timeout=1)
        print(len(resp.content), '->', resp.status_code, '->', resp.url)
    except Exception as e:
        print("Error", url)

挑战： 通过多处理提高速度。

使用多处理

但这是行不通的。我收到以下错误消息：（注意：我不确定我是否正确实现了这一点）

AttributeError: Can't get attribute 'checkurl' on <module '__main__' (built-in)>

import requests
from multiprocessing import Pool

with open("url10.txt") as f:
    urls = f.read().splitlines()

def checkurlconnection(url):

    for url in urls:
        url =  'http://'+url
        try:
            resp = requests.get(url, timeout=1)
            print(len(resp.content), '->', resp.status_code, '->', resp.url)
        except Exception as e:
            print("Error", url)

if __name__ == "__main__":
    p = Pool(processes=4)
    result = p.map(checkurlconnection, urls)

问题答案：

在这种情况下，您的任务是I / O绑定的，而不是处理器绑定的-
网站答复所需的时间比CPU通过脚本（不包括TCP请求）循环一次所花费的时间更长。这意味着您不会并行执行此任务而获得任何提速（这是这样multiprocessing做的）。您想要的是多线程。实现这一目标的方法是使用少量文献记载的文件，也许是名字不好用multiprocessing.dummy：

import requests
from multiprocessing.dummy import Pool as ThreadPool

urls = ['https://www.python.org',
        'https://www.python.org/about/']

def get_status(url):
    r = requests.get(url)
    return r.status_code

if __name__ == "__main__":
    pool = ThreadPool(4)  # Make the Pool of workers
    results = pool.map(get_status, urls) #Open the urls in their own threads
    pool.close() #close the pool and wait for the work to finish 
    pool.join()

有关Python中的多处理与多线程的示例，请参见此处。

如何使用多重处理来遍历大量URL？

使用多处理

相关阅读

相关文章

相关问答

相关工具

相关文档