问题：

Python-从ReactJS div中抓取列表内容

胡云瀚

2023-03-14

我正在尝试从以下URL中获取一个列表：https://www.oncomap.de/centers?selectedOrgan=Darm

使用Chrome的开发工具，我发现我感兴趣的内容就在正文中

import requests
from bs4 import BeautifulSoup
import pprint

headers = {
    'Access-Control-Allow-Origin': '*',
    'Access-Control-Allow-Methods': 'GET',
    'Access-Control-Allow-Headers': 'Content-Type',
    'Access-Control-Max-Age': '3600',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'
    }

url = 'https://www.oncomap.de/centers?selectedOrgan=Darm&selectedCounty=Deutschland'
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, "html-parser")

mat_row = soup.select('body > app-root')

pp = pprint.PrettyPrinter()
for child in mat_row[0].descendants:
    pp.pprint(child)

此代码没有输出-未打印子代（也尝试了子代）。我想我是在和一个反动派打交道。有没有人知道如何处理这些内容？具体地说，我希望将页面上的主列表刮到一个Python可读的表中。谢谢你的帮助！

共有2个答案

宋康安

2023-03-14

由于页面是动态加载的，因此仅通过使用requests包进行抓取无法获得正确的html。

相反，你可以做的是用无头浏览器抓取，让它等到页面中出现特定的元素。

这里是一个使用Selenium（处理无头浏览器的包）抓取网页的教程：https://www.scrapingbee.com/blog/selenium-python/

在该教程中，还有一个标题为“等待元素出现”的部分，看起来像您正在寻找的内容。

此外，这里是一个stackoverflow问题，与你想做什么有关：等待页面加载硒网络驱动程序

姬朗

2023-03-14

数据通过JavaScript动态加载。但您可以使用请求模块加载数据：

import json
import requests
from bs4 import BeautifulSoup


clinics_url = 'https://back.oncomap.de/api/direct/fulldb_clinics'
centers_url = 'https://back.oncomap.de/api/direct/fulldb_centers'

data1 = requests.get(clinics_url).json()
data2 = requests.get(centers_url).json()

clinics = {d['clinic_nr']:d for d in data1}

# uncomment this to print all data:
# print(json.dumps(data1, indent=4))
# print(json.dumps(data2, indent=4))

for c in data2:
    print(c['reg_nr'], c['inst1'], clinics.get(c['clinic_nr'], {}).get('inst1', '-'), c['url'], sep='\t')

印刷品：

AB-Z001 G   Brustzentrum Stuttgart am Marienhospital    Marienhospital Stuttgart    https://www.marienhospital-stuttgart.de/interdisziplinaere-zentren/brustzentrum/
FAB-Z007-1 G    Universitäts-Brustzentrum Tübingen  Universitätsklinikum Tübingen, CCC Tübingen-Stuttgart   www.uni-frauenklinik-tuebingen.de/brustzentrum.html
FAB-Z010 G  Interdisziplinäres Brustkrebszentrum der Charité (IBZ) im Charité Comprehensive Cancer Center   Charité - Campus Mitte  https://cccc.charite.de/leistungen/organbereiche/brustkrebs/
FAB-Z012-1 G    Kooperatives Brustzentrum Klinikum Region Hannover  KRH Klinikum Siloah www.krh.eu/klinikum/SOH/zentren/brustzentrum
FAB-Z016 G  Brustzentrum Robert-Bosch-Krankenhaus   Robert-Bosch-Krankenhaus; Klinik Schillerhöhe   http://www.rbk.de/disziplinen/interdisziplinaere-zentren/brustzentrum.html
FAB-Z017 G  Brustzentrum Halle des Universitätsklinikums Halle (Saale)  Universitäts-Klinikum Halle-Saale   www.unifrauenklinik-halle.de
FAB-Z020 G  Brustzentrum im Sana Klinikum Lichtenberg   Sana Klinikum Lichtenberg   http://www.sana-kl.de/unser-leistungsspektrum/kliniken-institute/brustzentrum-des-sana-klinikum-lichtenberg.html
FAB-Z021 G  Interdisziplinäres Brustzentrum der ALB FILS KLINIKEN   Klinik am Eichert Göppingen www.alb-fils-kliniken.de
FAB-Z022    Kooperatives Brustzentrum Landshut  Klinikum Landshut   www.klinikum-landshut.de
FAB-Z023 G  Brustzentrum Saar Mitte CaritasKlinikum Saarbrücken St. Theresia    www.caritasklinik.de
FAB-Z024 G  Brustzentrum am Universitätsklinikum Hamburg-Eppendorf  Universitätsklinikum Hamburg-Eppendorf  www.uke.de/kliniken-institute/zentren/brustzentrum/index.html
FAB-Z025-1  Südthüringer Brustzentrum Suhl / Meiningen  SRH Zentralklinikum Suhl    www.srh.de
FAB-Z026 G  Brustzentrum Klinikum Oldenburg Klinikum Oldenburg  www.klinikum-oldenburg.de

...and so on.

类似资料：

用python抓取动态内容

我想使用Python在这样的网页上抓取“你在寻找这些作者吗”框的内容：http://academic.research.microsoft.com/Search?query=lander 不幸的是，该框的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者我可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有这样的运气。。。
从Python列表列表的内部列表中获取第n个元素

问题内容：可以说我有：我想检索每个内部列表的第一个元素：无需执行此操作（我当前的hack）：我敢肯定有一个班轮，但我真的不知道我在寻找什么。问题答案：只需将您的列表组合更改为：要么：或者，如果您要处理“适当的数组”：和：
Python-从字典列表中获取值列表

问题内容：我有这样的字典列表：我想要最好的方法是什么？问题答案：假设每个字典都有一个键，你可以编写（假设你的列表名为l）如果value可能丢失，可以使用
使用python Web抓取动态内容

问题内容：我想使用Python在这样的网页上抓取“正在寻找这些作者：”框中的内容：http : //academic.research.microsoft.com/Search?query=lander 不幸的是，盒子的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有
使用python-Scrapy抓取动态内容

问题内容：免责声明：我在StackOverflow上看到过许多其他类似的帖子，并尝试以相同的方式进行操作，但是它们似乎在此网站上不起作用。我正在使用Python-Scrapy从koovs.com获取数据。但是，我无法获得动态生成的产品尺寸。具体来说，如果有人可以引导我从此链接的下拉菜单中获取“不可用”尺寸标签，我将不胜感激。我可以静态获取尺寸列表，但这样做只能得到尺寸列表，但不能获得其中的
从python中的对象列表中提取属性列表

问题内容：我在python中有一个统一的对象列表：现在，我想提取一个具有该类某些属性的列表（比如attr），以便将其传递给某个函数（例如用于绘制该数据） pythonic的做法是什么，？也许派生列表并添加一个方法，所以我可以使用一些习惯用法，例如？问题答案：您还可以编写：这样，您将获得一个节省内存的生成器。有关更多好处，请参见Generator Expressions 。

Python-从ReactJS div中抓取列表内容

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档