问题：

使用Python-beautifulsou创建Web抓取表和数据

蓝鸿哲

2023-03-14

我已经使用Python Beautifulsoup从该网站的所有页面中，将此表中的数据刮取到字典中，如下面的代码所示。

然而，我也在努力为每一家有自己独立页面的公司拼凑，并将其编入词典。

import requests 
from bs4 import BeautifulSoup
from pprint import pprint 

company_data = []

for i in range(1, 3):
    page = requests.get(f'https://web.archive.org/web/20121007172955/http://www.nga.gov/collection/anZ1.htm{i}?')
    soup = BeautifulSoup(page.text, "lxml")

    row_info = soup.select('div.accordion_heading.panel-group.s_list_table')

    for row_info in row_info:
        comapny_info = {}
        comapny_info['Name'] = row_info.select_one('div.col_1 a').text.strip()

pprint(company_data)

共有1个答案

朱兴运

2023-03-14

我刚刚和一家200万人的公司合作过，我相信这会有所帮助。

import requests
from bs4 import BeautifulSoup
res=requests.get("https://web.archive.org/web/20121007172955/http://www.nga.gov/collection/anZ1.htm").text
soup=BeautifulSoup(res,'html.parser')
comapny_info={}
comapny_info['Profile'] = soup.select('div.text-desc-members')
if len(soup.select('div.text-desc-members'))==0:
  comapny_info['Profile']  = soup.select('div.list-sub')[0].text.strip()

comapny_info['ACOP']=[item['href'] for item in soup.select(".table.table-striped a.files")]
comapny_info['QuestionAnswer']=["Question:" + q.text.strip() + " Answer:" +a.text.strip() for q ,a in zip(soup.select("div.list-reports .m_question"),soup.select("div.list-reports .m_answer")) ]

print(comapny_info)

类似资料：

使用Python，BeautifulSoup进行动态数据Web抓取

问题内容：我试图从HTML中提取许多页面的数据（数字）。每个页面的数据都不同。当我尝试使用soup.select（’span [class =“ pull- right”]’）时，它应该给我编号，但只有标签出现。我相信这是因为网页中使用了Javascript。180,476是我要在许多页面上使用的特定HTML处的数据位置：我的代码（这在很多页面上都是循环的）：输出：范例网址：https：/
使用python Web抓取动态内容

问题内容：我想使用Python在这样的网页上抓取“正在寻找这些作者：”框中的内容：http : //academic.research.microsoft.com/Search?query=lander 不幸的是，盒子的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有
Python-Web抓取HTML表并打印到CSV

任何人都有任何关于如何至少重新格式化数据拉到表的指示吗？多谢了。
Web抓取，屏幕抓取，数据挖掘技巧？

问题内容：我正在做一个项目，我需要做很多屏幕抓取工作，以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。顺便说一下，我正在使用Java。到目前为止，这是我的工作流程：连接到网站（使用来自Apache的HTTPComponents）网站包含一个带有一堆我需要访问的链接的部分（使用内置的Java HTML解析器来弄清楚我需要访问的所有链接是什么，这很烦人且凌乱的代码
Python Selenium Web抓取隐藏Div

正如标题所示，我正在尝试使用Selenium从网站（示例）中获取一些数据，但是我在从Pro结果表中获取隐藏在每一行中的数据时遇到了问题，即单击Show Details按钮（）时显示的数据。这是我的代码：正如您所看到的，我可以很容易地获取表中的行，但是当我试图获取隐藏数据时，我就是找不到获取它的方法。我对Selenium也不是很熟悉，所以欢迎提供任何指导。
用Python抓取网页：非类型错误，不能抓取表的数据

这是我第一次尝试编码，所以请原谅我的粗鲁。我试图通过以下链接来学习网页刮刮：https://data.gov.sg/dataset/industrial-arbitry-court-arwards-by-nature-of-trade-distrates？view_id=d3e444ef-54ed-4d0b-b715-1ee465f6d882&resource_id=c24d0d00-2d12-4

使用Python-beautifulsou创建Web抓取表和数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档