当前位置: 首页 > 面试题库 >

从python中的标签名称中收集数据

于嘉许
2023-03-14
问题内容

嗨,我正在尝试从网站上抓取用户数据。我需要标签名称本身中可用的用户ID。我正在尝试在 div 标签中使用pythonselenium和漂亮的汤刮UID 。

例:

<"div id="UID_**60CE07D6DF5C02A987ED7B076F4154F3**-SRC_328619641" class="memberOverlayLink" onmouseover="ta.trackEventOnPage('Reviews','show_reviewer_info_window','user_name_photo'); ta.call('ta.overlays.Factory.memberOverlayWOffset', event, this, 's3 dg rgba_gry update2012', 0, (new Element(this)).getElement('.avatar')&amp;&amp;(new Element(this)).getElement('.avatar').getStyle('border-radius')=='100%'?-10:0);">

我试图在div标签中使用pythonselenium和漂亮的汤刮UID。我浏览了所有文档和几个网页,但找不到解决方案。如果有人能告诉我这种事情是否可能,我将非常感激。


问题答案:

假设id属性值始终采用格式,UID_后跟一个或多个字母数字字符,-SRC_后跟一个或多个数字:

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)

pattern = re.compile(r"UID_(\w+)\-SRC_\d+")
id = soup.find("div", id=pattern)["id"]

uid = pattern.match(id).group(1)
print(uid)

在这里,我们使用BeautifulSoup并搜索id与特定正则表达式匹配的属性值。它包含一个保存组
(\w+),可帮助我们提取UID值。



 类似资料:
  • 问题内容: 我尝试编写一个React组件。对于html标题标签(h1,h2,h3等),其中标题优先级根据我们在道具中定义的优先级动态变化。 这是我尝试做的。 预期输出: 这是行不通的。有什么可能的方法可以做到这一点? 问题答案: 无法就地执行此操作,只需将其放在变量中(首字母大写):

  • 有很多例子可以说明如何创建和使用TensorFlow数据集。 我的问题是如何以numpy格式从TF数据集获取数据/标签?换言之,WAND将是上面这行的反向操作,即我有一个TF数据集,并希望从中获取图像和标签。

  • 我有一个jsp网页。我需要删除用户名从数据库当我按删除按钮从网页。我尝试了下面的代码,但是我不能删除名称,而是在用户名数据库中插入一个新行和一个空值。 unblockServlet.java: 受保护的void doPost(HttpServletRequest请求,HttpServletResponse响应)抛出ServletException,IOException{//TODO自动生成的方法

  • 问题内容: 如标题中所指定,我想在sqlserver中获取数据库名称,我所知道的所有信息都是数据源名称,用于获取Connection对象的登录名/密码,请在Java中显示一些有关如何正确检索数据库名称的指针,谢谢! 甚至 问题答案: 从连接对象获取一个实例。 数据库名称可以通过或方法获得(取决于JDBC驱动程序的供应商)。 或使用或方法。 如果您有兴趣获得Oracle数据库服务器或Oracle数据

  • 我正在尝试实现chartJS条形图,并使用图例过滤条形图。我想将标签列表设置为空,因为这样可以清楚地删除条。我正在寻找一种在X轴上设置标记的方法,因为现在文本中的标记为空。 JSIDLE: https://jsfiddle.net/m1eorjwv/1/ 非常感谢,阿龙

  • 我想从Firebase Firestore数据库中获取数据。我有一个名为user的集合,每个用户都有一些相同类型的对象(我的Java自定义对象)的集合。我想在创建活动时用这些对象填充ArrayList。 在创建()中: 调用方法以获取要列出的项: