我想获取HTML中隐藏的输入字段的值。
<input type="hidden" name="fooId" value="12-3456789-1111111111" />
我想用Python编写一个正则表达式,该表达式将返回的值fooId
,因为我知道HTML中的行遵循以下格式
<input type="hidden" name="fooId" value="**[id is here]**" />
有人可以提供Python范例来解析HTML值吗?
对于这种特殊情况,BeautifulSoup比正则表达式更难编写,但是它更健壮…我只是为BeautifulSoup示例提供帮助,因为您已经知道要使用哪个正则表达式:-)
from BeautifulSoup import BeautifulSoup
#Or retrieve it from the web, etc.
html_data = open('/yourwebsite/page.html','r').read()
#Create the soup object from the HTML data
soup = BeautifulSoup(html_data)
fooId = soup.find('input',name='fooId',type='hidden') #Find the proper tag
value = fooId.attrs[2][1] #The value of the third attribute of the desired tag
#or index it directly via fooId['value']
问题内容: 有什么方法可以在python中的流上使用正则表达式匹配吗?喜欢 而且我不想通过获取整个字符串的值来做到这一点。我想知道是否有任何方法可以在srtream上匹配正则表达式(即时)。 问题答案: 我有同样的问题。首先想到的是实现一个类,该类的作用类似于字符串,但仅从流中读取当前所需的数据(我通过重新实现并提取和缓冲字符直到访问的最高位置来完成此操作……)。 这没有解决(我从中得到了“ Ty
Java中的正则表达式问题。我正在从元素href属性中提取Id号。我在一个字符串中有一堆这样的链接:
问题内容: 我正在寻找一个.NET正则表达式来提取网页中的所有URL,但是还没有找到一个足以涵盖指定链接的所有不同方式的URL。 还有一个问题: 是否有 一个正则表达式可以统治所有人 ?还是我最好使用一系列不那么复杂的正则表达式,而只对原始HTML使用多重传递?(速度与可维护性) 问题答案: ((mailto\:|(news|(ht|f)tp(s?))\://){1}\S+) 我从regexlib
我试图在正则表达式中组合if-else,基本上,如果字符串中存在一些模式,则捕获一个模式,如果不存在,则捕获另一个模式。 字符串是:'https://www.searchpage.com/searchcompany.aspx?companyId=41490234 因此,如果在字符串中检测到“?”,则正则表达式应捕获“?”标记之后的所有内容;如果没有,那就从头抓起。 我使用了:
本文向大家介绍Python 正则表达式爬虫使用案例解析,包括了Python 正则表达式爬虫使用案例解析的使用技巧和注意事项,需要的朋友参考一下 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看出里面一个一个非常有内涵
问题内容: 我正在寻找一种解析日志文件的解决方案。看起来像: 可以区分以下元素: 但我仍然不知道该怎么做。简单行不通。 我知道正则表达式具有一般规则,但最合适的是Java。 谢谢 问题答案: 我想出了一种根据可能的/期望的值从与各个字段匹配的块中构建正则表达式的方法。 当然,可以用rex代替rexa或rexi。