当前位置: 首页 > 知识库问答 >
问题:

python re的findall怎么提取出一个文件里的所有的url?

巢权
2023-08-26

只要xxx.com或xxx.xxx.com之前的字符,不要中文和http://

第一组https://www.aaa.comhttps://www.bbb.nethttps://www.ccc.com第二组https://a.abc.comhttps://b.abc.comhttp://dfc.com

共有1个答案

丰飞龙
2023-08-26
import reimport ostest_text = """第一组https://www.aaa.comhttps://www.bbb.net中文https://www.ccc.com第二组https://a.abc.comhttps://b.中文.comhttp://dfc.com"""result = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', test_text, re.MULTILINE)print(result)# 打开file.txt文件,从文件中读取with open('file.txt','r') as f:    text = f.read()    bb = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', text, re.MULTILINE)    print(bb)
 类似资料:
  • 什么?还能结构化? 任何语言的每一句话之所以称为“话”,是因为它有一定的句子结构,除了一个个独立的词之外,他们之间还存在着某种关系。如果任何一句话可以由任何词构成,可长可短,那么这是一个非结构化的信息,计算机是很难理解并做计算的,但是如果能够以某种方式把句子转化成结构化的形式,计算机就可以理解了。 实事上,人脑在理解一句话的时候也暗暗地在做着由非结构化到结构化的工作。 比如说:“我下午要和小明在公

  • XLSX只导出页面上显示在table的数据,我想导出所有分页的数据

  • 我用Flume收集推文,并存储在HDFS上。收集部分工作正常,我可以在我的文件系统中找到我所有的推文。 正如我们所看到的,推文存储在128MB的块中,但只使用几个Ko,这是HDFS的正常行为,如果我错了,请纠正我。 然而,我如何在一个文件中获取所有不同的推文? 这是我使用以下命令运行的conf文件: flume ng agent-n TwitterAgent-f./my flume files/t

  • 本文向大家介绍Python列出一个文件夹及其子目录的所有文件,包括了Python列出一个文件夹及其子目录的所有文件的使用技巧和注意事项,需要的朋友参考一下 python简介 Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。 Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。 像Perl语言一样, Python 源代码同样遵循 G

  • 我该怎么从netfilter勾出来的报文里读取数据? 我使用这个钩子函数,读取netfilter架构勾出来的网络报文对应的skbuff结构体的内容,并打印到日志中. 之后,我在本地的12345端口,使用两个终端的netcat指令进行通信,内容为ABCDE. 然后我截取到类似如此的内容. 差不多是这么个样子.如果它的网络报文中包含A,B这些英文字符,那为什么我使用printk打印不出来? 现在我发现

  • 本文向大家介绍php读取出一个文件夹及其子文件夹下所有文件的方法示例,包括了php读取出一个文件夹及其子文件夹下所有文件的方法示例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php读取出一个文件夹及其子文件夹下所有文件的方法。分享给大家供大家参考,具体如下: 今天的需求要在一个文件夹中读取出这个文件夹下所有的文件,当然也包括这个文件夹下面所有的子文件夹,当然网上有很多的教程,但为了自己