当前位置: 首页 > 编程笔记 >

Scrapy的remove_tags_with_content方法无法删除img标签?

苍兴怀
2023-03-14
本文向大家介绍Scrapy的remove_tags_with_content方法无法删除img标签?,包括了Scrapy的remove_tags_with_content方法无法删除img标签?的使用技巧和注意事项,需要的朋友参考一下

Scrapy爬取的数据有时候会做清理,把不需要用的标签都清除掉。

其中remove_tags和remove_tags_with_content是比较有用的内置方法。

一个是去除标签本身,一个是去除标签及标签中的内容。

使用方式:

from scrapy.utils.markup import remove_tags, remove_tags_with_content

content = remove_tags(content, ('a',))
content = remove_tags_with_content(content, ('script', 'iframe'))

那么,如果是要删除img标签,该用哪一个呢?

刚开始的时候我用了 remove_tags_with_content ,一直不凑效,折腾。

后来转念一想,img标签只有标签,并没有像div、a、p等标签,里面还有内容。

所以改用 remove_tags 就行了!!!

 类似资料:
  • 我试图从PHP中删除“img src”标签,这样它就可以简单地显示图像网址,而不是显示实际图像。这是我到目前为止得到的代码,它工作得很好,但是当它呈现时,它显示缩略图而不是网址。 我知道有办法做到这一点,但我不知道如何在不破坏图像代码的情况下删除标签。感谢您的帮助。

  • 本文向大家介绍彻底删除thinkphp3.1案例blog标签的方法,包括了彻底删除thinkphp3.1案例blog标签的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了彻底删除thinkphp3.1案例blog标签的方法。分享给大家供大家参考。具体方法如下: thinkphp3.1框架中的案例blog,添加日记的同时可以添加标签tag,但仅此而已。当删除日记时,标签并没有被删除掉,从

  • 本文向大家介绍javascript动态添加删除tabs标签的方法,包括了javascript动态添加删除tabs标签的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了javascript动态添加删除tabs标签的方法。分享给大家供大家参考。具体实现方法如下: 用到的图片title2_on_green.jpg <img alt="" src="http://p.blog.csdn.net

  • 用EraseMode属性适合于画面变化最小的简单图的长序列。这里有一个例子放映模拟的布朗运动。指定点的数目,例如 n = 20 以及温度或速度,例如 s = .02 这两个参数的最佳值决定于你的计算机的速度。生成n个随机点,其(x,y)坐标介乎-1/2和+1/2。 x = rand(n,1)-0.5; y = rand(n,1)-0.5; 在边界为-1和1的正方形作出各点。保存点的向量的句柄

  • 本文向大家介绍Pycharm代码无法复制,无法选中删除,无法编辑的解决方法,包括了Pycharm代码无法复制,无法选中删除,无法编辑的解决方法的使用技巧和注意事项,需要的朋友参考一下 菜单栏,tools--去掉勾选的Vim Emulator这个仿真插件就好了。 以上这篇Pycharm代码无法复制,无法选中删除,无法编辑的解决方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支

  • 问题内容: 我有两个表,tableA和tableB。 tableA具有列:tabAId,col2,col3 (tabAId primaryKey和Identity列。) tableB具有列:tabAId,名称 (tabAId不为空) 我在tableA的hbm文件中创建了Bag,以维护关系。 当我尝试更新 tableA中的 记录时,它将引发异常,因为我在tableA实例中有子项列表。 [NHiber