当前位置: 首页 > 面试题库 >

如何从网址中删除查询?

袁枫涟
2023-03-14
问题内容

我正在使用scrapy抓取一个似乎在每个URL末尾向查询字符串添加随机值的网站。这将爬网变成一种无限循环。

我如何抓紧忽略URL的查询字符串部分?


问题答案:

示例代码:

from urlparse import urlparse
o = urlparse('http://url.something.com/bla.html?querystring=stuff')

url_without_query_string = o.scheme + "://" + o.netloc + o.path

输出示例:

Python 2.6.1 (r261:67515, Jun 24 2010, 21:47:49) 
[GCC 4.2.1 (Apple Inc. build 5646)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from urlparse import urlparse
>>> o = urlparse('http://url.something.com/bla.html?querystring=stuff')
>>> url_without_query_string = o.scheme + "://" + o.netloc + o.path
>>> print url_without_query_string
http://url.something.com/bla.html
>>> 


 类似资料:
  • 问题内容: 从Java脚本的路径中删除查询字符串的简单方法是什么?我已经看到了使用window.location.search的Jquery插件。我不能这样做:在我的情况下,URL是从AJAX设置的变量。 问题答案: 一个简单的方法是: 对于那些还希望 在不存在querystring的情况* 下 删除哈希 (不是原始问题的一部分)的人,需要做更多的工作: * 编辑 @caub(最初为@crl)建议

  • 问题内容: 我要在我的一个项目中对分页进行ajax化,并且由于我希望用户能够为当前页面添加书签,因此我通过哈希附加页面编号,例如: 多数民众赞成在它工作正常,一切,除了,当页码为1,我不想成为,我只是希望它成为 我尝试了以下变体: 的作品,但网址现在就像,我不很哈希那里。 根本不使用window.location.hash,但是当用户从第3页回到第1页时,他位于第1页,但是url仍然是因为我没有弄

  • 问题内容: 我要在我的一个项目中对分页进行ajax化,并且由于我希望用户能够为当前页面添加书签,因此我通过哈希附加页面编号,例如: 并且多数民众赞成在它工作正常,一切,除了,当页码为1时,我不想成为,我只是希望它成为 我尝试了以下变体: 的作品,但网址现在就像,我不很哈希那里。 根本不使用window.location.hash,但是当用户从第3页回到第1页时,他位于第1页,但是url仍然是因为我

  • 问题内容: 我正在尝试从Angular 2中的网址中删除#号,但找不到如何在不产生任何问题的情况下删除它的任何好的解释。 我记得在AngularJS 1上添加起来比较容易 如果您能告诉我这是否是一种好的做法(删除#)或可能会影响应用程序的SEO(或对其进行改进),我也将不胜感激。 PS:我正在将Angular 2与打字稿一起使用 问题答案: 正如@Volodymyr Bilyachat指出的那样,

  • 问题内容: 我知道这是一个非常受欢迎的问题,但是我一直无法找到适用于Laravel 5的解决方案。我已经尝试了很长时间从Codeigniter进行迁移,但是这种复杂的安装过程使我望而却步。 我不想运行虚拟机,在项目之间切换时这似乎很尴尬。 我不想将我的文档根目录设置为公用文件夹,这在项目之间切换时也很麻烦。 我已经尝试过.htaccess mod_rewrite方法 这只是在74.10行中给了我一

  • 问题内容: 我的web.xml看起来像: 这样可以保护各方免受授权,但是我想排除/ info。这可能吗 ? 问题答案: 对于不需要身份验证的资源,请省略其中的元素: