当前位置: 首页 > 知识库问答 >
问题:

如何使维基百科API规范化和重定向,而不知道所有字符的确切大小写?

白灿
2023-03-14

如果我试图通过他们的API获取Wikipedia页面的语言链接,如下所示:

http://en.wikipedia.org/w/api.php?action=query

我得到一份结果清单。

但如果我把拉尔夫身上的R写成这样:

http://en.wikipedia.org/w/api.php?action=query

我没有结果。

查看返回的信息,看起来维基百科将第一个示例中的“crask it Ralph”规范化为“crask it Ralph”,从而重定向到“crask it Ralph”。

在第二个例子中,“Crank it ralph”被规范化为“Crank it ralph”,显然它不会重定向到任何地方。

在电视上搜索“失事拉尔夫”http://wikipedia.org 工作,当然:

http://www.wikipedia.org/search-redirect.php?family=wikipedia

当我不知道搜索词的所有字符的确切大小写时,我能让langlink查询以同样的方式工作吗?

根据Sorawee的回答更新我设法找到了如何进行不区分大小写的搜索:https://en.wikipedia.org/w/api.php?action=query

共有1个答案

东郭腾
2023-03-14

在MediaWiki中,所有标题将自动大写。因此,“失事拉尔夫”和“失事拉尔夫”是同一页。类似地,“失事拉尔夫”和“失事拉尔夫”是同一页。请注意,大写仅适用于第一个字母。

MediaWiki也有称为“重定向页面”的页面重定向页面可以将您从页面重定向到另一个完全不同的页面。例如,https://en.wikipedia.org/wiki/Template: cn将重定向到https://en.wikipedia.org/wiki/Template:Citation_needed。这些页面是由用户创建的,而不是软件。

你问的情况就像下面的图表。

“破坏它拉尔夫”=正常化=

"破坏王"=正常化=

所以现在你知道你不能查询页面“破坏王”,因为它不存在。

但是,如果您想从“Crank it Ralph”中查询,您可能会也可能不会得到“Crank it Ralph”的链接。这取决于参数

  • http://en.wikipedia.org/w/api.php?action=query

对于这个问题,为什么会这样http://www.wikipedia.org/search-redirect.php?family=wikipedia

 类似资料:
  • 我想获得默认重定向页面的所有图像的链接,比如“高血压疾病”和“肺水肿”现在,我通过每个学期的三个api调用来做这件事。例如, http://en.wikipedia.org/w/api.php?action=query 其中1获取重定向的ID,2获取图像名称,3获取图像URL。 有没有一种方法可以让维基百科变得更友好,只需一个API调用就可以做到这一点?

  • 问题内容: 我从一个包含特殊字符的国外来源中检索了基于文本的utf8数据,例如,当我想将它们标准化为英语时,例如。实现这一目标的最佳方法是什么? 问题答案: 我建议使用Unidecode模块: 请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。

  • 我想使用Batchnormalization来规范化批次维度,但keras中的批次维度自然是无维度的。那我该怎么办呢。 keras示例显示,conv2d的轴为-1,这表示通道尺寸。 轴:整数,应规格化的轴(通常是特征轴)。例如,在具有data\u format=“channels\u first”的Conv2D层之后,在BatchNormalization中设置axis=1。

  • 我一直在尝试获取一个可能的结果列表(与在维基百科中搜索时得到的结果相同)和一个小的文章摘要,通常是第一段。 到目前为止,我能得到的要么是标题列表: https://en.wikipedia.org/w/api.php?action=query 或单个页面的摘要: https://en.wikipedia.org/w/api.php?action=query 是否有可能以类似于此的形式组合这两个查询

  • 我可以在输入层之后使用批处理规范化层而不规范化我的数据吗?我可以期望得到类似的效果/性能吗? 在keras函数中,它应该是这样的:

  • 有办法从维基百科获得所有标题/摘录对吗?到那一刻,我发现了两种方法: 下载摘录转储,但它包含不完整/无效的摘录,我想是作为文章的第一行。 使用MediaWiki API请求摘录,但它非常慢,因为每个请求只能获得单个摘录(批量查询不适用于摘录): /w/api.php?action=query 我想获得摘录,因为它们是由MediaWiki API生成的,而不需要负担维基百科服务器。可能吗? 顺便说一