我有一个维基百科文章列表(我自己的历史记录在我的浏览器中)。我想画一棵我访问维基百科的树,为每个维基百科的内部超链接画一条线。为了得到一个好的结果,我想用文章的名称来表示每个节点,并且对于正文中至少有一个图像的文章,从文章中提取一个图像。
哪种图像是最佳候选?我注意到有时会有一个名为thumbimage的图像,但情况并非总是如此。
另一种方法是使用超文本标记语言或维基媒体标记从页面中解析图像。如果有的话,我建议选择infobox图片,如果没有,则选择页面上的第一张图片。
我也有过类似的经历,试图从特定页面抓取相关图像。在我的例子中,我使用og: Image属性。
您可以在此处阅读更多信息:http://ogp.me/
查看DBPedia图像数据集:
http://wiki.dbpedia.org/Downloads38#h227-1
他们为许多文章选择了具有代表性的形象。它们并不经常更新(我认为最新的更新时间是2012年6月,所以我写这篇文章的时候是4个月前),但它们做得非常好,如果您需要更多的最新数据,您可以使用它们的代码库来解析自己。
在本章中,我展示了上一个练习的解决方案,并分析了 Web 索引算法的性能。然后我们构建一个简单的 Web 爬虫。 15.1 基于 Redis 的索引器 在我的解决方案中,我们在 Redis 中存储两种结构: 对于每个检索词,我们有一个URLSet,它是一个 Redis 集合,包含检索词的 URL。 对于每个网址,我们有一个TermCounter,这是一个 Redis 哈希表,将每个检索词映射到它出
问题内容: 例如,使用此Wikipedia转储: http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=lebron%20james&rvprop=content&redirects=true&format=xmlfm 我是否可以使用现有的Python库来创建带有主题和值映射的数组? 例如: 问题答案: 看来您确实
我想获得默认重定向页面的所有图像的链接,比如“高血压疾病”和“肺水肿”现在,我通过每个学期的三个api调用来做这件事。例如, http://en.wikipedia.org/w/api.php?action=query 其中1获取重定向的ID,2获取图像名称,3获取图像URL。 有没有一种方法可以让维基百科变得更友好,只需一个API调用就可以做到这一点?
问题内容: 我需要获取任何电影的信息框的内容。我知道电影的名字。一种方法是获取Wikipedia页面的完整内容,然后解析它,直到找到并获取信息框的内容。 使用某些API或解析器,是否还有其他方法可以实现? 我正在使用Python和pywikipediabot API。 我也熟悉wikitools API。因此,如果有人具有与wikitools API相关的解决方案,请不要使用pywikipedia
我正在尝试从这个维基百科页面中获取表数据:https://en.wikipedia.org/wiki/2020_coronavirus_pandemic_in_Nepal我试过用熊猫警犬。Read Office HTML语法,但它对我试图擦除的表无效(证实了CavID-19在尼泊尔地区的病例)。 我试着用Beautifulsoup和pandas来搜集数据,但没有用
维基百科离线阅读器,支持索引官方dump!