当前位置: 首页 > 面试题库 >

从Wikipedia文章(Python)中提取第一段

齐志勇
2023-03-14
问题内容

如何使用Python从Wikipedia文章中提取第一段?

例如,对于 Albert Einstein ,那将是:

阿尔伯特·爱因斯坦(发音:/ ˈælbərt ˈaɪnstaɪn /;德语:[ˈalbɐt ˈaɪnʃtaɪn](听);
1879年3月14日至1955年4月18日)是一位理论物理学家,哲学家和作家,被广泛认为是最有影响力和标志性的科学家和知识分子之一所有的时间。爱因斯坦是德国瑞士诺贝尔奖获得者,通常被认为是现代物理学之父。[2]
他因“对理论物理学的贡献,特别是对光电效应定律的发现”而获得了1921年诺贝尔物理学奖。[3]


问题答案:

前一段时间,我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案,但是您可以根据需要进行调整:

wikipedia.py
wiki2plain.py

您可以像这样使用它:

from wikipedia import Wikipedia
from wiki2plain import Wiki2Plain

lang = 'simple'
wiki = Wikipedia(lang)

try:
    raw = wiki.article('Uruguay')
except:
    raw = None

if raw:
    wiki2plain = Wiki2Plain(raw)
    content = wiki2plain.text


 类似资料:
  • 问题内容: 我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本(例如,http://en.wikipedia.org/wiki/Boston中的所有文本)? 问题答案: 当然,您可以通过这种方式检索格式化的内容。如果您想要“原始”内容,则可以使用或使用call 过滤结果。

  • 问题内容: 我尝试使用Python的urllib来获取Wikipedia文章: 但是,我得到的不是HTML页面,而是以下响应:错误-Wikimedia Foundation: 维基百科似乎阻止了不是来自标准浏览器的请求。 有人知道如何解决此问题吗? 问题答案: 你需要使用的urllib2是superseedes的urllib在蟒蛇STD库,以改变用户代理。 直接从例子

  • 问题内容: 我试图提取具有特定文本文件之间的文本: 然后将其转储到文本文件中,以便 谢谢您的帮助。 问题答案: 这对我来说足够好了。您的样本数据在一个名为“ data.txt”的文件中,输出将进入“ result.txt”

  • 问题内容: 这是示例xml文档: 我想提取文本而不指定元素,我该怎么做,因为我有10个这样的文档。我想要这样做是因为我的问题是用户正在输入一个我不知道的单词,必须在其各自文本部分的所有10个xml文档中进行搜索。为此,我应该在不知道元素的情况下知道文本的位置。所有这些文档都不同的另一件事。 请帮忙!! 问题答案: 您可以简单地去除所有标签: 但是,如果您只想在Linux中搜索文件中的某些文本,则可

  • 我正在寻找一个python库,能够提取一个mp3的实际数据(实际的声音/声音我们听)。我希望能够使用数据与另一个mp3文件进行比较,而不影响比特率/编码的过程。我该怎么做?

  • 假设我有一个txt文件中的文本: bla bla bla bla bla bla 标题 Lorem ipsum dolor sat amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut laboure et dolore magna aliqua。 Ut enim ad minim veniam, 条件 bla