当前位置：首页 > 面试题库 >

从Wikipedia文章（Python）中提取第一段

齐志勇

2023-03-14

问题内容：

如何使用Python从Wikipedia文章中提取第一段？

例如，对于 Albert Einstein ，那将是：

阿尔伯特·爱因斯坦（发音：/ ˈælbərt ˈaɪnstaɪn /;德语：[ˈalbɐt ˈaɪnʃtaɪn]（听）；
1879年3月14日至1955年4月18日）是一位理论物理学家，哲学家和作家，被广泛认为是最有影响力和标志性的科学家和知识分子之一所有的时间。爱因斯坦是德国瑞士诺贝尔奖获得者，通常被认为是现代物理学之父。[2]
他因“对理论物理学的贡献，特别是对光电效应定律的发现”而获得了1921年诺贝尔物理学奖。[3]

问题答案：

前一段时间，我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案，但是您可以根据需要进行调整：

wikipedia.py
wiki2plain.py

您可以像这样使用它：

from wikipedia import Wikipedia
from wiki2plain import Wiki2Plain

lang = 'simple'
wiki = Wikipedia(lang)

try:
    raw = wiki.article('Uruguay')
except:
    raw = None

if raw:
    wiki2plain = Wiki2Plain(raw)
    content = wiki2plain.text

类似资料：

jsoup-从Wikipedia文章中提取文本

问题内容：我正在编写一些Java代码，以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本（例如，http://en.wikipedia.org/wiki/Boston中的所有文本）？问题答案：当然，您可以通过这种方式检索格式化的内容。如果您想要“原始”内容，则可以使用或使用call 过滤结果。
使用Python获取Wikipedia文章

问题内容：我尝试使用Python的urllib来获取Wikipedia文章：但是，我得到的不是HTML页面，而是以下响应：错误-Wikimedia Foundation：维基百科似乎阻止了不是来自标准浏览器的请求。有人知道如何解决此问题吗？问题答案：你需要使用的urllib2是superseedes的urllib在蟒蛇STD库，以改变用户代理。直接从例子
Python从文件中提取数据

问题内容：我试图提取具有特定文本文件之间的文本：然后将其转储到文本文件中，以便谢谢您的帮助。问题答案：这对我来说足够好了。您的样本数据在一个名为“ data.txt”的文件中，输出将进入“ result.txt”
从python中的xml文档中提取文本

问题内容：这是示例xml文档：我想提取文本而不指定元素，我该怎么做，因为我有10个这样的文档。我想要这样做是因为我的问题是用户正在输入一个我不知道的单词，必须在其各自文本部分的所有10个xml文档中进行搜索。为此，我应该在不知道元素的情况下知道文本的位置。所有这些文档都不同的另一件事。请帮忙！！问题答案：您可以简单地去除所有标签：但是，如果您只想在Linux中搜索文件中的某些文本，则可
python-从mp3文件中提取数据

我正在寻找一个python库，能够提取一个mp3的实际数据（实际的声音/声音我们听）。我希望能够使用数据与另一个mp3文件进行比较，而不影响比特率/编码的过程。我该怎么做？
从Python中的txt文件中提取行

假设我有一个txt文件中的文本： bla bla bla bla bla bla 标题 Lorem ipsum dolor sat amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut laboure et dolore magna aliqua。 Ut enim ad minim veniam, 条件 bla

相关阅读

从python中的MS Word文件中提取文本使用Python从HTML文件中提取文本 MySQL查询从字段中提取第一个单词使用python从XML提取文本在Python中从文件名提取扩展名

相关文章

Sublime Text运行第一个Python程序一篇文章带你彻底搞懂：volatile 秋招第五章：阿里淘天测试开发一面秋招第一场面试宁德时代提前批 Scala 提取器(Extractor)

相关问答

从大文件中提取文本如何在Python 3.7中从pdf中提取文本[duplicate]从CSV文件中提取列从pdb文件中提取guid 从文本文件中提取浮动

相关工具

wikipedia-map wikipedia-ios apps-android-wikipedia 《Python Cookbook》第三版中文版中文 Python

相关文档

Think Python 第二版中文版 Python 取证中文教程 Python 爱好者社区文章列表 Python XlsxWriter 中文文档每周一个 Python 3 模块中文版