当前位置: 首页 > 面试题库 >

解析推文以将主题标签提取到数组中

陆宏扬
2023-03-14
问题内容

我花了很长时间在一条包含主题标签的推文中获取信息,然后使用Python将每个主题标签拉到一个数组中。我什至不敢透露到目前为止我一直在尝试的事情。

例如,“我喜欢#stackoverflow,因为#people非常#helpful!”

这应将3个标签拖入数组。


问题答案:

一个简单的正则表达式就可以完成这项工作:

>>> import re
>>> s = "I love #stackoverflow because #people are very #helpful!"
>>> re.findall(r"#(\w+)", s)
['stackoverflow', 'people', 'helpful']

但是请注意,正如其他答案中所建议的那样,这也可能会找到非标签,例如URL中的哈希位置:

>>> re.findall(r"#(\w+)", "http://example.org/#comments")
['comments']

因此,另一个简单的解决方案是以下操作(将重复项作为奖励删除):

>>> def extract_hash_tags(s):
...    return set(part[1:] for part in s.split() if part.startswith('#'))
...
>>> extract_hash_tags("#test http://example.org/#comments #test")
set(['test'])


 类似资料:
  • 我想根据特定的标签提取数据/推文。我的python代码可以很好地处理任何标签,除了“#LetsTaxThis”。主要是这是我想用来从tweeter提取数据的标签。 一旦我使用此主题标签运行我的代码,我只能看到2条推文,但是已经有1000条带有此标签的推文。 我的CONSUMER_KEY,CONSUMER_SECRET,ACCESS_TOKEN,ACCESS_SECRET都没问题。因为其他的标签正在

  • 问题内容: 我想使用PHP函数从一条推文中检索所有主题标签。 我知道有人在这里问过类似的问题,但没有提示如何在PHP中精确地实现这一点。由于我对正则表达式不是很熟悉,所以不知道如何编写一个函数来返回tweet中所有主题标签的数组。 因此,如何使用以下正则表达式执行此操作: 问题答案: $tweet = “this has a #hashtag a #badhash-tag and a #goodh

  • 我有以下html: 我尝试获取div元素的子元素,然后迭代子元素并将其转换为html,但这只返回标记元素,而忽略元素之间的文本。在理想情况下,文本将被p标记包围,但情况并非如此:S 如果我在div元素上使用element.ownText函数,那么我会得到没有标记的文本,我需要这两样东西,并且顺序正确:/ 谢谢

  • 我有如下的XML文件。 我想解析crewMember标签,并从中获取id、姓氏、姓氏以及flightQualification中的iSaventured标签,所有这些都放在一个Pandas数据框中,如下所示: 我知道这将涉及一个for循环来检索firstName和lastName值,但在提取我需要的所有值时遇到困难。有没有快速的方法来做到这一点?

  • 我希望从< code>div内的标题和< code >内的文本中提取文本字符串 我可以用<code>汤得到标题。h1</code>,但我想获得特定于div<code>中的<code>h1</code> 超文本标记语言:

  • AdminLTE 使用所有 Bootstrap 4 组件。这是一个回顾 Bootstrap 文档的良好开端,通过它了解此文档未涵盖的各种组件。 在浏览示例页面时如果你想要复制组件,请右键单击该组件并选择“检查元素”它比从页面中获取 HTML 更快。 主标题包含导航栏。导航栏结构与 Bootstrap 略有不同,因为它有 Bootstrap 不提供的组件。导航栏可以通过两种方式创建。这是常规导航栏的