当前位置: 首页 > 知识库问答 >
问题:

根据特定主题标签提取数据/推文

姚乐家
2023-03-14

我想根据特定的标签提取数据/推文。我的python代码可以很好地处理任何标签,除了“#LetsTaxThis”。主要是这是我想用来从tweeter提取数据的标签。

一旦我使用此主题标签运行我的代码,我只能看到2条推文,但是已经有1000条带有此标签的推文。

我的CONSUMER_KEY,CONSUMER_SECRET,ACCESS_TOKEN,ACCESS_SECRET都没问题。因为其他的标签正在起作用。

import tweepy           # To consume Twitter's API
import pandas as pd     # To handle data
import numpy as np      # For number computing

# For plotting and visualization:
from IPython.display import display
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline



# Twitter App access keys for @user

# Consume:
CONSUMER_KEY    = '--------'
CONSUMER_SECRET = '----------------'

# Access:
ACCESS_TOKEN  = '--------------'
ACCESS_SECRET = '-------------'

#------------------
# We import our access keys:
from credentials import *    # This will allow us to use the keys as variables

# API's setup:
def twitter_setup():
    """
    Utility function to setup the Twitter's API
    with our access keys provided.
    """
    # Authentication and access using keys:
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_SECRET)

    # Return API with authentication:
    api = tweepy.API(auth)
    return api

    ------------------

    # We create an extractor object:
extractor = twitter_setup()

# We create a tweet list as follows:
#tweets = extractor.user_timeline(screen_name="@iamsrk", count=600)
tweets = extractor.search(q="#letsTaxThis", count=200)

print("Number of tweets extracted: {}.\n".format(len(tweets)))

# We print the most recent 5 tweets:
#print("3 recent tweets:\n")
for tweet in tweets[:3]:
    print(tweet.text)
    print()

    -----------------------

我期待着收到您的:).

提前感谢:)

共有1个答案

公冶高义
2023-03-14

搜索 API 仅返回一周前的推文。你需要获得批准才能使用高级搜索 API 来获取较旧的推文。

 类似资料:
  • 问题内容: 我花了很长时间在一条包含主题标签的推文中获取信息,然后使用Python将每个主题标签拉到一个数组中。我什至不敢透露到目前为止我一直在尝试的事情。 例如,“我喜欢#stackoverflow,因为#people非常#helpful!” 这应将3个标签拖入数组。 问题答案: 一个简单的正则表达式就可以完成这项工作: 但是请注意,正如其他答案中所建议的那样,这也可能会找到非标签,例如URL中

  • 问题内容: 我正在尝试使用python HTMLParser库从HTML页面中获取值。我要保留的值在此html元素内: 到目前为止,这是我的HTMLParser类: 有人可以指出我正确的方向吗?我希望类功能获得值20。 问题答案: 从“触发”开始计数嵌套标记的数量。当我们处于以触发标签为根的子树中时,我们将数据存储在中。 解析末尾的数据保留在其中(字符串列表,如果未满足触发标签,则可能为空)。您可

  • 有很多例子可以说明如何创建和使用TensorFlow数据集。 我的问题是如何以numpy格式从TF数据集获取数据/标签?换言之,WAND将是上面这行的反向操作,即我有一个TF数据集,并希望从中获取图像和标签。

  • 问题内容: 我有一个包含6列的R数据框,并且我想创建一个仅包含三列的新数据框。 假设我的数据帧df,我想提列A,B和E,这是唯一的命令,我可以计算出: 有没有更紧凑的方法可以做到这一点? 问题答案: 如果您的data.frame被调用,则使用dplyr包df1: 也可以在不使用%>%管道的情况下将其写为:

  • 我不知道如何选择特定的JSON数据。 如何更改此代码以使我只有id,而没有其他响应数据? 我在网上阅读,显然我需要使用结构?我不确定如何处理这个问题。 这将返回...

  • 我有netcdf数据,其中包含2020年的每日数据,以特定湿度为变量,以及一个excel文件,其中包含北印度洋上空形成的所有气旋的日期。大多数情况下,当我们想要提取特定时间范围内的数据时,我们习惯使用 xarray 进行切片,但在这种特定情况下,我面临的问题是我只需要提取 excel 文件中那些特定旋风日的数据并创建一个复合。如果有人可以通过展示如何做到这一点来帮助我,我们将不胜感激。我正在附加一