当前位置: 首页 > 知识库问答 >
问题:

找出flume从twitter下载的tweets的位置

姬寂离
2023-03-14

我使用了一些关键字,并使用Flume从twitter下载了tweets。

{“filter_level”:“medium”,“contributors”:null,“text”:“梅西,厄齐尔,CR7&苏亚雷斯·伯腾格·迪兰博基尼T.co/skk8xnnjl7”,“geo”:null,“retweeted”:false,“in_reply_to_screen_name”:null,“possibly_sensitive”:false,“truncated”:false,“lang”:“in”,“实体”:{“symbols”:[],“URL”:[{“expanded_url”:“h5vk”,“URL”:“t.co/skk8xnnjl7”}],“hashtags”:[],“user_mentions”:[]},“in_reply_to_status_id_str”:null,“id”:461450307856130048,“source”:“http://dlvr.it\”rel=\“nopolloy\”>dlvr.it“,”in_reply_to_user_id_str“:null,”favorited“:false,”in_reply_to_status_id“:null,”retweet_count“:30 10:21:41+0000 2014”,“in_reply_to_user_id”:null,“favorite_count”:0,“id_str”:“461450307856130048”,“place”:null,“user”:{“location”:“subscribe us”,“default_profile”:false,“profile_background_tile”:true,“statuses_count”:158496,“lang”:“en”,“profile_link_color”:“006400”,“profile_banner_url”:251586988,“以下”:null,“受保护”:false,“favourites_count”:1,“profile_text_color”:“333333”,“说明”:“最新突发新闻和软件。\r\n\r\n\n\nakun ini dijual RP150.000”,“验证”:false,“contributors_enabled”:false,“profile_sidebar_border_color”:“000000”,“name”:“top News”,“profile_background_color”:“000000”,“created_at”:“计数”:37879,“profile_image_url_https”:“pbs.twimg.com/profile_images/449966329588482048/rb4aznrv_normal.jpeg”,“geo_enabled”:false,“profile_background_image_url”:“abs.twimg.com/images/themes/theme14/bg.gif”,“profile_background_image_url_https”:“偏移量”:25200,“time_zone”:“bangkog”,“notifications”:null,“profile_use_background_image”:true,“friends_count”:10,“profile_sidebar_fill_color”:“ddeef6”,“screen_name”:“7hotnews”,“id_str”:“251586988”,“profile_image_url”:“http://pbs.twim”g.com/profile_images/449966329588482048/rb4aznrv_normal.jpeg“,”listed_count“:19,”is_translator“:false},”cociators“:null}

现在我必须从发推的地方找出推文的位置。另外,我遇到一些网站,在上面json格式的大多数答案中,“geo”字段给出了推文的位置。但对我的大多数推文来说,它是空的。拜托,谁能帮帮我...我只是摇了两个星期的头....提前谢谢,红魔

共有1个答案

宫高义
2023-03-14

您有两种类型的位置:地理位置和用户位置。用户位置在大多数情况下是不可靠的,因为用户可以键入他们想要的任何内容。地理位置是定位tweet的最佳方式,正如您所看到的,大多数用户都不启用他们的地理位置。你可以使用为数不多的地理位置,你有什么目的将取决于。

 类似资料:
  • 我正在尝试制作一个发布推文的机器人 由于我的开发人员帐户只是必需的,所以我只能使用V2 API。首先,这是我发布推文时使用的github示例:https://github.com/twitterdev/Twitter-API-v2-sample-code/blob/main/Manage-Tweets/create_tweet.py 用户流程如下。似乎必须使用OAuth,因此,您必须获得一个6位数

  • Hadoop新手,使用本教程:https://acadgild.com/blog/streaming-twitter-data-using-flume/捕捉推文。这是我的水槽。conf文件: 它流式传输推特很好,它正确地保存到我想要的目录中,但它似乎在流式传输所有内容,而没有对我的关键字进行过滤。我收到了来自世界各地的推特,除了有那个标签。 可能是什么问题?

  • 我一整天都在不断收到这个日志信息。 2016-10-12 21:32:05,696(conf-file-poller-0)[DEBUG-org . Apache . FLUME . node . pollingpropertiesfileconfigurationprovider $ filewatcherrunnable . run(pollingpropertiesfileconfigurat

  • 我正在使用Flume 1.6.0-cdh5.9.1使用Twitter源流式传输推文。 配置文件如下所示: 对于Cloudera. jar依赖项,我使用Maven使用以下依赖项构建了: 现在,当我运行Flume Agent时,它成功启动,连接到Twitter,但在最后一行(接收状态流)后停止: 在最后一行之后什么都没有发生。它不会终止,不会流式传输任何东西。我看了一下HDFS位置,那里没有创建任何东

  • 我的推特数据格式不可读。我使用水槽获取了推特数据,我正在尝试使用蜂巢表读取这些数据。但是我在 hdfs 中看不到正确的数据。以下是详细信息: flume-env.sh - twitter.conf- 当我少做一个文件时: 有人可以告诉我哪里出错了吗?我需要蜂巢表的可读格式的数据。

  • 我试图将twitter提要流到hdfs,然后使用Hive。但是第一部分,流数据和加载到hdfs不起作用,并给出空指针异常。 这是我尝试过的。 4.我将flume-sources-1.0-snapshot.jar添加到/user/lib/flume/lib。 5.启动Hadoop并执行以下操作 6.我在/user/lib/flume中运行以下内容