我们目前正在进行一个NLP项目,需要从tripadvisor中提取语料库。通用域名格式。我们期望输出为两种类型:注释和该注释的评级。我的问题是:
>
是否有适合此目的的爬行工具?它必须易于使用,python是首选。我发现了一种很好的汤,但我想在这里问一下其他的建议。
有没有什么完整的工具只是为了这个目的?我是说为tripadvisor.com?写的程序
对于从大型网站获取数据(评论/评级)的任何其他建议,我们将不胜感激。
语料库将用于大学研究的情绪分析,我们需要尽快对其进行爬网。
按相应顺序回答您的问题:
>
你需要的是一个网络抓取工具。爬虫自动导航页面,而刮板将超文本标记语言转换为结构化数据。在不同的平台上有许多可用的工具。不知道美丽的汤。你是在html" target="_blank">设计刮板机还是会买它?
您可以根据您的定制需求准备好语料库或制作Web Scraper。您可以使用ScraperWiki请求您的数据或手动编写Scraper。我不知道你的数据结构,但有些数据可以使用谷歌电子表格抓取。你可以在这里看到。只要看看什么类型的数据被刮取,如果它类似于你的数据,那么你就可以使用它。
无法对某些站点或其特定目录进行爬网。你可以检查他们的机器人。txt
以了解相同的信息。在从站点抓取数据之前,还要阅读该站点的策略。
你没有问过,但这里有一些情绪分析的免费工具。
对于python,您可以使用scrapy,这是一个熟练的爬虫框架,http://scrapy.org/
此外,我邀请您分享您收集的数据。如果tripadvisor数据已经准备好,则无需爬网。或者至少,您可以共享爬虫脚本。
我试图从TripAdvisor网站上获取评论。由于网站中的大多数图像都是动态加载的,所以我使用splashjavascript呈现服务来生成页面。 问题是有些图像已加载,有些未加载。 以下是我要爬网的评论的URL:https://www.tripadvisor.com.sg/ShowUserReviews-g294265-d1770798-r446535418-Marina_Bay_Sands-S
问题内容: 最近三年,我一直在用PHP进行Web应用程序开发。我现在快要尝试Java。我最近一次使用该语言是在8年前,而且大部分是学术性的。 我对PHP的对象模型(版本5)相当熟悉,并且我几乎完全是在OO中进行编码的。我现在想传达这种经验并将其用于Java开发。 我来自哪里: linux作为桌面和服务器 Vim / gVim +插件作为编辑器 MySQL的数据库 apache httpd 一堆PH
我有一个很长的switch语句代码(大约8个案例),它决定了在浏览器中使用什么搜索来查找元素。有没有关于如何重构这段代码的建议? WebElement CurrentObject=null;切换(SearchBy){case“className”:尝试{CurrentObject=new WebDriverWait(driver,ConstantValues.LONGWAIT)。直到(Expect
总的来说,问题是做什么?
问题内容: 。 对CSS缩小器有什么建议吗? 我将扎根Google并尝试一些方法,但我怀疑聪明,精通和好奇的英俊StackOverflow社区可能已经评估了重量级的优缺点。 问题答案: 在锐压缩机是太棒了。它适用于JavaScript和CSS。一探究竟。
问题内容: 我在下面的这段代码中遇到了问题,该代码几乎逐字从Firebase SDK Java文档复制而来。我是真正的语言(例如Java)的新手,它来自PHP和JavaScript的webdev背景。 基本上,addListenerForSingleValueEvent不会触发以向我返回数据。我注意到这是因为系统打印输出不会触发,因此我认为监听事件没有触发。 我怀疑这与我有限的知识有关,函数本身是