MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。
MetaSeeker工具包的目标用户
MetaSeeker工具包的目标用户是提供以下服务和系统的企业和个人:
- 垂直搜索(或称为专业搜索)服务
- 信息汇聚和门户服务
- Mashup服务
- 企业网信息汇聚
- 商业情报采集
- 论坛或博客迁移
- 智能信息代理
- 个人信息检索
- 信息挖掘
MetaSeeker工具包对Web页面的语义结构进行描述,输出适合计算机自动处理的描述文件和指令文件,并且能够持续地、大批量地提取Web信息,输出带有语义结构元数据的信息提取结果文件,可以高效地为信息服务系统补充内容。
MetaSeeker工具包的组成
- MetaStudio:是Web页面信息结构描述工具,提供GUI界面,作为Firefox扩展(Firefox extension)发行,推荐与MetaCamp和DataStore配套使用,这样信息结构描述文件和各种信息提取指令文件就可以上载到MetaCamp和DataStore服务器,以拥有协同描述页面信息结构和分享信息提取成果的能力。
- DataScraper:是Web页面信息提取(网页抓取/抽取)工具,利用MetaStudio生成的各种信息提取指令文件,对特定页面的信息进行连续提取,并将信息存储在DataStore服务器中。提供GUI界面,作为Firefox扩展发行,技术核心是一个自研的工作流引擎,由信息提取工作流指令文件驱动。
- MetaCamp:是存储和管理信息结构描述文件的服务器。作为一个应用(application)部署在Tomcat等Servlet容器中。
- DataStore:是存储和管理信息提取线索、各种信息提取指令文件和信息提取结果文件的服务器,集成Lucene v2.3.2技术,能够为结果文件建立索引。作为一个应用(application)部署在Tomcat等Servlet容器中。
专业信息提取和Web业务集成服务
Web信息提取(网页抓取/抽取)
Comments
评论信息提取不完整
刚开始使用metaseeker,在大众点评网上提取饭馆评论时,发现有些评论提取不完整,只提取出一段评论中的第一句话。在DOM结构中发现这些评论的内容对应多个#text,所以一篇评论被分成了几个部分。请问如何提取完整的一篇评论?
我的信息结构为醉苗乡,谢谢!
印象中这个好像要使
印象中这个好像要使用到block属性来抓,还要建立线索啥的,教程里面还是有交代的
与商业情报挖掘系统集成
也许这是近期重大的目标
精确搜索
我希望尽快看到网页的优化及更强大的功能出现。网站的架构上能增加产品体验就更好了。
MetaSeeker企业版已经在售
MetaSeeker不是自由软件,可以进入购物车页面进行购买。付款时需要提供一个有效的email地址,付款确认后,我们将向该地址发送软件下载帐号和口令以及下载地址。
当前的支付工具是PayPal,只能使用美元支付。如果有任何疑问,可以联系我们。
补充一点
关于术语的使用上,尽量和业内先行者相同或者相似。毕竟先入为主,也让用户更容易接受。
通用术语尽量和业界保持一致
但是,您仍然会接触到一些MetaSeeker专用的术语,这些术语体现了MetaSeeker的特色,是其它产品所不具有的,绝大多数跟操作MetaSeeker有关,这些术语在术语解释中尽可能给予解释,如果您仍然感觉到需要补充,可以在术语解释的相应词条后面写明您的需求(通过点击Add new comment联接)。我们将尽快进行补充。
看到同类软件有所谓
看到同类软件有所谓网络舆论监测能力,同时自动完成相同信息排除,对于有些特殊用户可能有用处,比如数据调查中心等
准备做一个集成解决方案
还没有深入研究,我觉得要实现舆论检测能力,可能需要集成一个meme tracker,当前还没有决定是否要做这个方向,因为当前还在想另外一个方向:手机推荐引擎。
这两个方向都很有吸引力,都需要强大的信息提取能力,MetaSeeker工具像左膀右臂中的左臂。
说明文档太费解
老实说,我觉得说明文档是比较多,但感觉逻辑性不好!
我自己之前做过一小段时间的内容抽取. 也涉及到标题/正文/发表时间/来源等抽取.
所以想看看你的产品效果如何.
从一个做过类似工作的人来说,读你的帮助文档都不那么轻松. 所以觉得既然想推广,这样的文档有待改进.(太多产品本身的术语)
按照你给的几个实例,想测试一下,都没有成功! 汗!
能否做个视频演示你成功完成一个示例的全部过程? (产品使用过程有很多设置,而你的文档本身写得就不够清楚,很多步骤没写得简单易懂,我是自己试了好几次才设置成功的,但运行没成功,没看到结果!)
所有文档资料正在重写
所有的文档资料正在重写,当前完成了V4版本的两个手册:MetaSeeker安装手册和MetaStudio用户手册。DataScraper用户手册即将完成,然后还要将所有的其他资料都进行升级。制作视频演示是个很好的建议。
如果使用MetaSeeker过程中遇到问题,可以联系我们,通过邮件进行一对一的技术支持。