导入/导出节点: 您可以在图1.32区域1进行节点的导入导出操作。
更改节点: 您可以在图1.32区域3进行节点的更改操作。
管理采集节点: 更改节点 导入/导出节点 配置文件
内容配置: (图2.211) 因各人采集习惯不同,这理只做简单的介绍,具体操作方式在第5部分有详细的采集例子。图2.211是创建采集节点页面的第二步“内容配置”,其中有三大区需设置,内容分页,文章固定的项目,文章内容。填写时需注意下面两点: 1) 采集内容均以“[内容]”表示,也可指定固定内容替换 2) 表单均为可填,
网址索引: (图2.111) 上图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。 节点基本信息 在节点基本信息下有两个地方需要注意,节点名称和目标页面编码。节点名称虽然允许为空,但最好能填上简单易懂文字进行标识;目标页面编码指的是目标文章页面源代码中的charset值,这个设置是为了
创建采集节点: 网址索引 内容配置
常用正则表达式: ([^]]*) 所有 \d 数字 [0-9] 0-9之间的数字 [A-Za-z] 字母 [a-z] 小写字母 [A-Z] 大写字母 (.*)\.(rar|zip|7zip|tgz) 压缩包文件 (.*)\.(jpg|bmp|gif|ico|pcx|jpeg|tif|png|raw|tga) 图片文件 \d{6} 邮编 (13|15)[0-9]{9} 手机号码 \w+((-\w+)
HTML过滤: {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim} {dede:trim}</object>{/dede:trim} {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} {dede:trim
常用过滤规则: HTML过滤 常用正则表达式
采集未下载内容介绍: 您可以下载“临时内容”中未下载的内容。
导出所有内容介绍: 使用导出所有内容,需注意下面问题: 1) 如果你采集的内容包含多个内容模型的信息,本操作将会出错 2) 这种模式'完成后自动生成导入内容HTML'功能无效
监控采集模式介绍: (图1.35) 如果我们第一次采集了一个网站,那么下次这网站有新内容时我们应该怎么办呢?这样自然就催生了“监控式采集”。这个功能的作用是,只检测节点中第一页有没有新数据,有就采集,没有就不管。此功能默认检测所有节点,若想对单个节点进行监控采集,需在“采集节点管理”页面,选定单个节点进行采集并在“附加选项”点选“监控采集模式”。
导入采集规则介绍: (图1.34) 如果你已经有配置好的采集规则,只需把它粘贴到文本框中并提交,就能快速建立采集节点。建议用base64编码,支持不编码的规则,但不兼容旧版规则。
临时内容管理介绍: (图1.33) 临时内容管理页面显示的是采集完的数据列表。系统采集完一个网址后,会把这网址记录下来放在单独的表,它只包含网址信息,而内容表则包含内容的。下面三种方式主要是对采集网址和内容进行操作: 1) 仅删除网址,通常用于测试的时候发现节点有错误,才用这种方式删除 2) 仅清空内容,只删除内容,不删除网址 3) 删除网址和历史记录,将两者都删除。 默认情况下历史网址不会清空,
采集节点管理介绍: (图1.32) 节点管理页面有六大功能块,下面是简单的说明: 1) 节点的创建和导入导出功能 2) 数据的采集和导出 3) 节点的更改和测试 4) 查看采集到的内容 5) 复制和清空一个选择节点出来 6) 删除选择的节点 具体操作时可在节点名称上按右键