常见问题

优质

小牛编辑

149浏览

2023-12-01

采集中断、自动采集无效、图片下载不了

因为web服务器有运行时间限制，所以只要采集执行时间太长都会导致程序中断，需要修改web服务器的超时时间

IIS服务器：

apache服务器：
apache目录\conf\extra\httpd-default.conf，修改Timeout

nginx服务器：
nginx目录\conf\nginx.conf，修改fastcgi_connect_timeout

修改以上的参数值可让采集不再中断，修改完后记得重启服务器！其他服务器请自行百度

如果你是虚拟主机无法修改配置，唯一方法就是设置采集数量，每次不要采集太多，一般web服务器运行时间为30秒，尽量不要超时！

php可执行文件：默认自动识别，识别不了，在linux系统中关闭目录跨站保护，手动输入：可输入环境变量名“php”（需要系统中已配置）或输入可执行文件路径，注意不是php目录，一般windows中文件为“php目录/php.exe”，linux中文件为“php目录/bin/php”

触发不了采集：

谷歌浏览器安装：windows百度下载安装即可，linux点击查看

配置谷歌路径：可输入环境变量名“chrome”（需要系统中已配置），或者输入可执行文件路径：一般windows中文件为“浏览器目录/chrome.exe”，linux中文件为“浏览器目录/bin/google-chrome”，注意：浏览器版本不同可能会导致可执行文件名不同！

手机移动端页面：开启请求头信息，设置UserAgent浏览器标识
需要登录的页面：开启请求头信息，设置Cookie缓存数据如何获取cookie

采集到的网址没有域名：开启自动补全网址

规则中的特殊字符识别不了：使用正则规则的时候特殊字符必须使用“\”转义才能使用，和正则冲突的字符有：^$.*+|?[]{}()

页面渲染：使用渲染和不使用时的html源码是不一样的，规则可能不通用！

浏览器中获取到的xpath在采集器中没有用：可能该xpath的对象是渲染出来的元素，采集器默认只能抓取原始html源码的内容，渲染出来的元素需要开启“页面渲染”功能，或者分析相应的js链接来抓取，使用“测试»分析网页”可以看到采集器实际抓取到的页面

字段怎么插入内容：添加一个新字段，获取方式选择“字段组合”

本地cms程序检测不出来：

错误日志文件太多占用空间：可以在“站点设置”中关闭，后台首页使用“清除缓存”可以清空日志

应用程序无法访问：应用需要配置伪静态才能使用，配置文件在蓝天采集器根目录：nginx.conf（nginx），.htaccess（apache），web.config（iis）
函数插件创建后不显示：需要在“云端»已下载»函数插件”中点击开启