当前位置: 首页 > 知识库问答 >
问题:

使用网站使用Jsoup.connect()或其他技术,但它是否合法?

姜凯风
2023-03-14

我从一个使用Jsoup的网站上获得。连接()

当我们使用Jsoup或任何其他技术来请求使用我们的代码和平时,这是有效的还是合法的??。

.

我们试图使用Jsoup.connect(网址)或其他技术访问的网址。这样网址所有者就可以指控我们违反任何类型的信息技术条款。

.

这是合法的访问任何类型的网站,如私人网站,社交网站,PSU网站,政府网站从我们的和平的代码,并使用他们的反应过度发展

.

谢谢。

共有1个答案

经兴安
2023-03-14

在爬取网站之前,您必须阅读网站的robots.txt。你可以阅读和不应该阅读的内容都有书面许可

关于机器人。txt

网站所有者使用/robots.txt文件向网络机器人发出关于他们网站的指令;这被称为机器人排除协议。

它的工作原理是这样的:比如说,一个机器人想要浏览一个网站的URLhttp://www.example.com/welcome.html.在这样做之前,它首先检查http://www.example.com/robots.txt,并发现:

User-agent: *
Disallow: /

用户代理:*”表示本节适用于所有机器人<“不允许:/”告诉机器人它不应该访问网站上的任何页面。

在使用机器人时,有两个重要的考虑因素。txt:

  1. 机器人可以忽略你的/robots.txt.尤其是扫描网络安全漏洞的恶意软件机器人,垃圾邮件发送者使用的电子邮件地址收集器不会注意。
  2. /robots.txt文件是公开可用的文件。任何人都可以看到你不想让机器人使用你服务器的哪些部分。所以不要试图用/robots.txt来隐藏信息。

更多关于/robots.txt的信息,您可以在这里找到/robots.txt

 类似资料:
  • 问题内容: 从昨天开始,我一直在寻找一个更简单的解决方案,以便仅对网站进行ping并检查它在Swift中是否返回200。 但是我发现的只是目标C中的解决方案。 在Swift中,我找到了一些答案,例如 但是当我从其他函数调用它时 它给出了奇怪的错误,例如 我如何简单地在Swift 4中ping并检查它是否返回200? 问题答案: 我想这个问题很容易:您启用了 应用沙箱 , 但未选中 传出连接 。 那

  • 问题内容: 我想利用Google Maps OnlocationChangeListener,但是因为我已经实现了 并且由于需要保持上述实现,这使得实现OnlocationChangeListener非常困难。目前,代码也进行了 扩展,而我当前的代码又产生了更多问题。 问题是: 由于已经实现和扩展,我无法扩展或实现任何其他功能。这意味着我无法让OnlocationChangeListener工作

  • 问题内容: 我想在CSS中使用大小均相同但高度不相同的元素来实现网格效果。我希望下面的元素始终位于底部元素的50px处,无论接下来是什么。 我尝试使用浮点数,但该错误。因此,我尝试使用Flex,但是它仍然无法满足我的要求。 问题答案: Try the new CSS Grid Layout 建立一个块级网格容器。该grid-auto-rows属性设置自动生成的行的高度。在此网格中,每行高度为50p

  • 在CORS 出现以前,要实现跨域Ajax 通信颇费一些周折。开发人员想出了一些办法,利用DOM 中能够执行跨域请求的功能,在不依赖XHR 对象的情况下也能发送某种请求。虽然CORS 技术已经无处不在,但开发人员自己发明的这些技术仍然被广泛使用,毕竟这样不需要修改服务器端代码。 21.5.1 图像Ping 上述第一种跨域请求技术是使用<img>标签。我们知道,一个网页可以从任何网页中加载图像,不用担

  • 将SQL插入/更新表达式嵌入到刷新中 此功能允许将数据库列的值设置为SQL表达式,而不是文字值。它对于原子更新、调用存储过程等特别有用。您所要做的就是为属性分配一个表达式:: class SomeClass(Base): __tablename__ = "some_table" # ... value = Column(Integer) someobject = se