当前位置: 首页 > 知识库问答 >
问题:

用爬虫找出哪个div包含“主要内容”

宇文俊明
2023-03-14

所以...我们如何确定哪个是页面的“主div”?

我很确定谷歌会这么做。他们肯定知道元素在页面上的位置,例如,如果某些东西位于“主要内容”或页脚中。他们怎么会知道这些?

我可以看到的在大范围内做到这一点的方法是:

<body>
    <div class="maincontent">
        <div class="post-header">
            <h1>Header of post</h1>
        </div>
        <div class="short-description">
            Hello World!
        </div>
        <div class="long-description">
            Hello New World!
        </div>
    </div>
</body>

编辑:我想一种渲染它的方法是不渲染每一个单独的页面。而是呈现域。例如。如果域结构是http://example.com/post/1-post-name/,我可以保存它的一个呈现,下次我找到一个页面是http://example.com/post/2-post-name/,我知道它可能与第一个页面有相同的HTML模板,并且“最大的div”可能是相同的。

那么在服务器端要做什么技术呢?我的意思是渲染它,并保存所有元素的大小和位置。我想这似乎是一个相当体面的方式做大规模。

暂时还没有答案

 类似资料:
  • 我正在寻找一种方法来查找,我可以在数组列表中的哪个位置查找内容。例如,我有以下列表: 现在我想知道RGB Lightning在列表中的位置。例如,我有一个类似这样的搜索:现在我想看看哪个部分包含它。我已经尝试了一些方法,但得到了:( 此代码作为独立代码工作,但在我的项目中它没有(我在数组列表中阅读)

  • 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 就是 捜索引擎抓取系统,目的是将互联网上的所有的网页下载到本地,形成一个互联网内容的镜像备份。 它决定着整个搜索引擎内容的丰富性和时效性,因此它的性能优劣直接影响着搜索引擎的效果。 通用搜索引擎(Search Engine)工作原理 第一步:抓取网页 搜索引擎网络爬虫的基本工作流程如下: 首先选取一部分的初始UR

  • 有的时候,当我们的爬虫程序完成了,并且在本地测试也没有问题,爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候,我们很有可能是遇到了网站的反爬虫拦截。 我们知道,网站一方面想要爬虫爬取网站,比如让搜索引擎爬虫去爬取网站的内容,来增加网站的搜索排名。另一方面,由于网站的服务器资源有限,过多的非真实的用户对网站的大量访问,会增加运营成本和服务器负担。 因此,有些网站会设置一些反爬虫的措施。我

  • 这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接,以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析,并且可以在解析的同时创建一个新的请求,你还可以直接调用spider模块来实现,这样就不需要自己去写

  • python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

  • 问题内容: 我正在尝试在新项目中运行一些Java文件。因此,我创建了项目,将文件放入其中,然后尝试运行主文件,以便游戏开始。 我看到一条错误消息。 我尝试了几种方法来运行它: 有人说再次发动日食,尝试了十多次。 有人指出要打开一个新项目,并为旧项目建立一个构建路径。 也没用。 我很确定它一定能正常工作,因为我是几个小时前在学校跑步的。我该如何工作?先感谢您! 问题答案: 希望你尝试以这种方式运行主