问题：

用爬虫找出哪个div包含“主要内容”

宇文俊明

2023-03-14

所以...我们如何确定哪个是页面的“主div”？

我很确定谷歌会这么做。他们肯定知道元素在页面上的位置，例如，如果某些东西位于“主要内容”或页脚中。他们怎么会知道这些？

我可以看到的在大范围内做到这一点的方法是：

<body>
    <div class="maincontent">
        <div class="post-header">
            <h1>Header of post</h1>
        </div>
        <div class="short-description">
            Hello World!
        </div>
        <div class="long-description">
            Hello New World!
        </div>
    </div>
</body>

编辑：我想一种渲染它的方法是不渲染每一个单独的页面。而是呈现域。例如。如果域结构是http://example.com/post/1-post-name/，我可以保存它的一个呈现，下次我找到一个页面是http://example.com/post/2-post-name/，我知道它可能与第一个页面有相同的HTML模板，并且“最大的div”可能是相同的。

那么在服务器端要做什么技术呢？我的意思是渲染它，并保存所有元素的大小和位置。我想这似乎是一个相当体面的方式做大规模。

暂时还没有答案

类似资料：

找出哪个ArrayList Number包含我的搜索？

我正在寻找一种方法来查找，我可以在数组列表中的哪个位置查找内容。例如，我有以下列表：现在我想知道RGB Lightning在列表中的位置。例如，我有一个类似这样的搜索：现在我想看看哪个部分包含它。我已经尝试了一些方法，但得到了：( 此代码作为独立代码工作，但在我的项目中它没有（我在数组列表中阅读）
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR
15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
Java 错误：选择内容不包含主要类型

问题内容：我正在尝试在新项目中运行一些Java文件。因此，我创建了项目，将文件放入其中，然后尝试运行主文件，以便游戏开始。我看到一条错误消息。我尝试了几种方法来运行它：有人说再次发动日食，尝试了十多次。有人指出要打开一个新项目，并为旧项目建立一个构建路径。也没用。我很确定它一定能正常工作，因为我是几个小时前在学校跑步的。我该如何工作？先感谢您！问题答案：希望你尝试以这种方式运行主
Python爬虫：常用的爬虫技巧总结

python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

用爬虫找出哪个div包含“主要内容”

暂时还没有答案

相关问答

相关文章

相关阅读

相关工具

相关文档