当前位置: 首页 > 软件库 > Web应用开发 > HTML解析器 >

jparser

网页转码 python 库
授权协议 MIT
开发语言 Python
所属分类 Web应用开发、 HTML解析器
软件类型 开源软件
地区 国产
投 递 者 周培
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 

  • 前言 parser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。 用法: import urllib2 from jparser import PageModel html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").r

  • GitHub:https://github.com/codelucas/newspaper Newspaper文档说明:https://newspaper.readthedocs.io/en/latest/ Newspaper快速入门:https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html Newspaper是一个

 相关资料
  • 问题内容: 我正在使用Pythonselenium来自动化我的出勤记录。一切正常,现在我想尝试通过修改源代码来尝试。我见过几篇文章,指出可以使用它对其进行修改并且适用于JavaScript,但就我而言,我需要在标记下修改源代码。我可以使用修改源代码。以下是标签的源代码: 我试图做到这一点。以下是我的代码: 但是上面的代码给了我以下错误: selenium.common.exceptions.Web

  • 我正在使用Python selenium来自动化我的考勤输入。它的工作很好,现在我想尝试修改源代码。我看到很少的帖子说明可以使用修改它,并且它适用于JavaScript,但是在我的例子中,我需要修改标记下的源代码。我能够使用修改源代码。以下是标记的源代码: 我尝试使用来实现。下面是我的代码: 但上面的代码给了我以下错误: selenium.common.exceptions.WebDriverEx

  • 本文向大家介绍python 获取网页编码方式实现代码,包括了python 获取网页编码方式实现代码的使用技巧和注意事项,需要的朋友参考一下 python 获取网页编码方式实现代码  然后import chardet 下面写了一个自动化检测的函数供检测Url连接,然后返回网页url的编码方式。 上面用到了chardet类的detect方法,返回字典,然后取出编码方式encoding 感谢阅读,希望能

  • 本文向大家介绍判断网页编码的方法python版,包括了判断网页编码的方法python版的使用技巧和注意事项,需要的朋友参考一下 在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。 但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码: 网上很多网页的编码格式都不一样

  • 我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda

  • 问题内容: 我正在尝试在python中创建一个程序,该程序可以在.docx文件中找到特定的单词,并返回其发生的页码。到目前为止,在浏览python- docx文档时,我无法找到如何访问页码,甚至无法访问该编号所在的页脚。有没有一种方法可以使用python- docx甚至只是python?否则,最好的方法是什么? 问题答案: 简短的答案是否定的,因为分页符是由呈现引擎插入的,而不是由.docx文件本