当前位置: 首页 > 软件库 > 其他开源 > >

chinese-poetry

中华古典文集数据库
授权协议 MIT
开发语言 Python
所属分类 其他开源
软件类型 开源软件
地区 国产
投 递 者 薛焱
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.

为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝, 我们应该传承下去, 虽然有古典文集, 但大多数人并没有拥有这些书籍. 从某种意义上来说, 这些庞大的文集离我们是有一定距离的。而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你.

古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析.

数据分析

一些简单的高频分析

唐诗高频词 唐诗作者作品榜
宋诗高频词 宋诗作者作品榜
宋词高频词 宋词作者作品榜
两宋喜欢的词牌名

数据分发形式

古诗数据分发采用繁体字的分组JSON文件, 保留繁体能更大程度地保存原数据. 宋词数据分发采用sqlite数据库, 使用简体字(无原因, 采集源就是简体, 如需繁体请自行转换).

其他类型结构数据

转换数据库格式工具

古诗JSON结构

[
  {
    "strains": [
      "平平平仄仄,平仄仄平平。",
      "仄仄平平仄,平平仄仄平。",
      "平平平仄仄,平仄仄平平。",
      "平仄仄平仄,平平仄仄平。"
    ],
    "author": "太宗皇帝",
    "paragraphs": [
      "秦川雄帝宅,函谷壯皇居。",
      "綺殿千尋起,離宮百雉餘。",
      "連甍遙接漢,飛觀迥凌虛。",
      "雲日隱層闕,風煙出綺疎。"
    ],
    "title": "帝京篇十首 一"
  },
  ... 每单个JSON文件1000条唐诗记录.
]

 

作者JSON结构

[
  {
    "name": "太宗皇帝",
    "desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"
  },
  ...
]
 相关资料
  • 古典的色彩组合带有势力与权威的意味,强烈的宝蓝色(royal blue)是任何一个古典色彩组合的中间装饰色。它是如此地醒目,就算和其它的色彩搭配在一起,也毫不会逊色。古典的色彩组合表示真理、责任与信赖。又因为它接近绿色,宝蓝色会唤起人持久、稳定与力量的感觉,特别是和它的分裂补色——红橙和黄橙色搭配在一起。 补色色彩组合 原色色彩组合 单色色彩组合 21 69 20 68 4 36 68 67 70

  • poetry 是一个包管理和打包的工具。 在 Python 中,对于初学者来说,打包系统和依赖管理是非常复杂和难懂的。即使对于经验丰富的开发者,一个项目总是要同时创建多个文件: `setup.py` ,`requirements.txt`,`setup.cfg` , `MANIFEST.in` ,还有最新的 `Pipfile`。 基于此, poetry 将所有的配置都放置在一个 toml 文件中,

  • 给定文档结构: 如何按其分组并仅在计数处获取 使用下面的查询没有返回任何结果。谁能指出这里缺少了什么吗? 谢谢

  • 我需要从不同的字典中创建一个熊猫数据框架,其中键必须作为数据框架内的列名。如果数据帧没有将键列为列,则必须动态创建键,并将其作为新列附加到数据帧。 我希望输入为, 输出应该是,, 循环的第一次迭代将键作为数据框的列名称,如果没有数据框,则创建值作为第一行的数据框。 第二次迭代检查键是否作为列出现在数据帧中,如果已经出现则插入,否则创建列并插入值作为第二行。 我确实不知道如何在python中动态运行

  • 6.1 字典 字典是一种以键- 值对形式存储数据的数据结构,就像电话号码簿里的名字和电话号码一 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>字典sample</title> </head> <body> <script> function Dictionary(){ this.ad

  • 问题内容: 我在Python项目源代码中有一个字典,描述了默认配置值。字典很长。我想在Sphinx文档中以除“查看源代码”之外的其他格式查看字典,以便人们可以快速检查默认值。 当与Sphinx autodoc一起使用时,Sphinx是否提供选项来格式化类似于字典的变量以实现人类可读的格式?我目前正在使用转储整个模块,并将字典作为文档中的一个长字符串转储(没有换行符,漂亮的打印内容,任何东西)来获取