最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.
为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝, 我们应该传承下去, 虽然有古典文集, 但大多数人并没有拥有这些书籍. 从某种意义上来说, 这些庞大的文集离我们是有一定距离的。而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你.
古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析.
一些简单的高频分析
唐诗高频词 | 唐诗作者作品榜 |
---|---|
![]() |
![]() |
宋诗高频词 | 宋诗作者作品榜 |
![]() |
![]() |
宋词高频词 | 宋词作者作品榜 |
![]() |
![]() |
两宋喜欢的词牌名 |
---|
![]() |
古诗数据分发采用繁体字的分组JSON文件, 保留繁体能更大程度地保存原数据. 宋词数据分发采用sqlite数据库, 使用简体字(无原因, 采集源就是简体, 如需繁体请自行转换).
chinese-poetry / chinese-poetry-zhCN 简体中文版本数据
KomaBeyond / chinese-poetry-mysql 适用于mysql数据库的格式数据
chinese-poetry-to-mysql-tool 转换成sql文件的脚本
[ { "strains": [ "平平平仄仄,平仄仄平平。", "仄仄平平仄,平平仄仄平。", "平平平仄仄,平仄仄平平。", "平仄仄平仄,平平仄仄平。" ], "author": "太宗皇帝", "paragraphs": [ "秦川雄帝宅,函谷壯皇居。", "綺殿千尋起,離宮百雉餘。", "連甍遙接漢,飛觀迥凌虛。", "雲日隱層闕,風煙出綺疎。" ], "title": "帝京篇十首 一" }, ... 每单个JSON文件1000条唐诗记录. ]
[ { "name": "太宗皇帝", "desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。" }, ... ]
/** * Author: koma * Date: 10/7/18 */ set_time_limit(0); $poetryBasePath = "/data/opensource/chinese-poetry"; $poetryDataPath = $poetryBasePath."/json"; $poemsDataPath = $poetryBasePath."/ci"; $lunyuD
古典的色彩组合带有势力与权威的意味,强烈的宝蓝色(royal blue)是任何一个古典色彩组合的中间装饰色。它是如此地醒目,就算和其它的色彩搭配在一起,也毫不会逊色。古典的色彩组合表示真理、责任与信赖。又因为它接近绿色,宝蓝色会唤起人持久、稳定与力量的感觉,特别是和它的分裂补色——红橙和黄橙色搭配在一起。 补色色彩组合 原色色彩组合 单色色彩组合 21 69 20 68 4 36 68 67 70
poetry 是一个包管理和打包的工具。 在 Python 中,对于初学者来说,打包系统和依赖管理是非常复杂和难懂的。即使对于经验丰富的开发者,一个项目总是要同时创建多个文件: `setup.py` ,`requirements.txt`,`setup.cfg` , `MANIFEST.in` ,还有最新的 `Pipfile`。 基于此, poetry 将所有的配置都放置在一个 toml 文件中,
给定文档结构: 如何按其分组并仅在计数处获取 使用下面的查询没有返回任何结果。谁能指出这里缺少了什么吗? 谢谢
我需要从不同的字典中创建一个熊猫数据框架,其中键必须作为数据框架内的列名。如果数据帧没有将键列为列,则必须动态创建键,并将其作为新列附加到数据帧。 我希望输入为, 输出应该是,, 循环的第一次迭代将键作为数据框的列名称,如果没有数据框,则创建值作为第一行的数据框。 第二次迭代检查键是否作为列出现在数据帧中,如果已经出现则插入,否则创建列并插入值作为第二行。 我确实不知道如何在python中动态运行
6.1 字典 字典是一种以键- 值对形式存储数据的数据结构,就像电话号码簿里的名字和电话号码一 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>字典sample</title> </head> <body> <script> function Dictionary(){ this.ad
问题内容: 我在Python项目源代码中有一个字典,描述了默认配置值。字典很长。我想在Sphinx文档中以除“查看源代码”之外的其他格式查看字典,以便人们可以快速检查默认值。 当与Sphinx autodoc一起使用时,Sphinx是否提供选项来格式化类似于字典的变量以实现人类可读的格式?我目前正在使用转储整个模块,并将字典作为文档中的一个长字符串转储(没有换行符,漂亮的打印内容,任何东西)来获取