pandas读取nlp_chinese_corpus里面的json类型的数据,一行一个字典的数据

满俊楠
2023-12-01

最近在用pandas来读取json类型的数据,发现网上资料居然没查到,我这里弥补一下空缺,读取的json数据示例为:

{"qid": "qid_1815059893214501395", "category": "烦恼-恋爱", "title": "请问深入骨髓地喜欢一个人怎么办我不能确定对方是不是喜欢我,我却想 ", "desc": "我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点", "answer": "一定要告诉他你很喜欢他 很爱他!!  虽然不知道你和他现在的关系是什么!但如果真的觉得很喜欢就向他表白啊!!起码你努力过了!  女生主动多少占一点优势的!!呵呵  只愿曾经拥有!  到以后就算感情没现在这么强烈了也不会觉得遗憾啊~!  与其每天那么痛苦的想他 恋他 还不如直接告诉他 !  不要怕回破坏你们现有的感情!因为如果不告诉他  你可能回后悔一辈子!!  "}
{"qid": "qid_2063849676113062517", "category": "游戏-完美游戏-诛仙", "title": "我登陆诛仙2时总说我账号密码错误,但是我打的是正确的,就算不对我? ", "desc": "", "answer": "被盗号了~我的号在22号那天被盗了,跟你一样情况,link密码与账号错误,我密保都有了呐,邮箱换密码也不行,还被删了号,伤心兼郁闷,呵呵,盗号了。建议跟完美申请把号要回来,或者玩新的号!"}

一行一个字典的形式这样,读取代码如下:

import pandas as pd
file_path = 'baike_qa_valid.json'
data = pd.read_json(file_path,orient='records',lines=True)

示例数据集可以从https://github.com/brightmart/nlp_chinese_corpus上进行下载。使用的是百科类问答json版。

 类似资料: