我有一个这样的数据帧
已经服用了12天,60毫克百忧解4年
1 I feel the best I have felt in years.
2 "I have taken for over 7 years.
3 I slept 2 hours".
4 IT SAVED MY LIFE
5 IT SAVED MY LIFE"
然后我想把它们连接在一个数组中。问题是可能有一些句子重复,但我仍然想保留所有句子,因此结果将是:
["I feel the best I have felt in years", "I have taken for over 7 years." , "I slept 2 hours." , "IT SAVED MY LIFE" , "IT SAVED MY LIFE"]
我尝试了这个链接和这个都在r。
我也尝试过这种方法:
dfsent.groupby(['sentences']).apply(','.join)
但是由于我的数据帧中的一些行是重复的,它只给我其中的一个。在我的例子中,返回我这个:
["I feel the best I have felt in years", "I have taken for over 7 years." , "I slept 2 hours." , "IT SAVED MY LIFE" ]
提前感谢:)
如果您只想在Pandas dataframe中生成列中所有值(唯一或不唯一)的列表,那么更简单的方法是使用。tolist()
方法。
所以,dfsent['句]。tolist()
将产生所需的输出。
我需要将两个数据帧和一个接一个地连接起来,它们具有相同的行数(),而不考虑任何键。此函数类似于
我如何获得所有列没有一个特定的? 示例:如果我有一个包含n列的dataframe、、...,如何获得没有的所有列?
我有一个熊猫数据框,看起来像这样。 我想确定猫和蝙蝠是重复的相同值,因此想删除一条记录,只保留第一条记录。所得到的数据帧应该只具有。
我试图通过保持行之间的一致性来随机化我的行,但会混淆行的顺序,从而随机化从属变量。我有以下数据帧: 并将行随机化: 然后执行重置索引,如 期望输出:
假设熊猫数据帧如下所示: 如何将第三行(如row3)提取为pd数据帧?换句话说,row3.shape应该是(1,5),row3.head()应该是:
问题内容: 我有一个大的数据框(几百万行)。 我希望能够对它进行分组操作,而只是按行的任意连续(最好大小相等)的子集进行分组,而不是使用各个行的任何特定属性来确定它们要进入的组。 用例:我想通过IPython中的并行映射将函数应用于每一行。哪行进入哪个后端引擎都没有关系,因为该函数一次基于一行来计算结果。(至少在概念上;实际上是矢量化的。) 我想出了这样的东西: 但这似乎很漫长,并且不能保证大小相