当前位置：首页 > 面试题库 >

计算熊猫数据框中的不同单词

段干兴业

2023-03-14

问题内容：

我有一个Pandas数据框，其中一列包含文本。我想获得一列出现在整列中的唯一单词的列表（空格是唯一的拆分）。

import pandas as pd

r1=['My nickname is ft.jgt','Someone is going to my place']

df=pd.DataFrame(r1,columns=['text'])

输出应如下所示：

['my','nickname','is','ft.jgt','someone','going','to','place']

获得计数也没有什么坏处，但这不是必需的。

问题答案：

使用set来创建唯一元素的序列。

进行一些清理df以使小写字母的字符串分解：

df['text'].str.lower().str.split()
Out[43]: 
0             [my, nickname, is, ft.jgt]
1    [someone, is, going, to, my, place]

该列中的每个列表都可以传递给set.update函数以获取唯一值。使用apply这样做：

results = set()
df['text'].str.lower().str.split().apply(results.update)
print(results)

set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])

或与Counter()from注释一起使用：

from collections import Counter
results = Counter()
df['text'].str.lower().str.split().apply(results.update)
print(results)

类似资料：

计算熊猫数据框中某些单词的出现

问题内容：我想统计数据框中某些单词出现的次数。我知道使用“ str.contains” 目前，我正在使用上面的代码。是否有一种匹配正则表达式并获得出现次数的方法？就我而言，我有一个大的数据框，我想匹配大约100个字符串。问题答案：更新：原始答案计算包含子字符串的行。要计算子字符串的所有出现次数，可以使用：该方法接受正则表达式：例如：要计算出现的次数，您可以对布尔系列求和：
熊猫总计数不同

问题内容：假设我有一个用户活动日志，我想生成一个总持续时间和每天唯一身份用户数量的报告。汇总持续时间非常简单：我想做的是同时计算持续时间并计算不重复次数，但我似乎找不到count_distinct的等效项：这可行，但是肯定有更好的方法，不是吗？我在想，我只需要提供一个将Series对象的不同项目的计数返回给聚合函数的函数，但是我对各种库的接触并不多。另外，似乎groupby对象已经知道此
将计算出的列添加到熊猫数据框中

问题内容：我有一个OHLC价格数据集，该数据集已从CSV解析为Pandas数据框，并重新采样为15分钟的柱形：我想添加各种计算的列，从简单的列开始，例如期间范围（HL），然后是布尔值以指示我将定义的价格模式的出现-例如锤形蜡烛模式，为其定义示例：基本问题：如何将函数映射到列，特别是在我想引用多个其他列或整行或其他内容的地方？这篇文章处理从单个源列添加两个计算列，这是很接近的，但还不完全是。
使用熊猫/数据框计算加权平均值

问题内容：我有下表。我想根据以下公式计算按每个日期分组的加权平均值。我可以使用一些标准的常规代码来执行此操作，但是假设此数据在pandas数据框中，是否有比通过迭代更简单的方法来实现此目的？ 2012年1月1日w_avg = 0.5 （60 / sum（60,80,100））+ .75 （80 / sum（60,80,100））+ 1.0 *（100 / sum（60,80,100）） 2012
熊猫数据框中的列到行

我想使用两列作为行ID，同时计算基于时间的分组。请看下图：转化成这样：正在发生的是，X在时间10发生了0次，但在15和23发生了1次。 Y在10点钟发生了3次，但在15和23没有。等等。
熊猫返回不在其他数据框中的数据框中的列

问题内容：我有两个看起来像这样的数据框：现在，如果我利用pandas .isin函数，我可以做一些漂亮的事情列和from存在于while中不我的问题是：是否有人知道为df_2中但不存在于df_1中的列返回列标签的方法像这样的东西先感谢您！问题答案：熊猫索引对象具有类似集合的属性，因此您可以直接执行以下操作：您还可以使用运算符来计算交集，并集和对称差：过去存在差异的运算符，现已弃

相关阅读

熊猫返回不在其他数据框中的数据框中的列熊猫数据框创建新列并填充来自同一df的计算值如何跨熊猫的多个数据框列“选择不同”？堆叠数据框列（熊猫）python中的模块化算法来迭代熊猫数据框

相关文章

Tableau计算 kafka的数据结构和算法数据库设计步骤数据库设计概述 ionic 单选框

相关问答

从不同的数据帧更新/替换熊猫熊猫与aggfuncpivot_table在几乎不同的数据上工作不同 Groupby和熊猫计数插入一行到熊猫数据框如何修改熊猫数据框的一个“单元格”中的值？

相关工具

熊猫Flash播放器 Tiny分布式计算框架 Axiom计算机代数系统数据库处理框架 Flurry统计数据ANE

相关文档

Porter 数据同步中间件数据挖掘算法数据结构和算法小米函数计算开发文档数据挖掘十大算法