我有一个来自excel电子表格的数据框,其中我找到了每个域出现的频率。我想添加域频率计数到它的相应域。
index domain extractor Frequency
0 linkedin.com skipped 2
1 facebook.com skipped 5
2 hi5.com skipped 1
....
下面是查找频率并尝试将其添加到相应域的代码。
cnt = Counter()
for row_index, row in df.iterrows():
cnt[row['domain']] += 1
for i in cnt:
frequency = cnt
if i in row['domain']:
df['Frequency'] = df.loc[:(cnt[i])]
当我从数据帧打印出频率时:
Index url Frequency
0 https://www.linkedin.com/in/dgerstenblatt 0
1 http://www.linkedin.com/in/darren-cfbs-5465872 1
2 http://www.hi5.com/friend/p39168004--profile--... 2
3 http://license.reg.state.ma.us/pubLic/pubLicen... 3
4 http://license.reg.state.ma.us/pubLic/pubLicen... 4
5 http://profiles.friendster.com/3523606 5
6 http://www.lenoxadvisors.com/biographies/darre... NaN
7 http://10digits.us/n/Darren_Gerstenblatt/Newto... NaN
8 http://www.facebook.com/people/_/692786728 NaN
正如尼哈尔所说,这是正确的解决方案。stackoverflow.com/q/22391433/1005215
很容易将列表列表转换为数据帧: 但是我如何将df转换回列表列表呢?
问题内容: 将空列添加到pandas对象的最简单方法是什么?我偶然发现的最好的东西是 有没有那么不合常理的方法? 问题答案: 如果我理解正确,则应填写作业:
问题内容: 我试图基于一个的数据创建“ n” 。我正在检查in的Integer值,并循环执行sql语句以创建与列中一样多的“ n” 。 这是我的代码: 我需要创建“ n”,但我不知道如何在循环之前声明类型并在for内填充。 现有数据类型: 新的数据类型: 问题答案: 您可以创建一个可变列表并填充它: 但是更好的方法(不使用可变数据结构)是将整数列表 映射 到DataFrames列表中:
问题内容: 我有一个形状为(X,Y)的Pandas数据框对象,如下所示: 还有一个形状为(X,Z)的numpy稀疏矩阵(CSC),看起来像这样 如何将矩阵中的内容添加到新命名列中的数据框中,以使数据框最终像这样: 请注意,数据框现在具有形状(X,Y + 1),并且矩阵中的行是数据框中的元素。 问题答案: import numpy as np import pandas as pd import s
我有一个如下的数据帧: 我想将其转换为如下内容: B中重复的值是列名称,其值在C列中。我希望它们是数据帧的列 事实上,数据集是通过展平一棵树创建的,其中有更多的列,每个列都是一个内部节点。第一列是根,C是叶 以下是我的一些尝试: 然而,它不起作用。
问题内容: 我想知道如何在Spark(Pyspark)中实现以下目标 初始数据框: 结果数据框: 我通常使用以下方法设法将新列“追加”到数据框: 但是,我不知道如何为新列实现这种“行移位”,以便新列具有上一行的字段值(如示例中所示)。我也无法在API文档中找到有关如何通过索引访问DF中特定行的任何内容。 任何帮助,将不胜感激。 问题答案: 您可以如下使用窗口功能 但是有一些重要的问题: 如果您需要