当前位置：首页 > 面试题库 >

Python从熊猫数据框中删除停用词

方昊阳

2023-03-14

问题内容：

我想从“ tweets”列中删除停用词。如何遍历每一行和每一项目？

pos_tweets = [('I love this car', 'positive'),
    ('This view is amazing', 'positive'),
    ('I feel great this morning', 'positive'),
    ('I am so excited about the concert', 'positive'),
    ('He is my best friend', 'positive')]

test = pd.DataFrame(pos_tweets)
test.columns = ["tweet","class"]
test["tweet"] = test["tweet"].str.lower().str.split()

from nltk.corpus import stopwords
stop = stopwords.words('english')

问题答案：

使用列表理解

test['tweet'].apply(lambda x: [item for item in x if item not in stop])

返回值：

0               [love, car]
1           [view, amazing]
2    [feel, great, morning]
3        [excited, concert]
4            [best, friend]

类似资料：

如何从熊猫数据框中删除行列表？

我有一个数据帧df：然后我想删除列表中指示的具有某些序列号的行，假设这里是然后离开：如何或什么功能可以做到这一点？
在熊猫数据框中删除全零的行

问题内容：我可以使用功能来删除将部分或全部列设置为的行。是否存在用于删除所有列的值为0的行的等效函数？在此示例中，我们要删除数据帧的前4行。谢谢！问题答案：事实证明，这可以向量化的方式很好地表达：
熊猫-从数据框中完全删除重复项[重复]

我想从熊猫数据框中完全删除重复的项目。例如，我有数据框：我要做的是在列中查找唯一的值，并删除所有重复的项。。因此，最终产品将如下所示（注意已消失）：谢谢。
如何在熊猫数据框中删除唯一行？

问题内容：我遇到了一个看似简单的问题：在熊猫数据框中删除唯一的行。基本上与的相反。假设这是我的数据：当A和B唯一时，我想删除行，即我只保留行1和2。我尝试了以下方法：但是我只能得到第2行，因为唯一性是0、1和3！问题答案：选择所有重复行的解决方案：您可以使用子集和参数来选择所有重复项：解决方案：对所有唯一行进行了一些修改的解决方案：
如何从熊猫数据框中的字符串项中删除数字

问题内容：我有一个类似于以下内容的数据框：我希望输出为以下格式：想要从“名称”列中删除所有数字。我最近来的是使用以下代码在单元级别进行的：任何想法如何在系列 / 数据框级别上以更好的方式实现。问题答案：您可以结合使用正则表达式将str.replace应用于列：输出：在正则表达式中代表“任何数字”，代表“一个或多个”。因此，其含义是：“将字符串中所有出现的数字全部替换
如何根据条件删除熊猫数据框中的列？

问题内容：我有一个熊猫DataFrame，里面有很多值。如何删除这样的列？我试图这样做：有更优雅的方法吗？问题答案：这是保留每列中小于或等于指定数量的nan的列的另一种选择：在我的测试中，这似乎比李建勋在我测试的案例中建议的放置列方法要快一些：

Python从熊猫数据框中删除停用词

相关阅读

相关文章

相关问答

相关工具

相关文档