目的:获取腾讯社招这个页面的职位名称及超链接 职位类别 人数 地点和发布时间
要求:使用bs4进行解析,并把结果以json文件形式存储
注意:如果直接把python列表没有序列化为json数组,写入到json文件,会产生中文写不进去到文件,所以要序列化并进行utf-8编码后写入文件。
# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup as bs import json url = 'https://hr.tencent.com/position.php?' params = { 'start':'10' } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } # 获取腾讯社招某个页面的页面源码 html = requests.get(url, params = params, headers = headers).text # 创建soup对象,使用lxml解析器 soup = bs(html,'lxml') # 选取类名为odd和even的tr标签 result1 = soup.select('tr[class="odd"]') result2 = soup.select('tr[class="even"]') # 列表拼接 l = [1,2] + [3,4],则列表l为[1,2,3,4] result = result1 + result2 # 把数据存放在列表里面,列表的每个元素都为一个字典 l = [] data = {} for item in result: # 获取标签的文本内容 job = item.find_all('a')[0].get_text().encode('utf-8') category = item.find_all('td')[1].get_text().encode('utf-8') number = item.find_all('td')[2].get_text().encode('utf-8') address = item.find_all('td')[3].get_text().encode('utf-8') public_time = item.find_all('td')[4].get_text().encode('utf-8') # 获取标签的属性值 link = item.find_all('a')[0].attrs['href'] fulllink = ('https://hr.tencent.com/' + link).encode('utf-8') data['job'] = job data['category'] = category data['number'] = number data['address'] = address data['public_time'] = public_time data['fulllink'] = fulllink l.append(data) # 原来中文写不到文件里面的报错原因,没把python列表序列化为json数组 # with open('tencent.json','a') as f: # f.write(str(data) + '\n') # 方法1存储数据,上面字典的值不用先进行utf-8编码 # 把数据以json文件形式存储 # f = open('tencent.json','a') # 把python列表序转化为json对象。本地操作常用的是load dump。网络操作常用的loads dumps,而loads常用来把json格式转化为python格式,dumps把python格式序列为json格式 # dictdata = json.dumps(l,ensure_ascii=False) # 把json对象写入json文件 # f.write(dictdata.encode('utf-8')) # f.close() # 把数据存入tencent.json文件内 json.dump(l,open('tencent.json','a'),ensure_ascii=False)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。
2023.03.14晚,腾讯会议后台开发工程师社招岗位。一共就问3个问题,算法题就占了快40分钟,不晓得是直接菜还是刷KPI,面完没一会就收到凉了的短信了,晚上觉都没睡好=_=。 自我评价:算是感受了一下大厂面试的氛围吧,感觉要进大厂要么是学历或者工作的公司过硬,要么是项目面试能说的很牛 🔥1. 凉经 🔥1. 凉经 介绍你项目中排查OOM的经历:结合实际项目说了下,从告警到结合日志到dum
腾讯是产品经理梦想中的黄埔军校,大家总想去试试看,体验一下产品经理的正规战,感受下大厂氛围。 之前因为个人经历更偏零售、电商、生活服务等,导致没有机会跟腾讯业务沾上边。 现在进入所谓的互联网下半场,腾讯逐步开启B端业务,比如CSIG事业群,才略微有机会去看。 腾讯是找朋友推荐,找了一个之前研究生同学。我比较尴尬,毕竟好几年没有联系,一联系就上门找人帮忙。 朋友有时还需要多互动下,不要等用到他人时才
我们以 亚马逊Kindle电子书销售排行榜 商品页面来做演示:https://www.amazon.cn/gp/bestsellers/digital-text/116169071 使用BeautifuSoup4解析器,将每件商品的的ASIN、标题、价格、star、评价数量,以及每件商品的链接爬取下来并存储在.csv文件中。 import csv import requests from
#软件开发笔面经#
面试过程: 1.介绍一下你自己,不能说简历里的。讲下工作中和生活中的兴趣爱好,和目前短期和长期的计划 2.为什么在a地这家公司做了四年,要回b地 3.用例设计:微信聊天界面,只考虑文字、语音、视频 发送,设计测试用例 4.性能测试怎么做的?接口测试怎么做的? 5.用什么压测?怎么压的?压测的全流程 6.qps是什么2p?tps是什么?他们两的区别 7.用fiddler和 wireshake 做什么
一面(60min)线上面 自我介绍 如果出了一个游戏内最牛逼的道具,怎么利用赛事宣传 社区运营,包装一个KOL领袖怎么做 赛事社区如何起步 赛事社区与官方社区如何做区分,内容如何不重合,侧重点发什么,官方社区在哪个平台 如何管理外团,如何做选手包装赛事排期 之前赛事运营的经验主要负责什么内容 各个社媒平台特点,如何做 B站和抖音的社媒矩阵有什么区别,哪个更适合做主要社区,两个投放有什么区别 英雄联