我试图从一个网站上为我的项目收集数据。但是问题是我没有在我的输出中得到我在我的开发者工具栏屏幕中看到的标签。以下是我想从其中抓取数据的DOM的快照:
<div class="bigContainer">
<!-- ngIf: products.grid_layout.length > 0 --><div ng-if="products.grid_layout.length > 0">
<div class="fl">
<!-- ngRepeat: product in products.grid_layout --><!-- ngIf: $index%3==0 -->
<div ng-repeat="product in products.grid_layout" ng-if="$index%3==0" class="GridItems">
<grid-item product="product" gakey="ga_key" idx="$index" ancestors="products.ancestors" is-search-item="isSearchItem" is-filter="isFilter">
<a ng-href="/shop/p/nokia-lumia-930-black-MOBNOKIA-LUMIA-SRI-673652FB190B4?psearch=organic|undefined|lumia 930|grid" ng-click="searchProductTrack(product, idx+1)" tabindex="0" href="/shop/p/nokia-lumia-930-black-MOBNOKIA-LUMIA-SRI-673652FB190B4?psearch=organic|undefined|lumia 930|grid" class="" style="">
</grid-item>
我能够获得类为“bigContainer”的div标记,但是我不能在这个标记中刮取标记。例如,如果我想得到网格项标记,我得到了一个空列表,这意味着它表明没有这样的标记。为什么会这样?请帮忙!!
您可以使用“用户代理”获取完整的数据。试试这样的
documentdoc=Jsoup。连接(url)。用户代理(“Mozilla/5.0(Windows NT 6.1;WOW64;rv:5.0)Gecko/20100101 Firefox/5.0”)。超时(10*1000)。get()
您可以使用底层web api提取网格项细节,这些细节由angularJS javascript框架呈现,因此HTML不是静态的。
解析的一种方法是使用selenium获取数据,但是使用浏览器的开发工具识别web api非常简单。
编辑:我在firefox中使用firebug插件来查看从“Net tab”发出的GET请求
页面的GET请求是:
https://catalog.paytm.com/v1//g/electronics/mobile-accessories/mobiles/smart-phones?page_count=1
它返回了一个回调JS脚本,几乎完全是JSON数据。
它返回的JSON包含网格项的详细信息
每个网格项都被描述为一个json对象,如下所示:
{
"product_id": 23491960,
"complex_product_id": 7287171,
"name": "Samsung Galaxy Z1 (Black)",
"short_desc": "",
"bullet_points": {
"salient_feature": ["Screen: 10.16 cm (4\")", "Camera: 3.1 MP Rear/VGA Front", "RAM: 768 MB", "ROM: 4 GB", "Dual-core 1.2 GHz Cortex-A7", "Battery: 1500 mAh/Li-Ion"]
},
"url": "https://catalog.paytm.com/v1/p/samsung-z1-black-MOBSAMSUNG-Z1-BSMAR2320696B3C745",
"seourl": "https://catalog.paytm.com/v1/p/samsung-z1-black-MOBSAMSUNG-Z1-BSMAR2320696B3C745",
"url_type": "product",
"promo_text": null,
"image_url": "https://assetscdn.paytm.com/images/catalog/product/M/MO/MOBSAMSUNG-Z1-BSMAR2320696B3C745/2.jpg",
"vertical_id": 18,
"vertical_label": "Mobile",
"offer_price": 5090,
"actual_price": 5799,
"merchant_name": "SMARTBUY",
"authorised_merchant": false,
"stock": true,
"brand": "Samsung",
"tag": "+5% Cashback",
"product_tag": "+5% Cashback",
"shippable": true,
"created_at": "2015-09-17T08:28:25.000Z",
"updated_at": "2015-12-29T05:55:29.000Z",
"img_width": 400,
"img_height": 400,
"discount": "12"
}
所以你可以得到的细节,甚至不使用美丽的汤在下面的方式。
import requests
import json
response = requests.get("https://catalog.paytm.com/v1//g/electronics/mobile-accessories/mobiles/smart-phones?page_count=1&items_per_page=30&resolution=960x720&quality=high&sort_popular=1&cat_tree=1&callback=angular.callbacks._3&channel=web&version=2")
jsonResponse = ((response.text.split('angular.callbacks._3('))[1].split(');')[0])
data = json.loads(jsonResponse)
print(data["grid_layout"])
grid_data = data["grid_layout"]
for grid_item in grid_data:
print("Brand:", grid_item["brand"])
print("Product Name:", grid_item["name"])
print("Current Price: Rs", grid_item["offer_price"])
print("==================")
你会得到这样的输出
Brand: Samsung
Product Name: Samsung Galaxy Z1 (Black)
Current Price: Rs 4990
==================
Brand: Samsung
Product Name: Samsung Galaxy A7 (Gold)
Current Price: Rs 22947
==================
希望这有帮助。
下面是一个网络刮刀,它用漂亮的汤从这个网站上刮出一个团队名单。每一列数据都被放入一个数组,然后循环到一个CSV文件中。我想刮掉团队名称(代码中的“团队”),但我正在努力将元标记(见下文的html代码)合并到我的CSV写入器循环中。 我认为问题在于“Team”数组中的值长度与其他列中的值长度不匹配。例如,我当前的代码打印的数组如下所示: 但我需要团队数组(最后一个数组)匹配前两个数组的长度,如下所示
我已经成功地编写了从第一页抓取数据的代码,现在我不得不在这段代码中编写一个循环来抓取下一个“n”页。下面是代码 如果有人能指导/帮助我编写代码,从剩余页面中提取数据,我将不胜感激。 谢谢
考虑一下这段代码: 它只打印“divTag” 更新: 我基本上想在'a'标签中提取“字符串”值。
问题内容: 我正在尝试使用BeautifulSoup从网页中提取表格的HTML代码。 我想知道为什么下面的代码可以与一起使用,如果我更改为,则可以打印回去。 问题答案: 文档中有一个特殊的段落,称为“解析器之间的差异”,其中指出: Beautiful Soup为许多不同的解析器提供了相同的接口,但是每个解析器都是不同的。不同的解析器将从同一文档创建不同的解析树。最大的区别在于HTML解析器和XML
我试图抓取这个网站:https://www.senate.gov/general/contact_information/senators_cfm.cfm 我的代码: 问题是它实际上并没有到达网站。我在soup var中得到的HTML根本不是正确网页中的HTML。 我不知道从这里去哪里!任何和所有的帮助都将不胜感激。
问题内容: 我正在尝试从Google搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“ class = r”。第一个结果如下所示: 要提取“ href”,我要做: 但是我意外地得到: 我想要的地方: 属性“ ping”似乎使它感到困惑。有任何想法吗? 问题答案: 发生了什么? 如果您打印响应内容(即),则会看到您得到的HTML完全不同。页面源和响应内容不匹配。 因为内容是动态加载的,所以 不