tyzw.net
当前位置:首页 >> sCrApy xpAth怎么捕捉下面的数据 >>

sCrApy xpAth怎么捕捉下面的数据

加上就好了嘛~ item['description'] = ["".join(app.select('./li//text()').extract_unquoted())] 如果需要/n换行的话 item['description'] = "".join(app.select('./li//text()').extract_unquoted()).split('\n') 可能还有一些细节问题。hack...

加上就好了嘛~ item['description'] = ["".join(app.select('./li//text()').extract_unquoted())] 如果需要/n换行的话 item['description'] = "".join(app.select('./li//text()').extract_unquoted()).split('\n') 可能还有一些细节问题。

xpath 如果返回的是多个元素的话,比如你这里就是多个 那就要用到循环 content=""for selector in sel.xpath('//div[@class="document"]//p'): content=content+ selector.xpath("/text()").e

加上就好了嘛~ item['description'] = ["".join(app.select('./li//text()').extract_unquoted())] 如果需要/n换行的话 item['description'] = "".join(app.select('./li//text()').extract_unquoted()).split('\n') 可能还有一些细节问题。hack...

你的全部文本是什么意思呢?如果你是要获取html所有标签内的文字的话,就用//*/text(),不过不推荐用这个,还是指定内容效率,准确率要高的多

方法abc的定义你改成下面这样: class eee: def abc(self, b): b[1]=0; print b; 正常定义方法时都需要传入该类的对象作为参数。

这种可能包含等标签内容 ''.join(sel.xpath("//div[id='content']//text()").extract()) 这种可能漏掉类似等标签内容 ''.join(sel.xpath("//div[id='content']//p/text()").extract()) 这种差不多能获取到大部分你想要的了 ''.join(sel.xpath("/...

//div[@class="list-wrap"]//li/text()然后用循环,不然所有内容会混在一起。

xpath 如果返回的是多个元素的话,比如你这里就是多个 那就要用到循环 content=""for selector in sel.xpath('//div[@class="document"]//p'): content=content+ selector.xpath("/text()").e

使用scrapy抓取appanie数据,有如下问题。 2015-02-04 18:47:59+0800 [annie] DEBUG: Crawled (200) ; (referer: None) Feb 3, 2015 xpath取的格式如下

网站首页 | 网站地图
All rights reserved Powered by www.tyzw.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com