Ruby学习持续进行中
看到业务人员不停的在Ctrl+c与Ctrl+v,还是把固定格式的淘宝搜索结果加入到excel表格中。
还好每人分了几个类目,不过也够浪费体力的了。
我虽然很懒,但也忍不住了,直接叫停,写了点 "日本码" 解决此懒。
ps: 每次打 'rb' ,输入法总出现 '日本' ,不知道是不是ruby故意的,正好拼音 r b。
#parseHTML.rb
#endode:utf-8
# 2010.6.13 @ spring by Apanda
# ver= 1.0 r
=begin
程序用途:
解析淘宝搜索店铺的结果数据并储存为 csv文件
一次可以截取多个搜索结果地址
本工具使用方法:
1.建立一个list.txt的文件,里面存放淘宝搜索结果页面的地址 如下是商城食品类目搜索结果页:
http://shopsearch.taobao.com/browse/shop_search.htm?cat=50002766&title=title&nick=nick&filterShopType1=1&s=40&stat=4
http://shopsearch.taobao.com/browse/shop_search.htm?cat=50002766&title=title&nick=nick&filterShopType1=1&s=40&stat=4
将地址每行一个的方式保存好。
2.将该程序文件parseHTML.rb 和list.txt保存在同一个文件夹中,运行 ruby parseHTML.rb ,在同一文件夹下出现 taobao.csv文件
技巧:按类目分别建立不同的文件夹,这样后续可以从新获取最新的搜索结果。
taobao
| - 食品
| | - list.txt
| | - parseHTML.rb
|
| - 服装
| | - list.txt
| | - parseHTML.rb
....
=end
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'iconv'
require 'fastercsv'
def write(data,name)
FasterCSV.open(name, "w") do |csv|
data.each{|line|
csv << line
#["row", "of", "CSV", "data"]
}
end
end
def conv(str)
Iconv.iconv("GBK//IGNORE", "UTF-8//IGNORE", str.to_s)
end
def parse(doc)
shops= Array.new
doc.css('table#item-matched tbody tr').each do |tr|
#店铺名称
shopName=conv tr.css('td.thumb div a')[0]['title']
#店铺地址
shopUrl=tr.css('td.thumb div a')[0]['href'].strip
#主营产品
desc=conv tr.css('td.thumb dl dd p')[0].css('a').text.collect{|line| line.strip}
#消费者服务 baozhang
service=[]
tr.css('td.thumb dl dd p ins').each do |sevr|
service << conv(sevr['title'])
end
baozhang=service.join(',')
#宝贝数量
total = tr.css('p.amount span')[0].content.strip
#旺旺名称
wangwang=conv tr.css('p.nick a')[0].content.strip
#是否商城
mall=tr.css('ins.service-mall').length > 0 ? "商城" : "个人"
#地区
diqu =conv tr.css('td')[3].css('p')[0].content.strip
#店铺级别
level=tr.css('td')[4].css('p')[0]
if level.css('a').length > 0
level = conv level.css('a')[0]['title']
else
level = conv level.content.strip
end
#puts "店铺:#{shopName}\n地区:#{diqu}\n店铺等级:#{mall}/#{level}\n主营:#{desc}\n地址:#{shopUrl}\n宝贝数量:#{total}\n消费者服务:#{baozhang}\n旺旺名称:#{wangwang}\n"
#puts "----------------------------------------"
shops << [shopName,diqu,wangwang,mall,level,desc,shopUrl,total,baozhang]
end
shops
end
db = Array.new
File.readlines("list.txt").each do |row|
url=conv(row).to_s
puts url
doc = Nokogiri::HTML(open(url))
db.concat(parse(doc))
end
write(db,"taobao.csv")
puts db.length
分享到:
相关推荐
单页的淘宝客程序 可以自己添加商品,手动添加,单页量少,小空间仍然可以用
如果你用智能手机并安装支付宝软件后,上淘宝搜索你想购买的图书名称,所有出售该图书的店铺便会呈现在你的眼前。这样,不用出家门,几天后你就可以拿到这本崭新的图书,价格上还能打折呢,真是既方便又实惠。 智能...
微商城,推广二维码,微支付,并且有拼团,砍价,淘宝采集,全球分红,一元云购,小票云打印,虚拟团购,公排,秒杀,众筹,家电安装,附近店铺等实用插件,且不断随市场更新,版本覆盖 PC,手机,公众号,小程序等...
8、支持电脑PC端、手机端(微信端)、微信小程序、支付宝小程序、头条抖音小程序、百度小程序 LaiKe全场景电商系统功能列表 1. 产品管理(产品分类管理、产品品牌管理、产品列表管理) 2. 订单管理(订单列表、...
12、修复卷皮网采集店铺类型出错问题,原来采集的店铺都显示的的“淘宝网”,已经修复自动识别商品是淘宝还是天猫商城。 13、修复淘牛品U站采集采集图片部分太大不显示,以及店铺类型出错问题,同上。 14、修复采集...
流量神灯淘宝手机端流量收藏互助软件是一款专业的刷单流量软件。软件以淘宝天猫流量为核心,通过网络互访,共同贡献,共同分享的原理。能够实现利用所用软件用户进行网络互访,共同贡献,共同分享的原理;由于用户的...
12、修复卷皮网采集店铺类型出错问题,原来采集的店铺都显示的的“淘宝网”,已经修复自动识别商品是淘宝还是天猫商城。 13、修复淘牛品U站采集采集图片部分太大不显示,以及店铺类型出错问题,同上。 14、修复采集...
添加新的商品、查看修改商品、快捷管理商品、快捷商品规格、商品分类管理、快捷商品分类、商品默认设置、商品品牌管理、DIY大类管理、DIY小类管理、批量导入导出商品excel数据、详细内容图片、管理商品图片、淘宝...
适用于五金配件、日用品、士多店、电脑手机、电器家具、化妆品、保健品、奶粉专卖店、茶烟酒类、服装珠宝首饰等行业店铺使用。 软件支持进货挂账,欠款销售,批量结帐等方式,可用POS收银台、报价单、订单等方式...
综述:MiniVCap 是一款使用普通电脑摄像头做监控录像的软件,可用做店铺的监控录像。支持开机自动录像、后台隐身录像、同时多个摄像头录像,循环录像(磁盘空间循环利用),支持普通和高清两种画质模式,支持同步录音...
前端采用vue开发的uniapp框架,可发布到iOS、Android、H5、以及各种小程序(微信/支付宝/百度/头条/QQ/钉钉/淘宝)、快应用等多个平台。 fanqie_shop番茄社区多门店系统功能特点: 一、首页排版调整 通过后台菜单 ...
添加新的商品、查看修改商品、快捷管理商品、快捷商品规格、商品分类管理、快捷商品分类、商品默认设置、商品品牌管理、DIY大类管理、DIY小类管理、批量导入导出商品excel数据、详细内容图片、管理商品图片、淘宝...
61.js仿淘宝网鼠标经过缩略图放大图片效果的jQuery Fancy Hover Effect完整实例 62.Supersized jQuery全屏相册图片自动切换插件 63.[荐]jquery仿flash漂亮横向图片滚动效果完整版(兼容性非常好) 64.[荐]...