项目开始
Step1:创建存储数据表
此处使用本地postgresql数据库:
createtableifnotexistsfunds.tt_web_fund_list(
code text,
nametext,
unitnetworthtext,
unitnet_daytext,
dayofgrowthtext,
recent1weektext,
recent1monthtext,
recent3monthtext,
recent6monthtext,
recent1yeartext,
recent2yeartext,
recent3yeartext,
fromthisyeartext,
frombuildtext,
servicechargetext,
upenoughamounttext
)
Step2:创建爬虫项目
可选择WindowsPowerShell进入系统命令行,跳转到Python爬虫项目路径,新建一个爬虫项目,代码如下:
scrapystartprojectfunds
通过pycharm打开爬虫项目文件夹,发现如图:
Step3:分析网站接口
天天基金网偏股型基金的页面:
谷歌浏览器按F12,进入网站debug分析;点击Network,翻找左边的url列表,根据右边的Reponse内容,找到正确的数据url,如下所示。(因为这些数据都已经是结构化的,可基于ajax直接通过API接口调用获取。如果没有,就只能自己写xpath正则匹配)
点击header,RequestURL就是我们爬虫需要请求的地址,我发现的接口地址是: