python爬虫爬取天天基金网基金数据 - 新生儿肠扭转

TUhjnbcbe - 2020/12/18 16:15:00

诺斯说，“人类社会只有发明了发明的方法之后才能发展。”这个方法就是科学的思维。投资也只有选择正确的方法，走到正确的道路上，才能够成功。最近构建FOF投资组合，基金数据分析是第一步。文末可留言交流建议哦。Zorro

项目开始

Step1：创建存储数据表

此处使用本地postgresql数据库：

createtableifnotexistsfunds.tt_web_fund_list(

　　code　　　　text,

　　nametext,

　　unitnetworthtext,

　　unitnet_daytext,

　　dayofgrowthtext,

　　recent1weektext,

　　recent1monthtext,

　　recent3monthtext,

　　recent6monthtext,

　　recent1yeartext,

　　recent2yeartext,

　　recent3yeartext,

　　fromthisyeartext,

　　frombuildtext,

　　servicechargetext,

　　upenoughamounttext

)

Step2：创建爬虫项目

可选择WindowsPowerShell进入系统命令行，跳转到Python爬虫项目路径，新建一个爬虫项目，代码如下：

scrapystartprojectfunds

通过pycharm打开爬虫项目文件夹，发现如图：

Step3：分析网站接口

天天基金网偏股型基金的页面：

谷歌浏览器按F12，进入网站debug分析；点击Network，翻找左边的url列表，根据右边的Reponse内容，找到正确的数据url，如下所示。（因为这些数据都已经是结构化的，可基于ajax直接通过API接口调用获取。如果没有，就只能自己写xpath正则匹配）

点击header，RequestURL就是我们爬虫需要请求的地址，我发现的接口地址是：