kaggle-titanic实战--数据挖掘实例

Posted on 2017-09-25 | In 编程学习

kaggle是一个国外的数据挖掘竞赛平台，大家做完竞赛之后会写一些指导，因此可以通过其他人写的指导文件进行学习，kaggle传送门。

其中有一个入门类的分析问题是分析Titanic号的救援问题，分析哪些因素会影响到是否被救援，首先打开Titanic这个问题的具体页面，Titanic: Machine Learning from Disaster,

pandas入门

Posted on 2017-09-24 | In 编程学习

pandas当中最重要的部分就是pandas提供的dataframe和series类型，可以用来保存任何形式的数据，保存之后的结果类似于二维表的形式

Posted on 2017-09-18 | In 编程练习 , 爬虫

首先,需要理解cookies的含义，是存储在浏览器中的内容，在本地存储任意键值对，第一次访问时服务器返回一个id存储到本地cookie中，第二次访问将cookies一起发送到服务器中

Posted on 2017-09-18 | In 编程练习

因为我们要对scrapy进行调试，所以我们建立一个main函数来达到调试的目的，以后每次调试只要debug这个main文件就行了

Posted on 2017-09-06 | In 软件配置

在windows文件管理器中输入%APPDATA%，进入到一个文件夹，新建名为pip的文件夹，然后在其中新建pip.ini文件，输入

[global]
timeout = 6000
index-url = https://pypi.douban.com/simple
trusted-host = pypi.douban.com

转换为豆瓣源

或者输入

1 2	[global] index-url = https://mirrors.xjtu.edu.cn/pypi/web/simple/

转换为西安交大源

Posted on 2017-08-13 | In 编程学习

scrapy是一个完整的爬虫框架，一共有5个部分组成和2个中间部分，最主要的是一下五个部分：