WangZhao's Blog

It's not who you are underneath,it's what you do that defines you


  • Home

  • Archives

kaggle-titanic实战--数据挖掘实例

Posted on 2017-09-25 | In 编程学习

kaggle是一个国外的数据挖掘竞赛平台,大家做完竞赛之后会写一些指导,因此可以通过其他人写的指导文件进行学习,kaggle传送门。

其中有一个入门类的分析问题是分析Titanic号的救援问题,分析哪些因素会影响到是否被救援,首先打开Titanic这个问题的具体页面,Titanic: Machine Learning from Disaster,

Read more »

pandas入门

Posted on 2017-09-24 | In 编程学习

pandas当中最重要的部分就是pandas提供的dataframe和series类型,可以用来保存任何形式的数据,保存之后的结果类似于二维表的形式

Read more »

scrapy爬取知乎问题实战

Posted on 2017-09-18 | In 编程练习 , 爬虫

首先,需要理解cookies的含义,是存储在浏览器中的内容,在本地存储任意键值对,第一次访问时服务器返回一个id存储到本地cookie中,第二次访问将cookies一起发送到服务器中

Read more »

scrapy实战伯乐网文章爬虫

Posted on 2017-09-18 | In 编程练习

scrapy实战伯乐网爬虫

因为我们要对scrapy进行调试,所以我们建立一个main函数来达到调试的目的,以后每次调试只要debug这个main文件就行了

Read more »

pip换源

Posted on 2017-09-06 | In 软件配置

在windows文件管理器中输入%APPDATA%,进入到一个文件夹,新建名为pip的文件夹,然后在其中新建pip.ini文件,输入

1
2
3
4
[global]
timeout = 6000
index-url = https://pypi.douban.com/simple
trusted-host = pypi.douban.com

转换为豆瓣源

或者输入

1
2
[global]
index-url = https://mirrors.xjtu.edu.cn/pypi/web/simple/

转换为西安交大源

scrapy库详解

Posted on 2017-08-13 | In 编程学习

scrapy是一个完整的爬虫框架,一共有5个部分组成和2个中间部分,最主要的是一下五个部分:

  1. ENGINE
  2. SCHEDULER
  3. ITEM PIPELINES
  4. SPIDERS
  5. DOWNLOADER
Read more »
<i class="fa fa-angle-left"></i>1…121314…16<i class="fa fa-angle-right"></i>

96 posts
47 categories
63 tags
© 2024 Jeffrey Pacino
Powered by Hexo
|
Theme — NexT.Muse v5.1.4