课程大纲:
第一天 上午
一、Python 函数与类
PyCharm环境搭建与GIT使用
变量、常量、逻辑语句介绍
数据结构之 List、Set、Tuple、Dict
缺省参数、可变参数、关键字参数、
Lambda函数、递归函数
函数的封装与随机数生成器
Python面向对象编程(封装、继承、多态)
模块、包、Python标准库介绍
第一天 下午
二、Scrapy框架实践 Http协议理论介绍
Scrapy介绍与环境搭建
框架结构与工作原理介绍
网页数据解析之xpath
Selenium与“幻影”浏览器-PhantomJS
动态IP设置与反爬虫技术
豆瓣电影站点爬取实践
分布式爬虫与数据入库实现
第二天 上午
三、Python常用科学库
Numpy科学库介绍
数组的索引和切片
数组的运算 (排序、通用函数、统计运算)
数组的存取操作
综合案例:图像变换
Pandas数据结构 (Series,DataFrame)
数据运算(算术、排序、分组)
第二天 下午
四、Python数据可视化
Matplotlib库
Seaborn可视化库介绍
常用的数理统计公式介绍
直方图、饼图
折线图、散点图
高级图表 (散点图、箱线图、云图)
采用可视化实现银行客户画像
第三天 上午
五、常见分析算法介绍
欧式距离与K-近邻算法介绍
数据清理、特征值分析
Train_test_split分割训练集与测试集
模型训练与超参数介绍
交叉验证与网格搜索
K-近邻实现就近酒店入住推荐系统
第三天 下午
六、Python + Hadoop数据推荐
数据三种形态与分布式数据库
Hadoop安装与启动
Python + MapReduce编程实战
Hadoop中的Shuffle与Sort原理应用
MapReduce架构分析
电影相似度原理分析
Python + Hadoop编写电影推荐代码