作业说明
- 使用 MNIST 数据集源码级分别实现朴素贝叶斯、PCA、Kmeans 算法;
- 阅读论文《An Analysis of SingleLayer Networks in Unsupervised Feature Learning》:
- 基于上面的论文和本周所学内容,在 MNIST 数据集上源码级实现 PCA 降维和 K 均值聚类过程;
- 将你的实现结果与使用 Scikit-Learn 框架的实现进行对比,尝试改进你的实现方法;
- 撰写技术报告,对涉及到的原理和实现方法与结果进行简要解释(注意不是翻译论文);
关于论文的细节解释可以尝试使用谷歌搜索,代码细节可以参考博客或 GitHub 上面的一些实现。
- 论文中提到的分块过程可能对 28*28 像素的 MNIST 数据集可能意义不大,可最后考虑实现;
- 论文中提到的找到中心的方法有四种,大家只需要关注和实现 Kmeans 方法。
注意事项
- 技术报告不要求现在就能使用 LaTeX 语法完成,可使用 MarkDown 语法导出 PDF;
- 可换用 Fashion-MNIST 数据集或是 Yale 数据集(鼓励大家随便玩各种不同的数据集);
- 可使用 DB-SCAN / ICA 等其它的聚类或者降维算法作为内容的补充;
提交格式
邮件正文中:推荐一下周围的帮你起飞的同学,增大他/她上台演讲的可能性,欢迎自荐。将所有需要提交的文件压缩至单个的 zip 文件(注意不是 rar 格式),命名规范为:
“MIL2019-姓名-实验三代码与报告.zip”
在压缩文件中必须有一个 readme.md 文件,对文件组织逻辑和内容进行说明。
将压缩文件作为邮件附件上传,并及时将邮件发送至助教的邮箱:acdoge.cao@gmail.com
(注:来自 QQ 邮箱的邮件会被拒收,非暑期班人员名单的邮件会被拒收)
截止日期
初稿截止时间:7 月 18 日(周四) 9:00 AM终稿截止时间:7 月 21 日(周日) 6:00 PM
周四中午公布本周讨论课上台演讲的人员名单。