《西瓜书》小记(一) 绪论

2019年8月14日

简介

此章节以西瓜为主题介绍了一下机械深造的基本观点,如数据集样本空间特性向量等等,顺带介绍了一些机械深造的生长过程。

观点

假定
空间(hypothesis space)
:一切假定
组成的空间,即对样本一切特性的一切假定
构成的空间。如:一个苹果有两个特性,①巨细,②甜度。此中巨细分为两类,甜度分为不甜两类,那末
苹果的也许的种数为 2 x 2 = 4 种。然而,咱们还需求考虑到基本不具有巨细这个特性,或者基本不具有甜度这个特性,和
苹果这个东西都不具有,以是一切也许的假定
有 (2 + 1) x (2 + 1) + 1 = 10 种,这10种假定
组成的空间就是关于该苹果问题的假定
空间

版本空间(version space):在假定
空间
中与训练集统一的假定
聚集
,咱们称之为版本空间。也就是说,如果版本空间中具有某个假定
,那末
一定有相对应的样本符合这个假定

演绎偏好(inductive bias):机械深造算法再深造过程中对某种类型假定
的偏好,称为演绎偏好。如下图,这种偏好能够体现为想要算法愈加钻营对样本数据的接近度——黑线,还是想要愈加钻营对数据分布的预测度——红线

图1 偏好滑润与偏好崎岖的曲线对比

奥卡姆剃刀(Occam’s razor):一种最基本的演绎偏好,即 “若有多个假定
与视察统一,则选最简单那个”。

不免费的午餐定理(No Free Lunch Theorem, 简称 NFL 定理):算法在训练集之外的一切样本上的偏差为:

对于一切也许的 f 按均匀分布求和,则有:

终究
得出结论:总偏差与深造算法无关!也就是说,不管
深造算法利害与否,它们的期望机能都相反!然而咱们需求知道上述定理论述过程中假定
了 f 的均匀分布,而现实情况也许并非如此。现实使用
中,某些假定
也许是不符合现实以至基本不具有的。以是,NFL 定理并非是要让咱们认为机械深造算法不用处,而是要让咱们认识到讨论算法结合现实才有意义,离开现实谈论甚么
算法更好毫无意义可言。

生长进程

衔接主义深造(二十世纪五十年代初) :

  • 感知机(Perceptron)
  • Adaline

标识主义深造(六七十年代):

  • 布局深造零碎
  • 基于逻辑的演绎深造零碎
  • 观点深造零碎
  • 以决策理论为基础的深造技巧和
    强化深造技巧

从样例中深造(二十世纪八十年代):

  • 决策树(decision tree)
  • 基于逻辑的深造(代表作:Inductive Logic Programming,简称 ILP)
  • 神经网络

统计深造(二十世纪九十年代中期):

  • 支撑向量机(Support Vector Machine,简称 SVM)
  • 核方法(kernel methods)

衔接主义深造振兴——深度深造(二11世纪初):

  • 卷积神经网络(Convolutional Neural Network,简称 CNN)
  • 循环神经网络(Recurrent Neural Network,简称 RNN)
  • 递归神经网络(Long Short-Term Memory,简称 LSTM)

使用现状

研讨规模

  • 图像辨认
    (Image Recognition)
  • 语音辨认
    (Speech Recognition)
  • 自然语言处置(Natural Language Processing)
  • 数据发掘
    (Data Mining)

使用规模

  • 天气预报、动力勘探、环境监测
  • 分析销售数据、客户信息
  • 搜索引擎(笔墨搜索、图片搜索)
  • 自动驾驶
  • 分析社交网络数据
  • 贸易决策支撑
  • 人工智能

浏览
材料

首要国际学术会议

  • 国际机械深造会议(ICML)
  • 国际神经信息处置零碎会议(NIPS)
  • 国际深造理论会议(COLT)

首要区域性会议

  • 欧洲机械深造会议(ECML)
  • 亚洲机械深造会议(ACML)

首要国际学术期刊

  • Journal of Machine Learning Research
  • Machine Learning

人工智能规模

  • 首要会议:IJCAI、AAAI
  • 首要期刊:Artificial Intelligence、Journal of Artificial Intelligence Research

数据发掘
规模

  • 首要会议:KDD、ICDM
  • 首要期刊:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery

计算机视觉与模式辨认

  • 首要会议:CVPR
  • 首要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络规模

  • 首要期刊:Neural Computation、IEEE Transactions on Neural Networks and Learning Systems

统计学规模

  • 首要期刊:Annals of Statistics

海内机械深造规模

  • 首要会议:中国机械深造大会(CCML)、“机械深造及其使用”研讨会(MLA)

小结

第一章绪论讲述的东西并不多,只是初步介绍了一下机械深造的基本知识和
机械深造规模的首要会议和首要期刊。我认为首要会议和首要期刊该当着重记一下,当前必然要用到。就算不查文献、不查资料,多读读专家们的论文、了解下当今
技巧的生长也是应该的吧。即使读到了一篇水文,那也是一篇顶会的水文,也不必说糟蹋了时间。

更多精彩,尽在https://bambi-eyes.com

没有评论

评论已关闭。