4000336031 微信 li1377174255
数据科学的基本内容
什么是数据科学?它和已有的信息科学、统计学、机器学习等有什么不一样?
作为一门新兴的,数据科学所依赖的两个因素是:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据。这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且常常是随机模型的反问题。所以对它们的研究有着很多的共性。例如自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其较根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中较常用的一种手段。
数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。这些都是数据科学的重要组成部分, 但只有把它们有机地整合在一起,才能形成整个数据科学的全貌。
用数据的方法来研究科学,较典型的例子是开普勒关于行星运动的定律,如图1。开普勒的定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的。表1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。
培训大数据,就到成都大数据培训机构,成都较好较专业的大数据培训机构:http://cddashujupx.soxsok.com/
联系人:郑老师
电 话:4000088125
Q Q:1418020239