谢邀!笔者刚签约大数据挖掘工程师岗位,也是在研究生阶段才转为大数据方向。大数据目前正火热,很多同学想要转入,但学习路线对于自学的人来讲因人而异。
拿自身举例,笔者之前是Python数据分析出生,编程能力一般,因此在这个基础上先学习linux基本操作命令,安装ubuntu双系统并进一步安装Hadoop和Spark组件,在此基础上利用Pyspark操作Spark大数据框架进行学习。可以推荐如下书籍:
《Pyspark实战指南》
而要完全进入大数据领域还不够,因为大数据框架比较侧重开发,所以需要有scala语言功底(scala语言是Spark的原生语言),而scala语言跟JAVA关联性很强且完全兼容,所以如果有一定JAVA基础的话完全可以从scala入手,推荐的书籍如下:
《Spark编程基础(scala版)》
视频教程强烈推荐林子雨老师在MOOC慕课上的国家精品免费课程,由浅入深,非常容易上手。
二十五岁学大数据晚吗?你怎么看?
作为一名IT从业者,同时也是一名教育工作者,我来回答一下这个问题。
首先,二十五岁学习大数据技术并不晚,如果有一个系统的学习规划,完全可以在大数据领域走得更远。
学习大数据技术应该根据自身的知识基础、能力特点和兴趣爱好来选择学习方向,不同的学习方向需要组织不同的知识结构,同时也需要有相应的学习(实践)场景支撑。当前大数据技术整体围绕数据价值化来展开,涉及到数据采集、整理、存储、安全、分析、呈现和应用等多个环节,不同的环节往往有不同的岗位,比如大数据分析涉及到算法工程师岗位,大数据应用涉及到开发工程师岗位等等。
虽然不同的岗位往往需要组织不同的知识结构,但是对于基础知识比较薄弱的初学者来说,在选择具体的岗位方向之前,可以重点学习以下三方面内容:
第一:编程知识。大数据领域的技术从业者往往都需要具备一定的程序设计能力,目前Java、Python、Scala、R等语言在大数据领域有较多的应用,可以重点关注一下。另外,当前Go语言的上升趋势也比较明显,也可以重点关注一下。
第二:数据库知识。数据库是大数据技术体系结构中的重要组成部分,所以学习大数据技术也是非常有必要的。初学者可以从Sql语言开始学起,虽然当前大数据领域都普遍在采用NoSql数据库,但是这并不意味着Sql语言就不重要了。
第三:大数据平台知识。大数据平台是大数据从业者重要的工具,大数据开发、大数据分析、大数据运维等诸多岗位都要依赖于大数据平台,所以掌握大数据平台知识还是非常重要的。大数据平台的内容相对比较多,所以往往需要一个长期的学习过程。
我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。
如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!