网站导航

信息学院特邀李昌老师开展大数据处理技术讲座

34日,为提升课程实践应用内涵,掌握应用前沿技术,信息学院邀请李昌老师为研究生讲授“实践大数据处理技术”。李昌老师拥有10年以上企业级数据处理及互联网大数据处理的工作经验,曾负责百度地图基础数据的日志规范、处理及数据仓库建模,熟悉HadoopHivePython等分布式计算框架及开发工具,处理过3亿用户规模的用户行为日志数据,每日增量300亿以上的定位数据,10TB级存储规模的数据量。完成百度地图客户端,PC端,定位、路况及导航,糯米客户端等公司数十个产品的规范和优化,提升了底层数据质量及节省了平台的计算资源;通过开发PyPiple计算框架,为地图各产品线提供了集群端的数据传输、调度,并参与了百度地图数据仓库模型标准的制定,及百度糯米O2O等项目的研发,为公司数据分析部门及推荐部门提供了可靠、易用、及时的数据服务。

讲座内容结合大数据技术发展的趋势和生态,给同学们讲解大数据处理的框架和常见应用场景;并结合HadoopHivePython等大数据技术,向学生讲解互联网用户行为数据的处理过程包括日志数据收集、处理及建模方面的知识,帮助学生学习、提高大数据技术的实践经验。

 

李昌老师讲解大数据

上午,李昌老师首先为同学们讲解大数据发展历程及技术生态,让同学们再一次理解大数据的4V特征,让同学们体会大数据带来的思维方式的变化(处理对象是全部数据;不执迷于精确性;关注相关性而不是因果性)。然后介绍大数据常用的集成方法和常见传输技术,之后又向同学们介绍了数据仓库的概念,带大家学习数据组织思路,讲解数据仓库处理流程,并介绍了ETL的概念、应用过程及调度控制的两种方式。

为了让同学们更深入的理解大数据的应用,李昌老师举例讲解了如何进行互联网日志行为分析以及淘宝大数据产品的规划与设计,带同学们综合学习大数据的产品规划、岗位及框架。通过对淘宝数据应用案例的学习,同学们更加理解了如何使用数据,理解了数据平台的产品架构,理解了数据调度的详细过程以及数据集成的详细流程,对数据开发流程有了更深层次的掌握。

 

李昌老师讲解大数据的学习路线 

下午,李昌老师介绍了当代最热门的技术之一Hadooop,老师首先向同学们介绍HadoopHive的基本概念,让同学们学习各自的运行环境,并为大家介绍了很多Hadoop常用的命令,让同学们练习HadoopHdfsMapReduce的命令和Hive数据仓库操作。

介绍完Hadoop,李昌老师又介绍了现在很流行的Python编程语言,让大家现场配置好运行环境,练习了很多小程序,让大家体会Python简洁的风格。

最后,让同学们现场下载了SecureCRT,带领同学们实际操作很多Hive命令,并利用Hadoop进行WordCount分词统计等开发,集成Python,Hadoop等技术综合练习。练习过程中,李昌老师特别耐心认真的到每位同学旁边进行讲解帮助,尽力让同学们都能完成Hadoop的练习,学习到新知识。

讲座结束后,同学们都发自内心地感谢李昌老师。李老师的讲座拓展了同学们对现代技术的知识视野,增长了同学们学习大数据的热情,为研究生培养的实践教育奠定了良好的基础。

分享

首经贸新闻网版权与免责声明: ①凡本网未注明其他出处的作品,版权均属于首经贸新闻中心,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:首经贸新闻网”。违反上述声明者,本网将追究其相关责任。 ② 凡本网注明其他来源的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网对其负责。 ③ 有关作品内容、版权和其它问题请与本网联系。 ※ 联系方式:首经贸新闻中心 Email:xcb@cueb.edu.cn