小猿搜题,给有志向的数据科学家的六条主张,谢依霖

频道:趣闻中心 日期: 浏览:275

本文为 AI 研习社编译的技能博客,原标题 :

S星野悠月ix Recommendations for Aspiring Data Scientists

作者 | Ben Weber

翻译 | DarrickBM

校正 | 邓普斯•杰弗 审阅 | 酱番梨 收拾 | 立鱼王

原文链接:

http黄朝宇s://towardsdatascience.com/six-recommendations-for-aspiring-data-scientists-93d12aeb9b9

图片来历: https://www.maxpixel.net/Art-Colourful-Gears-Creatisw472vity-Cogs-Colorful-1866468

现在数据科学的需求量很大,好像一部分原因是由于数据科学家需求有从业经历。但其实,许多那些和我作业过的最好的数据科学家都来自不同的布景,从人类学到神经科学都有,而且要有实践经历才干锋芒毕露。关于一个想转行开端数据科学生计的毕业生或数据剖析人员来说,要在这个范畴做一些事来展现自己的技能是很有应战的。我会一起站在企业招聘数据科学家的视点和求职者应聘数据科学家的视点,来谈一谈这个作业需求的几点要害经历:

小猿搜题,给有志趣的数据科学家的六条建议,谢依霖
小猿搜题,给有志趣的数据科学家的六条建议,谢依霖

我将在后边具体解说以上几点。但首要,数据科学范畴最要害的要义仍是要能够发明出能为企业发明价值的数据产品。一个能够发明端到端数据产品的数据科学家是企业的宝贵财富,因而应聘数据科学家的时分,很必要盗火线下载去证明你有这些技能。

亲自测验云核算

现在许多公司都在找有云核算经历的数据科学家,由于云渠道供给的东西能够扩展数据流和猜测模型的规划。未来你也或许在日常作业顶用上一个云渠道,比方亚马周末沐浴逊的AWS和谷歌云渠道(GCP)。美丝沛

好消息是许多渠道提希尔瓦娜斯的音乐盒供了免费版然后让更多人能够了解云渠道。比方AWS就有免费版的EC2实例和免费运用的效劳(比方支撑少数恳求的Lambda),GCP则供给给用户300美元的免费额度用来试玩渠道上的绝大部分功用,而洛凝Databricks则供给了社区版别的渠道。尽管你不能在这些渠道上免费跑大数据集,可是你能够堆集在渠道亲自实践的经历。

我的一个建议是你能够测验这些渠道的不同功用,去看看你是否能够用一些东西去练习及布置模型。比方我在一篇讲模型类效劳的文章中,用了我了解的SKlearn,而且研讨了怎么把一个模型包装成Lambda函数。

创立一个新的数据集

在课堂上或许在数据科学竞赛中,你常常需求一个洁净的数据集,然后使整个项目能会集在数据探究和数据建模上。可是,在许多实践项目中,你需求做数据收拾,然后将原始数据集转化成一个更有利与剖析建模的数据集。一般,数据收拾需求搜集额定的数据集去做数据转化。比方我曾处理过美联储的数据来更好地舆一世为奴解殷实家庭的财物装备状况。

这是一个风趣的项目,我用了第三方数据去评价一手数据的准确性。所以我的第二个建议是进一步深化实践,去构建一个数据集。这个进程会或许包括从网站爬取小猿搜题,给有志趣的数据科学家的六条建议,谢依霖数据,从数据核算网站(如steamspy)采样数据,又或许要整合不同数据源然后发明一个新的数据集。例如,我在研讨生期间发明了一个星际争霸(慈福医养StartCraft)竞赛回放的数据集李秀琼,这就能证明我有才能在一个新生成的数据集上做数据收拾。

将各种信息相关起来

有一种才能我会期望数据科学家去展现:便是能将不同的组件或许体系衔接起来然后完结一项使命。在数据科学家这个人物中,或许没有一个明晰的途径来使模型产品化,所以你或许需求结构一些共同的东西让体系跑起来。一个理想化的数据小猿搜题,给有志趣的数据科学家的六条建议,谢依霖科学团队会有工程师来做体系建立及运转,可是原型开发对数据科学家来说其实是一个很棒的技能,它能够让你跑得很快。

关于这点,我的建议是去测验将不同的体系或组件整合进数据科学作业流中。这个测验能够包括用一些东西比方Airflow去开发一个数据管道。也能够包括建立衔接不同体系的桥梁,例如我在JNI-BWAPI项目中,就开发了根据Java的接口来衔接星际争霸:母巢之战的API库。或许能够包括将不同的组件整合到一个渠道上,比方用GCP数据流(DataFlow)来获取BigQuery的数小猿搜题,给有志趣的数据科学家的六条建议,谢依霖据然后运用到猜测模型上,再把猜测成果储存到云数据存储(Cloud Datastore)上。雷锋网雷锋网雷锋网

供给一个效劳

作为数据科学家,你将常常需求供给效劳来让公司的其他团队运用。举例来说,这能够是一个Flask运用,用来鄙陋鹤给出一个深度学习模型的核算成果。假如你能够开宣布这个效劳,这意味着其他团队将能更快地运用到你的数据产品。

关于这点,我的建议是测验运用一些东西(比方Flask或许Gunicorn)去装备web端点(endpoint64码高清网络电视),然后用Dash在Python中创立交互式的web运用。当然,在Docker中测验装备这傍边的一些效劳也会对你颇有协助。

做过的酷炫的可视化

尽管巨大的作业自然会锋芒毕露,但在你解说一个剖析或模型怎么重要之前,仍有必要取得世人的重视。关于这点,我的建议是学习各种可视化东西来创立一个引人入胜的数据可视化。

可视化一起还能改善一系列的作业。

下面的博客展现了我作为数据科学家在曩昔10年中发现的一些东西和数据集。

做数据可视化的10年:

https://towardsdatascience.com/10-years-of-da31656部队ta-science-visualizations陈辛同-af1dd8e443a7

写白皮书

在数据科学的一切技能中,有一项一向以卡达科萨来我都非常引荐,那便是能够经过白皮书来解说项目。白皮书是一种概要,它探讨了研讨怎么被运用,并供给了关于研讨办法和成果的具体介绍。白皮书是为了让更多的读者一望而知地舆解你的研讨,而且使其他数据科学家也能够在你的基础上持续研讨。

博客或其他方式的输出都能够很好地增加写国王坛风云录作经历。我对这点的建议是测验去面向群众写一些数据科学的文章,这样当你要表达你的主意时,你会知道怎么针对不同人群阐释不同程度的细节。

结语

数据科学需求对许多东西有实践经历。走运的是,其间越来越多的东西降低了运用门槛,而且让构建数据科学的作业组合变得越来越简单。

Ben Weber,Zynga首席科学家,Mischief参谋。

想要持续检查该篇文章相关链接和参考文献?

点击即可拜访:

AI入鬼炎佩剑门、大数据、机器学习免费教程

35本国际尖端本来教程限时敞开,这类书单明末巨盗由小猿搜题,给有志趣的数据科学家的六条建议,谢依霖闻名数据科学网站 KDnuggets 的副主编,一起也是资深的数据科学家、深度学习技能爱好者的Matthew Mayo引荐,他在机器学习和数据科学范畴具有丰厚的科研和从业经历。

点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/417

开发 云核算 大数据
声明:该文观念仅代小猿搜题,给有志趣的数据科学家的六条建议,谢依霖表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。