• 利用PySpark对 Tweets 流数据进行情感分析实战

    Spark流基础Spark流是Spark API的扩展,它支持对实时数据流进行可伸缩和容错的流处理。我们希望Spark应用程序运行24小时 x 7,并且无论何时出现任何故障,我们都希望它尽快恢复。但是,Spark在处理大规模数据时,出现任何错误时需要重新计算所有转换。利用PySpark对流数据进行情感分析是时候启动你最喜欢的IDE了!
  • 【资源】快速入门 Pandas官方文档中文版PDF下载

    学习Pandas最好的方法就是看官方文档:《10 Minutes to pandas》、《Pandas cookbook》、《Learn Pandas》英文版读起来稍显吃力,所以向大家推荐Pandas官方文档中文版!--------分割线-------- -获得方式:1. 长按扫描二维码,关注公众号2.长按识别下方二维码,并关注公众号回复 “pandas” 获取--------分割线-------- - 看完两件事如果你觉得这篇内容对你有所帮助,我想邀请你帮我两个小忙:点个「在看」,让更多的人也能看到这篇内容关注公众号「Python开发者」,一起进步,一起成长!-END-推荐阅读1、牛逼的人,很早就开始牛逼了2、Python中文书籍汇总目录3、Github标星4w+,如何用Python实现所有算法4、稳稳吃鸡!
  • OLAP数仓进阶:主流开源OLAP系统的分类及核心技术点

    作者介绍温正湖,网易杭研高级数据库技术专家,数字产业事业部大数据产品中心OLTP和OLAP内核团队负责人。负责网易大数据OLAP系统和OLTP关系型数据库内核相关的开发和运维工作。毕业10+年一直从事数据和存储领域相关工作,有较丰富的设计、开发、线上问题定位和优化经验。前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了数仓的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇再进一步,将介绍OLAP的类型及其代表产品,并分析主流开源OLAP产品的核心技术点。OLAP数仓入门问答-基础篇:ht...
  • 监控大规模Hadoop集群,Prometheus完胜Zabbix?

    作者介绍洪迪,联通大数据高级运维开发工程师,主要负责大数据平台运维管理及核心监控平台开发工作。具有多年大数据集群规划建设、性能调优及监控体系建设经验,对Prometheus架构设计、运维开发等方面有深入理解和实践。背景随着公司业务发展,大数据集群规模正在不断扩大,一些大型集群物理机节点甚至已近上千。面对如此规模庞大的集群,一套优秀的监控系统是运维人员发现及处理故障的关键利器。经过多次选型和迭代,笔者选择了Prometheus,这款时下火热而强大的开源监控组件为核心来构建大数据集群监控平台。最初的监控平台选型...
  • 大数据内推就一定能进?

    最近到了招聘旺季,发现一些朋友很纠结一个问题:做后端开发和做大数据开发?这个问题还是比较普遍的。其实,后端开发,更专注于一种技术栈的开发,对于成熟的开发框架而言,的确市面上的竞争压力会比较大,竞聘者除了技术功底够硬,更多的是要对业务充分的熟悉。而大数据开发,由于兴起时间较晚,再加上国家政策的扶持,人才需求远远没有饱和,相比较起来,竞争的确要小一些,薪资和前景更有吸引力。但这并不意味着面试难度就会有所下降。一些人总会说大数据岗位基本靠内推进去的。这其实是片面的。即使你获得了内推机会,技能不过关,比如一问你 s...
  • 建议收藏!一张图建立全面的大数据知识体系

    对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术,而大数据技术又涉及了分布式计算、高并发处理、高可用处理、集群、实时性计算等,可以说是汇集了当前 IT 领域热门流行的 IT 技术。本文对大数据技术知识体系进行划分,共分为基础技术、数据采集、数据传输、数据组织集成、数据应用、数据治理,进行相关的阐述说明,并列出目前业界主流的相关框架、系统、数据库、工具等。前言最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人...
  • 亿级账户数据迁移,不用数据库工具还能怎么搞?

    背景在阿里巴巴内部“大中台,小前台”的组织和业务体制,使前线业务更加敏捷,赋能业务积极迎接未来挑战和机遇,在阿里大中台能力建设过程中,同质化中台服务将会合并,小前台需要迁移原来依赖的中台服务到新的中台服务上。闲鱼作为小前台,依赖阿里巴巴大中台能力让产品快速迭代,其中闲鱼币依赖的就是阿里巴巴积分中台能力。在积分能力大中台建设过程中,原有的积分服务都将合并到“半两”积分平台,闲鱼币原来依赖的积分平台是“KingTower”积分平台,目前“KingTower”即将下线,所以闲鱼币需要把数据和依赖的服务迁移到“半两...
  • 别人家的全链路自动化监控平台为啥让人这么省心?

    互联网技术普及过程中,数据的监控对每个公司都很重要。近些年,随着一些优秀监控工具(比如Zabbix、Graphite、Prometheus)的成熟,每个公司都会搭建自己的监控体系,来分析整体业务流量和应对异常报警。但随着系统复杂性的提高,微服务的成熟,监控又有了新的问题需要解决,如上下文的链路关系、跨系统的故障定位等相关问题。为减轻公司业务线资源和开发的监控压力,爱奇艺技术产品团队研发了一套全链路自动化监控平台,可以提供统一的监控标准和基础的监控能力,增强故障定位和深度分析能力,提升监控准确性和透明性,本文...
  • 我用Python写了个股票量化软件,真香!

    近几年,Python的热度一直在涨,它的应用领域也非常广泛:自动化测试,Devops运维,爬虫工程师,Web开发,数据分析,机器学习等,不过 Python 还有一个神秘而有趣的应用领域,那就是量化交易。要理解什么是量化交易,首先我们来说说什么叫“量化”。假如有人做了两道菜,让大家去评价这两道菜,哪道菜对我们来说更有营养。通常,大家可能会通过“看”两道菜里的食材种类和数量或者基于知识经验,来作出评价。而如果我们通过数学模型统计工具,对两道菜里的成分进行数据分析和计算,来得出结论,这就叫做「量化」。同样的,我们...
  • 另辟蹊径建数仓,美团外卖为什么选用Doris(精品干货)

    序言本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我们提出建议。一、数仓交互层引擎的应用现状目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hadoop/Spark分布式大...
  • 只能是数据的“搬运工”?聊聊 Filebeat 收集日志那些事儿

    最近因为云原生日志收集的需要,我们打算使用 Filebeat 作为容器日志收集工具,并对其进行二次开发,因此笔者将谈谈 Filebeat 收集日志的那些事儿。本文不涉及过具体的源码分析,希望通过阅读您可以了解 filebeat 的基本使用方法和原理,姑且算是 filebeat 的入门吧。1、前言开源日志收集组件众多,之所以选择 Filebeat,主要基于以下几点:功能上能满足我们的需求:收集磁盘日志文件,发送到 Kafka 集群;支持多行收集和自定义字段等;性能上相比运行于 jvm 上的 logstash ...
  • 关于对象存储的前世今生,运维一定要了解

    上期文章(链接:关于存储技术的最强入门科普),小枣君给大家详细介绍了数据存储技术的基本知识,其中重点对 DAS、SAN 和 NAS 技术进行了对比分析。我们知道,在很长的一段时间里,这三种架构几乎统治了数据存储市场。所有行业用户的数据存储需求,都是在这三者中进行选择。然而,随着时代的发展,一种新的数据存储形态诞生,开始挑战前面三者的垄断地位。没错,它就是云计算时代存储技术的新网红——对象存储。哈哈,也许搞着搞着,对象就有了呢!对象存储,也称为“面向对象的存储”,英文是 Object-based Storag...
  • 廖雪峰团队研发的大数据实战VIP课程终终终终于免费了!

    福利!廖雪峰最新研磨的实战宝典《如何将大数据开发做到优秀》首次开放了,内容出自开课吧 vip 课程“大数据高级开发实战班”,为帮助大家特殊时期职场走得更加顺畅,现决定将这套价值 788元 的体系化学习宝典免费送给粉丝朋友。如果你是刚转行大数据不久的 Java、PHP 等程序员或入行新人,这套学习宝典能帮你迅速摆脱工作困扰,巩固掌握优秀工程师的必会技能:缺乏工作经验,想短时期内获得一份大数据开发相关工作;接触不到核心技术,不懂底层源码,不会搭建系统架构,提升太难;业务逻辑欠缺,想丰富实战经验,进大厂冲击高薪。...
  • SparkSQL 基本可以取代 hive 了?

    互联网时代,数据源变得越来越丰富,出现了大量非结构化数据,互联网的在线特性也将业务需求推向了实时化。实时推荐系统、搜索系统、交互式用户行为分析系统成为各大互联网企业的重点技术项目。而Spark 作为同时支持大数据和人工智能的统一分析平台,成为目前实时流计算的不二选择,甚至有社区的大佬直言:感觉 SparkSQL 基本可以取代 hive 了!近些年,Spark 更是这些大厂面试时筛选人才的重要考核点。但由于Spark技术栈相对复杂,它的功能既强大又丰富,因此掌握起来尤其困难。很多初入大数据开发这一方向的人,一...
  • DAMS 2020:共探数据中台、分布式数据库架构转型、监控告警优化、CMDB建设……

    5年前,大数据浪潮的来袭唤起了国内企业对数据作为核心资产的新认知,为了推动国内数据管理加速发展,DAMS中国数据智能管理峰会携手产学研各界权威力量开启了对企业数字化转型的探索与助力。5年后,我们看到许多企业已在数据管理机制的逐步完善下,利用数据支撑决策、驱动业务发展。但同时,云与人工智能时代的渐行渐近,给企业带来了新一轮挑战和机遇——如何满足不同云模式下数据的保护和管理?如何利用人工智能协助数据的分析和决策?带着这些新时代主题,第六届DAMS中国数据智能管理峰会已蓄势待发。时间:2020年10月30日地点:...
  • 国内Spark开发者的免费入门宝典!首发作者阵容高手云集!

    《Apache Spark 中文实战攻略》重磅来袭!点击文末阅读原文下载>>《Apache Spark 中文实战攻略(上册)》<<或者复制该链接到浏览器完成下载或分享:https://developer.aliyun.com/topic/download?id=821《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。《Apache Spar...
  • 快速,实时处理大量数据,架构如何解?

    随着业务越来越大,数据也是越来越多,怎么能让业务在数据大的时候还能保证快呢。互联网的业务无外乎线上OLTP场景和线下OLAP场景,这两种场景,数据量增大后,我们应该分别怎么应对呢。【OLTP】在业务初期,单库单表,就能满足绝大部分业务需求,其典型的架构为:(1)DAS:数据访问层;(2)DB:数据库;当数据量越来越大,例如达到1亿注册量时,我们必然遇到性能和存储瓶颈,这时我们应该怎么做?此时需要对数据库进行水平切分。常见的水平切分算法有“范围法”和“哈希法”。范围切分,一般就是按主键划分,采用区间的方式,将...
  • 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

    本文来源|开发者社区阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。点击左下角阅读原文进入免费下载从“阿里巴巴飞天大数据平台计算引擎 MaxCompute最新特性”到“阿里巴巴飞天大数据平台智能推荐AIRec最新特性”,来自阿里云智能计算平台事业部的研究员和产品专家们深度分析飞天大数据平台八款核心产品最新玩法。随着产品的迭代,其本身不断地在增加新的功能和特性。《大数据工程...
  • 我在深夜爬取了严选的女性文胸数据,发现了一个大秘密...

    公众号关注 “菜鸟要飞”设为 “星标”,和12万程序员一起成长!来源:Python 技术「ID: pythonall」刚刚过去的七夕,相信大家看到最多的是朋友圈秀恩爱(晒花),路上随处可见的也是某某女性手捧鲜花,各种大小花店一抢而空,只剩下满店狼藉。鲜花固然代表着美丽,代表着各种美好的含义,但是也不能教师节送花,母亲节送花,情人节也送花呀!作为情侣以及准情侣之间的礼物,能不能花点心思,送点不一样的,比如内衣……有的男性朋友会跳出来骂了:说得好听,你知道送花多难吗?这种隐秘的数据,又不好直接开口问,又不能直接...
  • 第六届万向区块链全球峰会预习课:分布式认知工业互联网到底是什么啊?

    在第六届区块链全球峰会的第二天(9月28日),将设置物联网3.0、分布式认知工业互联网、数字金融三个主题论坛。这是万向区块链峰会首次设置主题论坛,为什么在今年要设置这三个论坛?这三个概念又是什么意思?我们在今后的文章里,将带领大家提前预习一下这三个知识点,让大家在峰会上能瞬间get到大佬们的点。今天,先来看看“分布式认知工业互联网”这个知识点。什么是分布式认知工业互联网?工业互联网是一个很早就提出的概念,但“分布式认知工业互联网”大家可能很少听说。 四次工业革命的发展都得益于基础技术的进化。而我们目前正在经...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部