Categories
程式開發

如何用机器学习模型,为十几亿数据预测性别

基于用户画像进行广告投放,是优化投放效果、实现精准营销的基础;而人口属性中的性别、年龄等标签,又是用户画像中的基础信息。那该如何尽量准确的为数据打上这些标签?

这时候机器学习就派上用场了。 本文将以性别标签为例,介绍人口属性标签预测的机器学习模型构建与优化。

性别标签预测流程

通常情况下,无监督学习不仅很难学习到有用信息,而且对于学习到的效果较难评估。所以,如果可以,我们会尽可能地把问题转化成有监督学习。

对于性别标签也是如此,我们可以使用可信的性别样本数据,加上从TalkingData收集的原始数据中提取出来的有用信息,将性别标签的生产任务转化成有监督机器学习任务。更具体来说,男/女分别作为1/0标签(Label,也就是常说的Y值,为了方便表达,我们标记男/女分别为1/0标签),这样性别标签的任务就转化成了二分类任务。

性别标签的生产流程图如下:

如何用机器学习模型,为十几亿数据预测性别 1

  • 简单来说,输入为具有可信性别信息的样本数据,以及从近期活跃的原始数据中提取出有用特征;
  • 将两者join之后,得到可以直接用于建模的数据集;
  • 基于该数据集进行建模,学习出性别预测模型;
Categories
程式開發

Hello InfoQ – 架构师训练营0期第0课课堂笔记

缘起

Hello world , hello InfoQ。 这一篇是我职业生涯的第一篇技术博文(惭愧,工作这么多年了,才第一次开始写技术博客)。来到InfoQ的写作平台完成自己的处女作,缘起于参加了极客时间的架构师训练营。而架构师训练营有一个重要的任务,就是要每周完成【命题作业】和【每周学习总结】。并推荐了这个InfoQ的写作平台。

写作之前首先我看了一下https://xie.infoq.cn/article/4aa73195b9f0c9815984c7143” …

Categories
程式開發

一款霸榜 GitHub 的开源 Linux 资源监视器!

Linux 操作系统,相信大家都不陌生了,那么我们在 Linux 系统中的两个查看进程的命令也用的不计其数,ps命令用于显示当前进程  process 的状态、top命令用于实时显示 process 的动态。

那么,今天给大家推荐一款 GitHub …

Categories
程式開發

AI周报:华为储备可用两年的芯片;美国防计划设计更安全的芯片;沈向洋新去向已定

资讯

台积电回应为华为挪订单:不揭露客户订单信息,无法回应市场传闻

据台湾媒体报道,台积电正在想办法协调部分客户的订单以为华为腾挪更多产能。台媒称,台积电争取在120天的缓冲期内,先帮华为生产足够的芯片。对于此事,5月26日下午,台积电方面表示:“公司不揭露客户订单信息,无法回应市场传闻。”

AI周报:华为储备可用两年的芯片;美国防计划设计更安全的芯片;沈向洋新去向已定 7

美国国防高级研究计划局联手芯片设计团队,拟推出“高安全性”芯片

5月29日消息,本周,美国国防高级研究计划局(DARPA)宣布,已组建两支团队来推进其芯片安全设计计划。新组建的两支团队分别由美国电子设计自动化公司新思科技(Synopsys)和美国军工生产商诺斯洛普· 格鲁门(Northrop Grumman)领导,他们将共同开发基于Arm的架构。两支团队的目标是在新架构中加入一个“安全引擎”。“安全引擎”方法将解决旁路攻击、硬件木马、逆向工程和供应链漏洞等芯片漏洞。其中,旁路攻击包括跟踪装置的功耗来窃取加密密钥等。

华为储备可用两年的美国半导体产品

据日经报道,为应对美国出口禁令和维持其业务运转,华为储备了可使用一年半到两年的美国半导体尖端产品,其中包括赛灵思的可编程芯片 FPGA,英特尔和 …

Categories
程式開發

马斯克梦想成真:SpaceX首次载人飞船发射成功

这不仅是SpaceX的一大步,更是全球航天发展史的一大步。

当地时间5月30号下午3点22分,北京时间5月31日凌晨3点22分,由埃隆·马斯克创办的航天公司SpaceX执行的载人航天发射任务在肯尼迪航天中心圆满完成,猎鹰9号火箭成功将载人“龙”飞船以及参与此次飞行的两名宇航员:鲍勃·贝肯(Bob Behnken)和道格·赫利(Doug Hurley)平安送上了太空。

image

马斯克梦想成真:SpaceX首次载人飞船发射成功 11

发射成功

马斯克梦想成真:SpaceX首次载人飞船发射成功 12

升空画面…

Categories
程式開發

从业务数据库到元数据,SaaS架构设计经验全总结

SaaS可以说是软件交付方式演化路径中必需的一环,它的存在有其社会意义与必然性,这是社会动力体系的经济属性中成本驱动力诱发的。SaaS也是算力与网络发展的必然,随着算力与网络带宽的极大提高,这个世界的计算样态可能都会改变,未来有些场景可能更趋于中央计算(核心算力都在云上,接入的设备不需要很强的算力,甚至仅为终端)。SaaS在中国正以其自有的节奏稳步发展中,笔者曾深度参与过三个SaaS项目的工作,本文力求从实用的角度分享一些关于SaaS架构的经验要点,所谓自见者不明、自是者不彰,希望能借此文与各位读者有进一步的交流。

未来社会模型中SaaS的位置与分量

从业务数据库到元数据,SaaS架构设计经验全总结 17

上图是一个从连接这个透视角度抽象出来的社会模型,其中的家庭、人、组织、物都是相互连接的,它也是一个从软件架构抽象出来的社会模型。SaaS是对软件的获得和使用方式的革命,早在2004年就已有端倪(当时称为ASP,Application Service Provider)。笔者认为,可以将SaaS放在社会运行机制、发展趋势这样的大格局中定位其社会作用。SaaS企业也需要这样的格局与信念,虽然在中国还没有出现非常成功的SaaS企业,但终究会出现的,信任、习惯、规范、与能力都需要进化,需要时间。

在没有电之前,人们就有传递信息的需求,这也是为什么微信能够存在的本质根由。同理,各种组织都离不开软件,而且软件的渗透越来越广泛与深入,因为整个世界的数字化是不可阻挡的趋势。而SaaS在大部分情况下是必选之路,会越来越成为标配,除非特殊原因,或者不在乎成本、或者已经拥有某种等效的软件、或者其他原因。只要这种本质性的需求存在着,社会的发展终究会以越来越先进的方式来满足它。

这里分享一个关于云的小故事,笔者曾经算过一笔账,如果在云上订购托管机房中约500台机器的同等算力,每年需要支出5000万,相当有悖于流行认知,其实对于稍微有些规模的IT资源诉求,云相对是更加昂贵的,但来的快、方便,两方面都是事实。

这里只想传递一个观点,长远来看,SaaS有它存在与发展的必然性。结构上讲,它是社会运行机制中不可或缺的一部分。同样或者类似的软件,显然没有必要每个人、每个组织都各买一套或各自开发一套,这是社会资源的极大浪费,有悖于社会发展的基本规律——既然是必需的,必然选择物美价廉。而且组织支出比个人支出更理性、更注重实用价值,有利可图的需求终究会达到稳态的、某种主流服务的满足。

从架构角度看SaaS面临的挑战

如果说SaaS在大部分情况下将会成为必选之路,那么它面临的最大挑战又是什么呢?概括来讲,SaaS面临的最大挑战是满足客户的个性化需求。从架构角度看,它体现在如下图所示的几个方面:…

Categories
程式開發

N皇后问题

现在大厂在招聘时对算法的要求越来越高,而且面试时不光要听思路,还要能手写出完整的实现,而有一些题目并不容易,纯靠背题显然是不现实的,最近就听一朋友讲要求手写8皇后,那这一篇就扩展一下,写写有关N皇后问题的一个容易理解的思路及算法实现。

我们定义要求如下,给定一个nn方格的棋盘,每一行放一个皇后,要求满足任一皇后所在的列及斜边上都不能有其他皇后存在,然后将所有解法打印出来,要求打印出nn的字符矩阵,皇后的位置用“Q”表示,空格用“.”表示。拿4皇后来说,其中一个解如下图,需要满足的要求是行、列、斜边上都不能有其他皇后存在。

N皇后问题 32

图:4皇后举例

理解了题目要求后,现在分析题目的解法。要求给出所有可能的解,需要从第一行开始,逐行、逐列求解满足要求的行与列的序号,记录下符合的解,最后按格式输出。而每一次的判断都需要依赖之前合法的皇后放置结果,第i+1行所有列执行判断后,需要回到第i行,继续第i行下一列的判断,一个完整的解为当已经判断到最后一行,而此时最后一行的第j列符合要求,则此时的记录中为一个合法的解。直到所有行所有列的情况都判断完成,求解结束。所以这个问题适合用深度优先遍历的方式来解,从首行首列开始,优先向深度方向即向下一行搜索,下一行则遍历各列,找到第一个符合要求的列后即再向下一行也就是深度方向搜索……用伪代码表示过程大致如下:

dfs (row) {
if (row ==

Categories
程式開發

浅说Docker基础知识与核心原理

Docker是dotCloud公司使用Go语言推出的虚拟化技术,它基于Linux内核的CGroup、Namespace、Union FS 等技术,对进程进行封装隔离。由于隔离的进程独立于宿主和其它的隔离的进程,因此被称为容器。Docker在容器的基础上,进行了进一步的封装,从文件系统、网络互联到进程隔离等等,极大的简化了容器的创建和维护,使得 Docker技术比虚拟机技术更为轻便、快捷。

一、基本知识

Docker中有三个重要的概念需要理解:

镜像(Image):类似root文件系统,提供容器运行时所需的程序、库、资源、配置等文件;容器(Container):镜像运行时的实体,提供创建、启动、停止、删除、暂停等操作;仓库(Repository):代码控制中心,用于保存镜像;

Docker官方会给用户提供一个官方的Docker仓库(https://hub.docker.com),它就像是手机里的应用商店,里面放着各种各样打包好的Docker镜像给用户下载;Docker镜像就像我们从应用商店里下载下来的软件安装包,用户通过使用Docker镜像运行起来就创建Docker容器,这个过程就跟我们使用软件安装包完成应用的安装后使用并无太大差别。

二、常用命令

Docker常用操作如下:…

Categories
程式開發

基于 Next.js 和云开发 CMS 的内容型网站应用实战开发

引言

随着腾讯云云开CloudBase发能力的日渐完善,有经验的工程师已经可以独立完成一个产品的开发和上线。但网上云开发相关的实战文章非常少,很多开发者清楚云开发的能力,但是不清楚如何在现有的开发体系下引入云开发

基于 Next.js 和云开发 CMS 的内容型网站应用实战开发 38

本文从云开发团队开发者+能力使用者的角度,以云开发官网 (http://cloudbase.net/) 的搭建思路为例,分享云开发CloudBase结合流行框架与工具的实战经验。

涉及到的知识点有

Categories
程式開發

ES的跨索引查询有多便利?对比下分库分表、分片更直观

本文由 dbaplus 社群授权转载。

序言

Elasticsearch,中文名直译弹性搜索,不仅仅在单索引内部分片层面弹性搜索,更强的是在跨索引外围支持分片弹性搜索,同比其它分布式数据产品,此特性更鲜明,代表了Elastic集群架构设计的优越性。

本文将从以下几个方面展开探讨:

  • 为什么需要跨索引查询?
  • 跨索查询有哪些经典应用场景?
  • 跨索引查询技术原理是怎样的?
  • 跨索引查询有哪些注意事项?