金融机构数据战略丨保障使用合规性,数据隐私是关键

金融科技数字金融
北邮在线数字经济研究院
郝东林
2020-01-12 · 17:05
[ 亿欧导读 ] 金融机构需要合法的利用各种大数据信息,形成有价值的“数据资产”呢。
数据隐私,金融科技,金融大数据,数据风控,爬虫工具,数据隐私 图片来自“Pixabay”

2019年9月份开始,一部分大数据公司在用户不知道的情况下通过网络爬虫爬取个人隐私数据,监管机构针对大数据风控行业进行了一场声势浩大的合规检查,数家大数据公司被协助调查甚至直接被查封。这场风暴,让整个大数据行业如履薄冰,很多人近日谈爬虫色变。

据了解,互联网上 超过50%以上的流量都是爬虫创造的,爬虫本身只是互联网中常见的一种工具,例如我们用的搜索引擎,还有很多热门数据都是通过高性能的爬虫,才能有效地为用户提供更好的服务,技术是中立的,其实并不存在非法的性质。

另一方面,国家十三五规划纲要在2016年出台时,就提出将在 2020 年把大数据产业做到一万亿产值。虽然国内的大数据行业还处于初级阶段,但每家金融机构潜在的大数据资源非常丰富,只是很多数据在企业内部是分散的、凌乱的、没有体系化的数据,属于破解等待发掘的“金矿”。

那么,在这种背景下,如何有效利用合规数据,避免违规陷阱呢?如何在监管机构允许的数据隐私保护条例下,将外部的合规数据与企业内部的数据内外结合,形成高价值的“大数据资产”呢?如何基于数据打造自己的独特核心竞争力呢?这就涉及一个金融机构的数据战略问题:如何有效利用合规数据,避免违规陷阱?这就需要我们对爬虫和数据,有个系统的了解与准确的认识。

一、网络爬虫是什么?有哪些价值?

网络爬虫又称网络机器人、网络蜘蛛,是互联网时代一项运用非常普遍的网络信息搜索技术。爬虫的本质是一种能自动获取网页信息并按照指定规则提取相应内容的程序。一个最简单的例子,我们经常看的今日头条、微博等,其新闻资讯大都来源于对合作媒体及相关网页采取的爬虫。通过网络爬虫,可以将互联网各个角落收集来的信息,汇总后再进行分类、排序,梳理出热点新闻,实现及时、动态更新推送。

在金融行业,以网络爬虫为基础获取合规数据,进而基于人工智能机器学习、NLP、知识图谱等技术,可以发挥高价值的应用场景主要包括:

1、精准营销领域:通过采集用户消费行为数据,分析和用户消费偏好,形成千人千面的“用户画像”,进而有针对性的推送商品、促销、广告等行为,提升营销效果。

2、风险控制领域:基于大数据、云计算、机器学习、知识图谱等技术,把网络采集到的工商、司法等合规数据与自有数据结合,挖掘数据资产的价值,对企业及用户的贷前、贷中、贷后等全领域进行更加准确的评估,最大程度的避免风险、减少损失;

3、舆情监测领域:通过爬取网页、论坛、微博、微信等开放的网络信息,自动分析出正面积极的或者色情、暴力、负面信息等,提前做风险预警。

二、什么是合规的数据?

一方面,网络爬虫技术,极大促进了数据资源的流通和变现;另一方面,随着金融、电商等各类场景的数据爬取案件频发,如何将这一“灰色地带”提上数据治理议程已成为非常紧迫的现实问题。

1、哪些是正确的爬法?

2019年10月30日,上海交通大学数据法律研究中心执行主任、数据法盟创始人何渊在2019数字信用与风控年会暨零壹财经新金融秋季峰会上表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3”。这个观点,可以作为一个参考。

2、哪些是违规的爬法?

通过侵入他人计算机信息安全系统去爬个人信息、国家秘密、商业秘密以及爬取数据导致影响市场竞争秩序的,就构成了违法。

在不能爬什么方面,可以总结为“三全一稳定,两秘密一隐私”。所谓“三全”是指国家安全、公共安全、经济安全;“一稳定”指社会稳定;“两秘密一隐私”是指国家秘密、商业秘密和个人隐私。

2019年12月,上海数据治理与安全产业发展专委会秘书处与赛博研究院联合发布了《数据爬取治理》研究报告,报告里提出,合规的爬虫,主要依赖于行为人在数据爬取的“访问进入-数据获取-使用数据”三个阶段下是否合规来进行综合的考量。

其实,在法律方面, 无论是我国的《著作权法》、《反不正当竞争法》、《反垄断法》、《民法》、《刑法》、《网络安全法》等,还是欧盟的 GDPR 合规落地方案,都对数据利用是否合规,制定了相应的条款。

总体而言,如果企业为了谋取自身利益,在未经当事人同意的情况下,通过爬虫软件爬取了公民的个人信息或者其他禁止类信息数据,就是不合法的,会受到相关的法律制裁。

三、如何利用合规数据,发挥数据资产的价值

目前,数据爬取在治理中面临着不少的挑战,包括:安全与发展难以平衡,数据基本权属仍无定论,数据法制体系尚不完善,行业性共识规范缺乏,数据壁垒严重,数据散乱而高质量数据较少等困境与难点。但另一方面,国家对人工智能和大数据行业,又鼓励创新,并给予了极大的支持。

在这种背景下,很多金融机构对如何发掘“数据资产”,产生了一定的困惑。

那么,金融机构如何合法的利用各种大数据信息,形成有价值的“数据资产”呢?在面临数据的采集和使用的壁垒变得越来越高的情况,结合一些领先的金融机构的做法,在东方林语的观点看来有两个思路可以借鉴:

首先,可以从三种维度获取合规数据,包括第一种,基于互联网的公开合规数据的挖掘;第二种,合法的第三方数据源的获取;第三种,企业内部分散的数据的统一整合。如果把这三种数据的价值能够统一梳理整合呈现,将会形成自己企业真正的“有价值数据资产”,进而形成基于数据的“核心竞争力”。

其次,打造企业内部的“数据中台”,将过往、现有、未来产生的数据,以及内部、外部的数据全部打通,继而再通过通过机器学习、NLP、知识图谱等领先型人工智能技术,将整合后的数据转化为业务上可以理解的“数据资产”,例如:精准用户画像、精准营销、风险控制、股权穿透、集团派系分析、反洗钱等场景。

总而言之, 通过构建内外部数据一体的数据中台架构,真正实现大数据的融合,再通过“数据升级”从而真正实现实体产业转型升级,进而建立“与数据对话”的分析流程,对内实现数据的智能服务,对外打造个性化产品和服务,才能真正实现金融机构的数字化转型和跨越式发展!

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部