数据“成精”究竟有多可怕？网络怎么知道我快秃了？

架构师之路

2019-11-22

全文共3108字，预计学习时长9分钟

数据“成精”究竟有多可怕？网络怎么知道我快秃了？

图: Franki Chamaki/Unsplash

我们的数据知道一些我们不知道的事……

今年早些时候，Facebook给我推送了一项调查：“我们需要您对行动辅助工具的专业见解。出于好奇，我点了进去，发现内容是筛选自己喜爱的轮椅样式。一周后，我的推送里出现了一则广告，是为听障人士设计的高音量闹钟，随之而来的是视力辅助设备，产后抑郁恢复，以及营养咨询广告。

我的确有些身体上的不便，研究身体残障也是我工作的一部分。所以把我列为残障辅助工具的受众也合情合理。然而我从未使用过轮椅之类的助行器，因此也没法提出任何专业性建议。讽刺的是，对于一个记录用户所有人际关系和重要事件的网站来说，我的身心状态都不符合网页广告对我的判断。难道所有研究身体残障的人都是残疾人吗，亦或是所有残疾人都使用轮椅？

我并没有觉得被冒犯，事实上，我被这些大胆的算法吸引住了，它们默默地对我进行诊断，再给出某种“处方”，因为它们认为广告产品可以帮到我。但无论我是否需要这些产品，这些算法都会让人觉得自己有缺陷，即我身心有问题，而这些产品可以帮我解决它。运用这种“自动诊断”的方法可以认识我们眼中的自己和数据眼中的自己，并看看这两个认知是如何互相影响的。算法感知人类的方式及其无法正确看待我们这件事，透露了许多残疾分类以及我们的身体是如何有序组织的。这些障碍限制了人们以更深刻，更富同情心的方式来思考各种身心需求。

广告商使用算法的逻辑与健康和医学趋势的逻辑是一样的，只不过用数据更有说服力。

数据“成精”究竟有多可怕？网络怎么知道我快秃了？

图源：pexels

在实用且精准的广告投放中，网络服务会对用户的行为数据进行收集，处理与合成，最常见的是在特定网站上分享的决定和信息，数据跟踪cookies和其他能辨认出个人信息的数据。传统广告商会购买特定的广告位，而现在的广告商会根据目标客群，进行针对性广告投放，并不断对广告投放效果进行再评估。

有关实用广告投放对隐私的影响以及在线体验操控的说法已经不少，然而对算法导向型广告如何隐式地诊断并给出相应“处方”则研究较少。

疾病诊断通常是搜集身体情况和病史信息，根据已知的医学知识来处理症状及病史。疾病诊断与算法的概念类似，都是一步一步解决问题或者达到某个目标的过程。精准广告投放也是机器学习取代人类决策的另一个例子，因此开发者会说是人存在偏见，犯了错误。

这些算法不仅试图拉拢理想客户，还在一定程度上创造了客户。算法收集的数据形成了一个自己的翻版，不是“自己”，又并非“不是自己”。数据构成的自我翻版能综合分析个人电子足迹，比如，购买记录、搜索历史、甚至线上人际关系。它就像我们的影子，但绝不是镜子里的自己。不如说更像扭曲的映射，影响我们自己和别人看待我们的方式。

监控学专家大卫∙里昂提出了“社会分类”这个概念，收集整理数据，设计特定受众就是一个例子。电子监控的首要目的并非简单地辨认出捣蛋的人，而是利用数据将不同的人进行分组，最后达到监测的目标。由于广告的作用之一就是让受众觉得自己需要某样东西，所以广告才会不停强调某种缺失感——这一个性化流程的监测呈现出一种与受众之间，经过判断的，且不为人知的亲近关系，根据性别，收入，种族和国籍将人们分成不同的社会经济群体。

数据“成精”究竟有多可怕？网络怎么知道我快秃了？

图源：pexels

人们的搜索历史会揭露更多平时不愿分享的私人生活。算法似乎比最亲密的朋友和家人更了解自己的私生活，这一点让很多人都莫名恐怖。2012年，一个年轻女孩试图向家人隐瞒自己怀孕的事实，但Target给她发了婴儿用品的优惠券。她爸爸走进超市，跟经理投诉其乱发优惠券的行为，但实际上这个女孩的网络浏览记录说明，Target比她家人更了解她的身体状况。

还有人反映，自动诊断让他们觉得很不安，作家赛思·斯蒂芬斯·达维多维茨（Seth Stephens-Davidowitz）就曾发问：“网络怎么知道我快秃了？“从未公开表明自己脱发的他总能收到生发膏广告。这些广告算法精准得令人发指，它们对我们的身体和精神状态做出分析，却毫无踪迹可循。

在算法失灵的情况下，比如我并不使用轮椅，比如那个年轻女孩没有怀孕——一些人可能会喜欢这些错误，这表明数据跟踪与算法并不像技术专家声称的那样精确。换言之，监测完全失灵了，我们不知不觉欺骗了系统，隐藏了真实的自我。

但这些算法究竟对我们了解多少呢？，对于广告商可以使用哪些数据来生成个性化产品推荐，每个社交媒体平台都有不同的规定。面对众多批评和潜在的官司，2019年5月，Facebook公布了关于其广告投放准入标准的变动，尤其对医疗类广告商产生了很大影响。为避免歧视，Facebook附属广告商禁止投放基于种族、收入水平、性别取向、身体残障及购买记录形成的广告。然而虽然不能直接使用这些因子，算法仍可以通过分析其他数据建立用户画像。

电子监控通用准则的设立还需时日。目前为止，算法收集了多少信息，利用了哪些信息来做决策都难以界定。实用广告的兴起，与医保电子化、自动化以及视保持健康为自身责任的行为是相呼应的，这种责任使很多人都产生罪恶感，于是陷入对自我提升的长期追求中。健康是人们值得追求的理想状态，这使得很多人去买一些所谓有预防功效或可药到病除的产品和服务，包括那些整天出现在推送广告中的产品。

我们的身心并不无问题需要解决，只是存在个体差异。

实用广告投放是向医学数字自动化迈出的一大步。专业医疗人员如今倾向于使用辅助性的诊断算法来使诊断流程化，标准化。在线症状检查和健康手表的兴起也拉远了医生和病人之间的距离。广告商使用算法的逻辑和这些医学趋势是一样的，并且数据更具说服力。虚拟的自动化诊断能从一个人的个性中提取出数据，并将其标准化。重要的是，医生或售货员都无需与病人或顾客面对面进行沟通或决策，而机器甚至都没有接触过我们的身体，就能作出决策。

在身体残障研究中，残疾被视为社会、生理和心理的一种状态，但也是一种身份。我们的身心并无问题需要去解决，只是存在个体差异。我们都需要明白社会对残疾的看法是如何产生和扩散的。如果是自动诊断，商家声称自己的产品有某种“治愈“效果，这些看法就会在商家的宣传中产生并扩散。“残疾”通过算法定义，也通过算法解决。这只是另外一种数据模式，也就是人类设计出能反映社会偏见和对身体残疾认知的数据模式。

对残疾的自动监测反映了定义残疾是存在一个数据标准的。这将残疾的身份和体验概括化，强调了残疾和非残疾的划分。这个二分法只是另一个识别和定义我们身体价值的办法。我们都知道，二分法的思想可以简化对自己和他人的身份认知，将每个人都限制在和网络广告方框那样小的范围里。

每次看到推送里的错误诊断，我都习惯性地去无视它们。虽然我不用轮椅，但要算法定义我和目标客群的区别其实并不容易。可能我和轮椅使用者的网络行为数据之间有交叉的地方。可能残疾人和非残疾人之间的二分法使得我们的网络身份和真实身份背道而驰。可能我们的数据能知道一些我们自己不知道的事情，因为即使算法存在愚蠢的缺陷，它们还是能教会我们许多东西。

数据“成精”究竟有多可怕？网络怎么知道我快秃了？

数据“成精”究竟有多可怕？网络怎么知道我快秃了？

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

大数据广告算法

架构师之路

0 关注 0 粉丝 0 动态

相关推荐

在Python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。解决问题的挑战性是选择使用哪种方法。今天，我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表" K最近邻居"

scuyxi 2020-10-25

不用SMOTE算法，我们如何处理多类不平衡数据？

机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。如果不能处理好这个问题，模型将会成为灾难，因为使用类不平衡数据建模会偏向于大多数类。处理不平衡数据有不同的方法，最常见的是过采样和创建合成样本。SMOTE是一种从数

FromCybertron 2020-10-06

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

架构师之路

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号