xChar
·a month ago

用户画像这个理念是交互设计之父阿兰 · 库珀提出来的。他说用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。记住用户画像就是用虚拟代表来表达我们的大部分用户,情报分析师小编想说的再直接一点。

创始人怎么样作用户画像,希望大家就记住一点,你就是要知道我的关键用户,我的核心用户到底长啥样?是男是女,到底喜欢啥?或者说能不能用一句话描述出你的核心的用户,用户画像,甚至是互联网公司核武器。

比如腾讯,比如百度,比如阿里巴巴,这三个公司被称为 BAT 。BAT 最核心的能力,我认为就是大数据的用户画像能力。再跟大家说个段子,大家都知道腾讯,腾讯做产品很强,如果你做了一个产品被腾讯盯上了,腾讯也做个产品,腾讯能很快超越你,为什么呢?因为腾讯有一个非常强大的用户的挖掘能力。

举个例子,腾讯的技术分为 T1、T2、T3、T4、T5 。T5 相当于首席科学家,基本上就一两个人,T4 在腾讯有不少人,几十个人,什么叫 T4?腾讯叫 T4 专家组,就是能在腾讯进入 T4 的,一般都是经过上亿次用户运营的这种技术高手。腾讯公司遇到问题,就上 T4 专家组,就让这帮擅长用户画像的 T4 专家组......

用户画像这么猛,这么强,这么核武器,这里要讲讲第二个核心点,怎么干?一个创始人,他也不是产品经理,他怎么样做好用户画像?要找到种子用户。

好多人说什么叫种子用户?用户是分层级的,知道用户有什么?有目标用户,目标用户中间还有核心用户;核心用户的中间又有什么?叫种子用户。种子用户就像种子一样,是用户中的意见领袖,他们是用户中的有话语权的人,甚至是核心用户中的关键。

做用户画像,一定要找到种子用户,甚至做产品都要找到种子用户,大家知道种子用户几乎是所有公司做产品的第一步。举个例子,小米的种子用户是什么?小米现在是国内手机销量非常大的公司,小米的种子用户就是发烧友。

但是华为的销量也是国内数一数二,那华为的主流用户是什么?跟小米一样吗?不一样,华为的种子用户是什么呢?是商务精英。

再看一个 OPPO , OPPO 的销量在国内也是数一数二, OPPO 的用户画像跟他们一样吗?也不一样。OPPO 的用户画像是年轻女生,所以大家看找到种子用户非常重要,所以说,得种子用户得天下。

一、什么是用户画像

用户画像是建立在一系列真实数据之上的目标群体的用户模型,即根据用户的属性及行为特征,抽象出相应的标签,拟合而成的虚拟的形象,主要包含基本属性、社会属性、行为属性及心理属性。

需要注意的是,用户画像是将一类有共同特征的用户聚类分析后得出的,因而并非针对某个具像的特定个人。

用户标签集合

二、用户画像的步骤

(1)明确画像目的

确认画像目的是非常基础也是关键的一步。要了解构建用户画像期望达到什么样的运营或营销效果,从而在标签体系构建时对数据深度、广度及时效性方面作出规划,确保底层设计科学合理。

(2)数据采集

只有建立在客观真实的数据基础上,生成的画像才有效。在采集数据时,需要考虑多种维度,比如行业数据、全用户总体数据、用户属性数据、用户行为数据、用户成长数据等等,并通过行业调研、用户访谈、用户信息填写及问卷、平台前台后台数据收集等方式获得。

(3)数据清洗

就自身采集到的数据而言,可能存在非目标数据、无效数据及虚假数据,因而需要过滤原始数据。

(4)特征工程

特征工程能够将原始数据转化为特征,是一些转化与结构化的工作。在这个步骤中,需要剔除数据中的异常值(如电商 APP 中,用户可能用秒杀的手段以几分钱价格获得一部手机,但用户日常购物货单价都在千元以上)并将数据标准化(如消费者购物所使用的货币包括人民币与美元,需要将货币统一)和判断的标签标准化。

画像构建中用到的技术有数据统计、机器学习和自然语言处理技术(NLP)等,如图所示。具体的画像构建方法会在本章后面的部分详细介绍。

用户画像的构建技术

(5)数据标签化

在这一步将得到的数据映射到构建的标签中,并将用户的多种特征组合到一起。标签的选择直接影响最终画像的丰富度与准确度,因而数据标签化时需要与 APP 自身的功能与特点相结合。如电商类 APP 需要对价格敏感度相关标签细化,而资讯类则需要尽可能多视角地用标签去描述内容的特征。

优先级排序方法主要依据构建的难易程度和各类标签的依存关系,优先级如图所示。

各类标签的构建优先级

(6)构建用户画像

把标签分为三类:

第一类是人口属性

人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等

性别

未知

年龄

12 以下

12-17

18-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59

60-64

65 及以上

未知

月收入

3500 元以下

3500-5000 元

5000-8000 元

8000-12500 元

12500-25000 元

25001-40000

40000 元以上

未知

婚姻状态

未婚

已婚

离异

未知

从事行业

广告 / 营销 / 公关

航天

农林化工

汽车

计算机 / 互联网

建筑

教育 / 学生

能源 / 采矿

金融 / 保险 / 房地产

政府 / 军事 / 房地产

服务业

传媒 / 出版 / 娱乐

医疗 / 保险服务

制药

零售

电信 / 网络

旅游 / 交通

其它

教育程度

初中及以下

高中

中专

大专

本科

硕士

博士

人口标签

第二类是兴趣属性

在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模。为了保证兴趣画像既有一定的准确度又有较好的泛化性,我们会构建层次化的兴趣标签体系,使用中同时用几个粒度的标签去匹配,既保证了标签的准确性,又保证了标签的泛化性。

如何构建层次化的兴趣标签?通俗来讲看看用户对那些内容和事物感兴趣,对感兴趣的内容和事物进行抽取、标签化和统计。

第三类是地理属性

常驻地的挖掘基于用户的 IP 地址信息,对用户的 IP 地址进行解析,对应到相应的城市,对用户 IP 出现的城市进行统计就可以得到常驻城市标签。

用户的常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等,如图所示是人群出行轨迹的一个示例。

人群出行轨迹

GPS 数据一般从手机端收集,但很多手机 APP 没有获取用户 GPS 信息的权限。能够获取用户 GPS 信息的主要是百度地图、滴滴打车等出行导航类 APP,此外收集到的用户 GPS 数据比较稀疏。

百度地图使用该方法结合时间段数据,构建了用户公司和家的 GPS 标签。此外百度地图还基于 GPS 信息,统计各条路上的车流量,进行路况分析,如图是北京市的实时路况图,红色表示拥堵线路。

北京的实时路况图

(7)生成画像

数据在模型中运行后,最终生成的画像可以用下图等可视化的形式展现用户画像并非是一成不变的,因而模型需要具有一定灵活性,可根据用户的动态行为修正与调整画像。

信息收集

隐私

抓包信息

积极参与的话题(关于社会事件的讨论以及经历)

喜欢使用的表情包及emoji表情、加入的群组和频道

发言(身份、生活、职业、生活习惯、单位、吐槽、收入、价值观、立场等)

行文方式(表达方式、句子结构、标点符号等)

截图图片内容(字体、应用页面、上方通知栏里的图标等)

分享链接和图片(参考)

照片(人、事物、位置、标志性物体、天气、光照、身份信息等)

社会性活动照片(名称、举办时间、海报、宣传语)

地域特征(特产、香烟、图腾、植物、地形)

语音(口音、方言、年龄、环境杂音)

分享文件(元数据、隐形水印、原图exif信息、文件来源、内容)

账号信息(头像、网名、签名/简介、密码,不同平台用相同信息)
(国内各种平台都开始陆续显示ip属地信息了,在不全局的情况下有没有一个收集这些显示归属地产品域名的项目,然后一键复制添加这些域名从而保护隐私?)
解决方法👇

哔哩哔哩IP定位接口

host, api.bilibili.com, Location IP

知乎IP定位接口

ip-cidr, 103.41.167.0/24, Location IP

微博IP定位接口

host-suffix, api.weibo.cn, Location IP

贴吧IP定位接口

host,www.baidu.com,Location IP

头条IP定位接口

host-suffix,toutiaoapi.com,Location IP

抖音IP定位接口

host-keyword,core-c-lq,Location IP
host-keyword,core-lq,Location IP
host-keyword,normal-c-lq,Location IP
host-keyword,normal-lq,Location IP
host-keyword,search-quic-lq,Location IP
host-keyword,search-lq,Location I

如何用一张照片推理具体位置|网络迷踪入门指南

写在前面

在开始正经的教程之前首先需要说明几点:

  1. 这篇文章将要介绍的是一种叫「网络迷踪」的,仅凭一张照片及有限提示信息判断出照片拍摄具体地点的推理游戏。它可以被认为是开源情报(Open-Source Intelligence, OSINT)[1] 的一种形式,指合法地从公开和可公开获得的资源中收集数据和信息的做法。
  2. 这篇文章不会介绍如何获取和分析「场外信息」,例如「本地人一看就知道」,或从出题者历史内容、社交平台上获取其身份和常住地信息。这篇文章不鼓励在「网络迷踪」中使用「人肉搜索」等涉嫌侵犯他人隐私的行为。
  3. 作者本人仅是「网络迷踪」的爱好者,与本人中提到的社交平台以及工具之间没有利益关系。同时,作者也是业余玩家,下述内容是对个人经验的总结,是一份快速入门指南,而并非严谨专业的教程。希望这篇文章能帮助一部分对这个游戏感兴趣的人入门,也同时希望能帮助大家意识到在公开渠道发表照片可能带来的隐私风险。

一张照片,就能知道你在哪里?丨网络迷踪初探「网络迷踪」是开源调查最具影响力的一种形式,因为它看上去极具戏剧性:一张图片就能准确定位。但这种戏剧性源于人们低估了一张图片所能包含的信息量,以及互联网开源信息的规模和广度。

编注:本文旨在科普「普通人如何通过一张照片反向推断现实地点」这一流程并希望可以借此方式给读者带来一点警醒。如读者基于本文开展探索和研究,应注意尊重他人隐私和相关法规。

2011 年,一则名为《我是如何推理出王珞丹住址的?》的帖子被疯狂转载。帖子作者凭借王珞丹几条微博、自己对北京城的了解和 Google Earth,用时四十多分钟就推理出了王珞丹前住址。(王珞丹是彼时大火的职场剧集《杜拉拉升职记》主演,当红女明星,暴露年龄的作者注。)GGMM 们在惊呼「碉堡了」之余,不免担心自己也会被调查一番,纷纷表示再也不敢在网上发东西了。

image

相关报道。图自 搜狐传媒

十年后的 2021 年,在众多爱好者和创作者的引介下,一种被称为「网络迷踪」[注释 1] 的侦探游戏进入大众视野:在只有一张图片和寥寥提示的条件下,大神们仅凭一台联网的电脑,足不出户即可找到图片拍摄地,有的甚至能确定拍摄时间。如今的网友们在惊呼「卧槽牛批」之余,不免担心自己也会被调查一番,纷纷表示再也不敢在网上发东西了。

image

炒饭社区网络迷踪板块。图自 炒饭社区

image

B 站 up 主「我是 EyeOpener」是较有影响力的网络迷踪引介者之一。图自 bilibili

互联网的历史是「毅种循环」,但循环是螺旋上升的。十年间全球网民数量翻倍,网页数量翻了两番,虽然我们都没什么长进,但这种调查技术已在海量互联网信息加持下日趋成熟。它的正式名字叫做开源调查(Open Source Investigations, OSI)或开源情报(Open Source Intelligence, OSINT)[注释 2],指利用互联网上的开源信息展开调查的技术。

「网络迷踪」是开源调查最具影响力的一种形式,因为它看上去极具戏剧性:一张图片就能准确定位。但这种戏剧性源于人们低估了一张图片所能包含的信息量,以及互联网开源信息的规模和广度。你是否担心自己的照片会暴露隐私?你是否好奇侦探们如何抽丝剥茧得出拍摄者的位置?今天,经过这篇文章的介绍,你也可以揭开网络迷踪的神秘面纱,成为一名网络侦探,成为自己的网络内容安全专家。

网络迷踪的玩法

炒饭社区是一个类似于贴吧的兴趣聚合社交网站,其 网络迷踪版块 在圈内极有影响力。每天,很多饭友在此处发布自己拍摄的照片,向「侦探们」发出挑战。版主团队定期举办网络迷踪积分赛,得胜还有精美奖杯相送。(非广告,特此声明。尚未注册的作者注。)

image

炒饭社区网络迷踪板块的内容。图自 炒饭社区

并不是所有图片都适合成为一道谜题。在炒饭社区,谜题图片集中在城市建筑、交通工具(尤其是飞机高铁)、道路、景点等几类内容上,且以远景为主。如果拍一张自己桌上的摆件,或者路边小花小草,侦探们是很难从图片内容中获得有效信息的。

网络迷踪的谜面还可以是全景图、视频等多媒体形式。少数派介绍过的 GeoGuessr 、百度地图推出的「全景城市探险家」等就是以全景图为载体的。

网络迷踪的基本思路可分为如下三步:

  • 提取:仔细观察图片,提取其中所有有效信息。无论它多么细小和模糊,都不能放过;
  • 分析:利用自身知识储备和互联网工具分析所得信息,缩小排查范围;
  • 验证:运用互联网工具展开排查,直至搜索完分析阶段获得的排查范围。如果未能成功找到,返回前两步再试。

提取和分析信息是网络迷踪的关键,也是其乐趣所在。这有赖于侦探们广博的知识面、强大的互联网信息检索能力和长期的经验积累。

网络迷踪侦探更倾向于通过逻辑推理而非暴力破解得出答案,推理过程越难,得出答案的成就感越强。考虑到现实的复杂性,这一推理过程并不严格,更多是基于生活经验的大概率推测。

图片中隐藏着什么?

要成为合格的网络迷踪侦探,第一步就是会看图,能够挖掘出图片中的隐藏信息。笼统地说,一张图片可以包含以下几方面信息:文字信息、基础设施信息、自然地理信息。

文字信息

文字信息是推测地理位置最快速简单的方式。相比其他种类信息,文字信息优势巨大:

  • 可能直接透露位置:路牌、政府机关大楼、车站站名、门牌号等文字信息都与地理位置强关联,很容易成为送分题。
  • 没有专业门槛:你可能需要一定的专业知识和比对分析过程才能确定植物的品种、飞机的型号,而解读文字信息完全不需要这些,能认字即可。
  • 便于搜索:你可以直接在搜索引擎里搜索文字。虽然很多搜索引擎支持以图搜图,但其准确性尚不能与文字相比。

因此,网络迷踪侦探不会放过图中任何文字信息,即使它模糊不清也要辨识一番。

例如,给出下面一张图片,询问拍摄者位置:

image

第一道谜题图片,由作者拍摄。

这是一家沙县小吃店。但直接搜索沙县小吃并不是个好主意——全国沙县小吃店数以万计。仔细观察图片细节,可以发现多处文字信息:隔壁「* 记」,门窗倒影上有「王府」「旺基」,门牌号「香榭 」「23」,电动车挡泥皮上「星桥莫拉克专卖店」的广告。

image

电动车很少跨城市,因此可以通过其牌照和挡泥板广告推断拍摄地所在城市。牌照上城市字样模糊不清,只能看出是两个字,于是从挡泥皮入手。

在全国范围搜索「星桥」,排除「三星大桥」之类的模糊匹配项,剩余可能项有 12 个:浙江省杭州市星桥街道、湖州市星桥村,福建省三明市星桥村、福清市星桥村,四川省资阳市星桥村、广安市星桥村、广元市星桥村,重庆市星桥镇,云南省丽江市星桥村,湖南省邵阳市星桥村、株洲市星桥村,湖北省咸宁市星桥村。从门窗倒影来看,此地商业活动密集,并不像是普通农村。

image

全国范围内的「星桥」(部分)。图自百度地图

广告上还提供了「莫拉克专卖店」的手机号。众所周知,我国手机号前三位代表运营商,中间四位为地区编码,所以手机号前七位足以确定号码归属地。这未必一定是拍摄者所在地,但大概率是真的。

image

手机号比较模糊,前七位中能够看清的数字是「1508*64」,第五位像 3、5 或 8。查询可知,1508364 属江西新余,1508564 属贵州遵义,1508864 属浙江杭州。比对星桥的搜索结果,只有杭州市重合。因此,可以暂且假定拍摄者位于杭州,展开下一步搜索。

接下来注意到门牌号「香榭 」「23」。门牌的内容有可能是道路名、小区名、村镇名。考虑到附近商业密集,此处较大可能是道路名。「香榭」后内容被遮挡,从比例位置来看尚余一字,应该是「路」「街」之类。

image

在杭州市搜索「香榭路」,果然找到一条名为香榭的道路,属星桥街道。

image

杭州市星桥街道香榭路。图自百度地图

在该区域搜索沙县小吃,找到一家「疑似目标」:

疑似沙县小吃店。图自百度地图
image

可惜街景较旧,没有找到与图片类似的店面。但建筑风格和路牌格式均相符。

image

香榭路全景图。图自百度地图

在美团上能够找到这家店铺,门牌号为「香榭路 23-1 号」,店面图片与谜题图片一致。至此,确定拍摄者位置在浙江省杭州市临平区香榭路 23-1 号沙县小吃门口附近。

image

沙县小吃天都城店。图自美团

以上便是一道网络迷踪 送分题,因为仅需分析文字信息即可得出答案。

基础设施信息

大到城区,小到垃圾桶,基础设施包罗万象,涵盖市政、交通、建筑等领域。根据基础设施展开网络迷踪,理论依据在于如下两点:

  • 可识别性。作为工业社会的产物,相同功能的基础设施外形表现大同小异,这使我们能够分辨「这是什么」。确定如港口、机场、体育场等大型设施对确定位置会起到关键作用。
  • 地域差异性。受到国家和地区政策、气候条件、经济地理条件的影响,基础设施彼此之间也会存在差异。这使我们能够推测「这在哪里」。

简要列举一些常用的基础设施信息:

  • 地标建筑:地标建筑一般具备一定的独特性,可以借助以图搜图定位到城市。若是山寨模仿者,利用新闻报道也不难找到。
  • 城区:中心城区、城中村、城乡结合部的天际线和鸟瞰图各有差异,城市规模的大小也会影响到这些城市景观。
  • 房屋:房屋一般坐北朝南,可用于判别方向。各地农村民房具有不同风格,如红瓦尖顶、粉墙黛瓦、窑洞、四合院等,可推测所在地区。
  • 道路:不同类型的铁路、公路各有其特殊设施,如铁路接触网、护坡、隔离网等。铁路车站、公路收费站、立交桥、交通标志等也是重要线索。风格独特的路灯也有可能成为解谜的突破口。
  • 车辆:车牌可帮助推测所在国家,有的还可进一步精确到一级行政区。如果汽车靠左行驶,则可排除掉规定汽车靠右行驶的国家,反之亦然。城市公交车、出租车通常采用统一或成系列涂装。
  • 列车、飞机:根据列车、飞机的外形细节可确定其型号。列车、飞机的班次均可在网上查询。特殊涂装也能透露重要信息。根据飞机上照片的拍摄角度,可大致判断飞机是否处于起飞或降落状态。
  • 特殊设施:气象站、雷达站、体育场、港口码头等地常有特殊设施,如体育场专用照明灯、码头龙门吊等。识别这些特殊设施具备相关知识背景。

基础设施信息是网络迷踪中最常见、最主要的信息种类,本文无法面面俱到,只能蜻蜓点水。这里我们介绍一个典型的根据基础设施信息判定位置的案例,它来自开源信息专家 NixIntel 的博客。这位专家的博客为国内的网络迷踪博主提供了丰富素材。

image

第二道谜题图片,图自 Swapfiets 公司

这是一张 Swapfiets 公司发布的广告照片,需要寻找照片的位置。NixIntel 从图中提取出如下信息:

  • 这是一座拥有高楼的城市。
  • 道路上的轨道表明该城市运营有轨电车。
  • 能够看到部分车牌,格式为 PJ-620-*。
  • 灯柱上有黑白色条纹。
  • 道路左侧建筑有显眼的修长白色柱子。

image

NixIntel 访问了该公司官网,得知彼时该公司在荷兰、德国、丹麦、比利时四个国家运营。具体在哪个国家,可以用车牌判定。WorldLisencePlates 网站收录了全球各国的车牌样式,上述四国样式如下:

image

四国车牌比较。图自 WorldLisencePlates 

比对下来,荷兰车牌的样式最为接近,下一步就先搜索荷兰好了。如果不是荷兰也没太大关系,我们退回来重新选择即可。

选定了国家,有没有办法细化到省区或市呢?回顾刚刚的线索,有轨电车似乎不错,毕竟不是所有城市都有。查询 维基百科的荷兰有轨电车页面 可知,荷兰目前只有五个城市尚在运营有轨电车:代尔夫特、乌德勒支、鹿特丹、阿姆斯特丹和海牙。

image

荷兰有轨电车词条,图自 维基百科

大白柱子的建筑此时派上用场,它大概率就在这五个城市之中。Phrio 网站收录了世界各地的大型建筑,可按城市筛选,并配有图片。代尔夫特的页面如下:

image

Phrio 网站代尔夫特页面。图自 NixIntel 博客,发稿时该网站尚在维护中

代尔夫特没有发现明显匹配的建筑,它的建筑体量普遍没有广告照片中那么大。乌德勒支有几座更大的商业建筑,但依然没有符合的。鹿特丹、阿姆斯特丹和海牙的规模要大得多,答案很有可能在它们之中。大规模城市必然有大量高层建筑,这是鹿特丹的大楼们:

image

鹿特丹高层建筑一览。图源同上

浏览过后可以发现一栋熟悉的建筑,高挑的白色柱子非常显眼。它叫做联合利华大厦:

image

联合利华大厦。图源同上

进入街景,熟悉的黑白电线杆、电车轨道和路面,确认拍摄地就在这里。

image

鹿特丹街景。图源谷歌地球

这个案例很好地体现了互联网开源信息的强大之处。在没有用到专业知识的情况下,我们仅提取了几个信息点,就可以利用互联网的多样化资源展开探索,得出答案。这是网络时代赋予我们每个人的超能力。

自然地理信息

常见的自然地理信息有光影、天气、地形地貌、植物等。提取解读自然地理信息需要博物君般广博深厚的自然地理知识积累,以及在此基础上的直觉。在很多著名网络迷踪案例中,关键步骤只是大佬的一句「我感觉像这个地区」,其中奥妙不可言传。

常用的自然地理信息有:

  • 地形地貌:水域(河流湖泊水库海洋)、山脉(积雪)、土壤颜色等。
  • 植物:植物通常有一定的分布区域,当目标范围不明确时,可以用植物信息辅助排除。但因为广泛的物种引进,这一排除并不十分可靠。
  • 光影:从影子可以得出大致方向,进而判断行进方向或道路方向。Suncalc 网站可帮助确定影长、位置或时间。图片中通常不难看出是白天还是黑夜,这有助于排除一部分不符合图片日夜状态的班次。
  • 天气:天气是常见的辅助信息之一。根据所在地历史天气变化情况,可以推知拍摄的日期范围。
  • 人物:姑且算作地理信息吧。根据图片中的人种,可以猜测图片拍摄地。

本节以炒饭社区的 一个帖子 为例。本题是由炒饭社区两位大佬 鞍山吴彦祖 和 (下称「猫佬」)合作解出的。题面图片如下,询问拍摄者位置。

image

第三道谜题图片。图自 炒饭社区

鞍山吴彦祖对这张图片的判断是:

根据天气及山形植被,可以判断应该是北京以北(包括东北三省及内蒙部分地区)。

根据远处房屋红瓦尖顶,且门前有类似于玉米农作物,基本可以确定是在东北地区。

image

这个判断过程更多是基于经验,但东北地区这一范围仍然较大。这也是依据自然地理信息推断的特点:需要丰富的经验知识,但又不能把范围缩到很小的区域。

猫佬进一步给出了两点判断:

左侧铁路有路灯和站名牌,推断拍摄位置位于铁路车站附近。

远外民房应该是南北向的,再加上北向归线以北的影子不可能在南边,所以推测方位如下:

image

左侧铁路大致南北走向,上穿铁路大致东西偏南走向,交叉点距离车站 500 米以内。

至此,图片中的信息已经提取完毕。靠人力搜索东北地区的所有铁路交叉点虽然可行,但时间成本过高且难免疏漏。有没有工具能够代替人类做这件事呢?有的!隆重介绍在开源调查领域具有划时代意义的搜索工具:Overpass Turbo。这是 OpenStreetMap 基于 Web 的数据挖掘工具。简而言之,它是一个地图搜索引擎,能根据用户指定的位置关系搜索所有符合条件的地点。在国内它收录的兴趣点较少,但铁路相关信息还比较完整。

别激动地太早,下面这个消息可能会令人望而却步——使用它需要学习代码。Overpass Turbo 使用一套被称作 Overpass API 的查询语句。

image

本例中我们使用的核心代码如下,由猫佬给出。我尝试了引入高铁条件缩小范围,但发现 maxspeed 字段存在缺失,于是此处沿用原代码。限于篇幅,仅给出简要注释说明,感兴趣的读者可以自行搜索教程学习。

// 搜索区域内长度大于 1 公里的铁路桥,存储于 w1
way[railway = rail][bridge](if: length() > 1000)({{bbox}}) -> .w1;
// 搜索与 w1 交叉(距离为 0),长度大于 1 公里,非铁路桥铁路,存储于 w2
way(around.w1: 0)[railway = rail][!bridge](if: length() > 1000) -> .w2;
// 给出所有在 w1 附近 500 米内、w2 附近 20 米内的铁路车站
node(around.w1: 500)(around.w2: 20)[railway = station];

东北地区范围较大,可以分两三次搜索。结果如下,圆圈标记表示命中:

image

image

Overpass Turbo 搜索结果。图自炒饭社区

根据前文分析的铁路走向,可以筛选出一个符合条件的车站:塔黄旗车站。

image

image

塔黄旗车站。图自炒饭社区、高德地图

这个案例并非纯粹依靠自然地理信息,但据此判断所在地区大幅减少了搜索工作量。借助 Overpass Turbo,快速大范围排查成为可能。

场外信息

当图片中的信息不足以判断出位置时,侦探们不得不获取场外提示了。以下各项若涉及到隐私和法律问题,请务必在出题者或当事人同意,或官方部门授权的情况下使用。

  • 图片 EXIF 信息:如果出题者发布了原始图片,且网络平台未抹除 EXIF 信息,则可通过此信息直接定位到拍摄地。
  • 出题者历史记录:查看出题者在公共社交平台上发布过的内容,包括个人主页和评论。有人会在不同公共社交平台使用相同头像或用户名、发布相似内容,这样很容易跨平台搜索到。
  • 社交网络关系:出题者的好友网络也有可能暴露其本身。与他频繁互动的好友可能有相同生活经历、相同兴趣或属于相同组织,而好友发布的内容也很可能与其本人相关。

再也不敢在网上发东西了?

网络迷踪经常受到隐私方面的质疑。为了避免公众疑虑,炒饭社区和推特上的 @Quiztime 均以出题人发布本人拍摄照片为主。但是,难免有心怀不轨者偷偷摸摸针对个人展开调查。因此,大家发布内容时应该多个心眼,假设自己的所有图片都有可能暴露拍摄位置。

  • 发布平台是公开平台吗?查看我在该平台发布的内容前,是否需要加我好友或经我同意?发布人人皆可访问的信息需要十分谨慎。
  • 如果图片拍摄地得知,会涉及到核心隐私吗?展示自己去过的景点、公共场所其实影响不大;但倘若拍摄地与你及好友的居住地、工作地相关,则须确保图片中不含上文介绍的可以展开调查的信息,文案也不涉及到对通勤、交通的描述。
  • 避免发布国家安全相关图片,例如武器、军队等。

注意到以上几点,基本就不会像王珞丹那样被偷家了。

假如图片不涉及到核心隐私,但你也不希望被调查到拍摄位置,则须注意:

  • 避免发布同一地点的多张图片,这很有可能为开源调查提供充足信息。
  • 避免发布含有较多文字信息的图片。
  • 避免发布含有特殊基础设施信息和自然地理信息的图片。
  • 避免发布原图。

相信经过本文的介绍,各位读者已经了解了网络迷踪的基本玩法,能够分析出一张图片中含有的重要线索。现在,打开自己的微博和朋友圈,你也可以分析哪些图片会暴露自身位置,进而成为自己的网络内容安全专家。

教练,我想学

在恪守隐私安全的前提下,网络迷踪不失为有益的解谜游戏。它能够扩展玩家知识面,增进对现实和网络的了解,锻炼推理能力和自主获取信息能力。

本文侧重于提取图片信息的介绍,网络资源只是顺带提及。因为在我看来,知道哪些信息可以搜索比如何搜索更重要,也是大部分人参与网络迷踪的最大障碍——无法意识到图片中存在着关键信息。在突破这一难关后,你可以借助以图搜图获取进一步信息,或者到专门介绍这类信息的网站上筛选。假如不知道有什么网站,你还可以搜索或者到专门的论坛上提问,这都是可以慢慢积累经验解决的问题。

有哪些论坛可以交流?有哪些大神的博客可以访问?有哪些资源可以为我提供帮助?这些是留给你的网络迷踪题:前面我已经给出了很多提示,现在是锻炼自主获取信息能力的时候了。

祝你的网络探索之旅顺利!

注释 [1]:这一命名可能与 2018 年电影《网络谜踪》有关,但二者「迷」的写法有差异。这部电影讲述了一名工程师父亲利用互联网寻找失踪女儿的故事。

注释 [2]:相近的术语还有有在线开源调查(Online Open Source Investigations, OOSI)。鉴于它们通常可以互换使用,本文不打算探讨其中的差异。感兴趣的读者可以自行了解。

初入「网络迷踪」

2011 年,人人网上一个名为「罗霄宇 BHSFer」的用户发表的一篇名为《我是如何推理出王珞丹住址的?》的日志被各家媒体转载,作者介绍了自己利用王珞丹微博所发的照片以及 Google Earth 等工具,历时 40 分钟推理出王珞丹前住址的全过程,彼时曾掀起轩然大波 [2]

2015 年,有微博网友发了一张形似龙的河流或水库的照片 [3],当时很多网友留言说是「假的」、「P 的」(当然更多网友是在转发求好运),经过我的寻找,这是葡萄牙的奥德莱蒂河(Ribeira de Odeleite),证实确有此事。这应该算做我个人的第一次「网络迷踪」之旅吧。

image

进入到短视频时代,B 站 up 主「我是 EyeOpener」的几个「网络迷踪」系列视频 [4] 获得千万次播放,「探照寻址」[5]、「宇宙百科君」[6]、「夜点短视频」[7] 等人的「网络迷踪」专栏相继开播,将「网络迷踪」这种玩法呈现给了大众视野。

类似玩法在国外已经相当流行。例如在 Twitter 上,一位叫「Verif!cation Quiz Bot」的机器人 [8] 的迷踪题每天都会吸引大量网友参赛。与此同时,Twitter 上还有大量关注「俄乌战争」的网友们自发地对各类网传的图片、视频进行地理定位,并将其汇总在一张 Google 自定义地图 [9] 上。在此期间,不少 OSINT 相关技术和工具应运而生。

image

如果你也希望玩类似推理游戏,可以前往国内的「炒饭社区」的「网络迷踪」板块:https://chao.fan/f/84[10] 这个论坛是国内圈内最大的爱好者聚集地,不仅每天都有饭友发出各种图片(绝大部分都是自己拍摄或授权发布的),向其他「侦探们」提出挑战,社区还会根据成就赠送徽章,并定期举办比赛。论坛还有个子版块叫「远古难题」,6 个月没有人能破解的谜题则会自动移动到该板块,成功解决「远古难题」则可以获得宝贵的「初解远古」以及「远古粉碎机」徽章。

image

插播一句,「炒饭社区」还有一个叫「图寻」的小游戏(https://chao.fan/tuxun),这个游戏取材自类似的「GeoGuessr」,每分钟玩家会出生在真实世界一个随机位置上,玩家需要根据周围环境的全景图,推测出自己在世界地图里的位置,按推测位置与实际位置距离之差计算积分。可多人实时在线竞技,可以匹配 Solo,还有每日挑战赛,休闲的同时还能顺便逛逛世界各地风景。

尽管「网络迷踪」本身并没有明确的难度划分标准,从我个人的经验来看,「网络迷踪」的题型主要有三种:

  • 送分题:分为识字题和识图题两种,并不考验综合分析能力技巧,适合新手入门。
  • 分析题:需要通过识字、识图提取画面信息,结合个人知识储备和各类工具进行缜密分析得到答案。
  • 超纲题:画面中可利用的信息过少,即便是老手也很难解读,很容易成为「远古难题」。

我将以「炒饭社区」中常见的各类不同难度的谜题为案例,通过由浅至深的方式来聊聊这篇入门指南的核心内容:如何用一张照片推理具体位置。

1. 送分题 —— 学会「识字」和「识图」

当看到一道「网络迷踪」题目后,首先要做的就是进行「识字」和「识图」,仔细审题和观察,提取画面信息、扩大信息含量。实际上社区里的不少新手谜题仅仅通过简单的「识字」或「识图」就已经能完成解答了,如果还不够,则再进行进一步分析。

1.1 识字

文字信息是用于推测照片拍摄位置最简单也是最直接的方式。照片的任何犄角旮旯都可能藏有文字,因此即便是模糊不清或已经被打码过的信息,都要善加利用,它们很可能成为解题关键。文字信息可能来源于:

  • 建筑招牌、商铺名称
  • 车辆牌照、电话号码
  • 路牌、公交车线路
  • 宣传海报、广告牌等

先举个简单的例子:https://chao.fan/p/1199749(图 1.1-1)

image

原帖作者声称这张图片「拍摄于 2021 年 4 月 25 号重庆,女友坐在车里拍摄的」。原图非常模糊,除了能识别出一个「@汽车吧」的水印以外,还有一个「公园洋房 6850 01**」的广告语文字。除此以外,建筑和道路都非常普通,没有什么特征可言。

看到这道题,我首先想到的是这个「@汽车吧」的百度贴吧水印——这代表着这张图可能从贴吧转载而来,原帖可能包含高清大图或者其他信息(其实属于场外信息了),可惜在「汽车吧」搜索之后没有找到这个帖子。所以我再次把注意力集中在这个「公园洋房 6850 01**」的广告语文字(图 1.1-2)上。

image

我们知道,这种楼盘围墙广告一般用于正在开盘中的楼盘附近,也就是说只要知道这个楼盘是什么,就基本定位到了照片的拍摄位置。我们又知道,重庆的区号是 023,也就是说只要把后面的电话补充完整,就能知道这是什么楼盘。通常来说,房地产营销的电话为图吉利,尾号一般都是「88」、「66」、「00」之类,而这个号码倒数第三位是「1」,所以后面两位也有很大可能是连号的「11」。所以我就从「023-68500188」开始搜索,发现是个化工公司的电话后,紧接就搜索了「023-68500166」和「023-68500111」。

image

在「023-68500111」的搜索结果(图 1.1-3)中,排名第一的就是一个叫「金地首创两岸风华」的楼盘,并且很明确地给出了售楼部的地址。如此一来,借助地图和街景我很快就定位到了照片拍摄的原始位置:重庆市南岸区福民路 24 号两岸风华,西门向南 50 米处。

举例 2:https://chao.fan/p/1201031(图 1.1-4)

image

原帖作者声称这张图片是「2018 年 8 月 5 日 12:26,旅游途中拍摄,街景变化甚小,但广告、照片已有很大不同」。图片上重要信息都被马赛克,仅仅留下一个硕大的「汉庭优佳酒店」。如果是你,你会从「汉庭优佳酒店」开始搜索吗?

这其实不太科学,因为如果你尝试用地图软件搜索「汉庭优佳酒店」,发现全国有近千家,光上海就有 112 家。这显然太难排查了。正确的做法是,留意到照片最右侧还有一个垂直招牌上还有三个汉字,尝试在 Photoshop 中对这三个汉字进行透视变换,识别到「陶源丰」三个字(图 1.1-5),然后检索得到,这是位于晋中市平遥县的,陶源丰新天地(顺城路店)—— 平遥的「陶源丰新天地」是「陶源丰」的唯一检索结果,靠谱多了。

image

举例 3:https://chao.fan/p/1201066(图 1.1-6)

image

画面中可见建筑招牌文字「会□□日」以及「□公寓」,但都不完整,难以进行搜索。很多人会尝试从可见车牌号「粤 L·000NP」入手在广东省惠州市尝试搜索,但这是不合适的。车牌号虽然代表了车辆注册地,但车辆跨市甚至跨省通行是常有之事,并不是绝对有效的信息。这道题的解题关键在于认出「会□□日」中间两个字,由第二个字的厂(尸)字头以及第三个字的单人旁(亻)推断前两个字为「会展」,后两个字为「假日」,继而搜索地图得到答案:广东省深圳市宝安区凤塘大道 612 号 B2 栋会展假日酒店鸿利来分店。

以上是一些简单的识字方式,除了肉眼辨别,你还可能用到以下工具:

关于文字的识别,之前有发过一篇专门利用文字分析方式解决「远古难题」的案例,有兴趣的可以移步下方链接展开阅读。

undefined

1.2 识图

识图并不是纯靠肉眼分辨,而是有效借助各类图片反向搜索引擎进行「以图搜图」。许多标志性设施、有特色的建筑和道路细节都很容易被反向搜索。常用的图片反向搜索引擎有:

如果你使用的是 Chrome 或 Firefox 浏览器,通过安装「Search by Image」扩展程序,可以一次性打开多个图片反向搜索引擎:Chrome 商店地址Firefox 商店地址

通常在进行识图时需要留意这么几点:

  • 如果图片不够清楚或照片构图不理想,应先适当调整图片的曝光、亮度、对比度,以及画面裁剪、旋转等参数。
  • 为保证识图的准确性,应分别对图片的整体、带有特征的局部(尤其是不同建筑物的主体部分,以及公交车、出租车等)进行识别,以找到足够多的可能线索。
  • 如果前景被路灯、树木、行人等障碍物遮挡,应先利用图像处理软件对前景的障碍物进行内容填充移除,以正确识别到后方画面主体。
  • 如果建筑物只有一半,但其很明显是对称构造,则可以尝试手动镜像以补全另一半。
  • 对于画面中模糊的 logo 等元素,可以尝试通过肉眼识别后手动重绘,再进行识图处理。

先举个简单的例子:https://chao.fan/p/1200856(图 1.2-1)

image

这张图看着像日本,但具体是日本哪里?我同样先启动了识图,虽然大部分识图工具没有在前面位置给到很准确的结果,但我在 Google 智能镜头里找到了一张很像的图,是一家叫「カットハウス ミネ」(CutHouseMINE)的美发店的 Facebook 主页,主页里明确标识了他们的邮编以及地址:

〠 852-8123 長崎市三原 2 丁目 3-26 三原小学校のすぐ近くにあります。

image

比对画面中的栏杆、山脉形状与原帖配图都非常接近,但前景里的建筑物不大一样。因此推测原帖配图就是在长崎拍摄,与「カットハウス ミネ」位置接近。这时候只要启动 Google Maps,定位到「カットハウス ミネ」,然后寻找其附近的其他朝西的阶梯口位置,很快就找到了原图的拍摄地点。

image

举例 2:https://chao.fan/p/1199790(图 1.2-4)

image

这张图看着像摄影师的作品或者壁纸之类网图,所以看到题目顺手先点了以图搜图,结果略有些出乎意料,并没有找到直接的结果,看来这张图片并没有想象中那么简单。但最终我还是解的很快,大概 3 分钟就找到了结果 —— 其实只要稍加留意就会发现,画面正中心的圆顶建筑非常具有识别性(图 1.2-5),只要对它进行识别就可以了。

裁剪画面这块区域到 Google 智能镜头中进行检索就直接得到了答案:这个建筑是位于德国的杜塞尔多夫音乐厅(Tonhalle Düsseldorf),因此配合 Google Maps 很快就能定位到照片原始拍摄位置是德国杜塞尔多夫的 Oberkasseler Brücke 大桥西侧的桥底。

举例 3:https://chao.fan/p/1199875(图 1.2-6)

原帖作者询问,「图中小伙在哪里以蚯投鱼」?这座桥相比上一个例子里杜塞尔多夫的桥梁而言,可识别性大大降低,对岸建筑物小到只剩一点轮廓,要怎么寻找特征呢?我提取到的信息有这么几点:

  • 这是一张朋友圈截图,图中大桥在中国可能性较高
  • 从江面样式和宽度来看,可能性最高的是长江
  • 桥梁为悬索式
  • 桥梁路面背部中脊线上有一道明显的黑色纹路
  • 桥梁路面背部有长条的网格状纹路

尽管没有什么明显头绪,我仍然尝试在各个平台进行识图搜索。以图搜图后我发现,不同桥梁的路面背部样式细节差别其实非常大,如果盯着「背部中脊线上有一道明显的黑色纹路」这个特征去寻找,可能会有所斩获。在浏览了大概 100 张各种桥的背部照片后,我在百度识图里找到了一个几乎一模一样的桥底(图 1.2-7):

可惜的是,这张图片点击后百度提示「页面不存在」。不过这也难不倒我们,我们继续用这张小图进行以图搜图,继而进一步找到了这个作者的原始摄影作品主页 [11],尽管作者并未在这张作品下做任何说明或标注其拍摄地点,但我在其个人主页的同批次摄影作品里一个不起眼的角落里最终发现了一个关键词标签「泰州大桥」。再之后,我通过对泰州大桥全景图、小红书里泰州大桥的相关视频进行比对、验证细节,最终实锤了原帖配图的确是拍摄于江苏省泰州市的泰州长江大桥桥底。

以上是一些简单的识图方式,除了肉眼辨别以及前文提到的片反向搜索引擎,你还可能用到以下工具:

有了「识字」、「识图」等手段,对于不少初级谜题应该得心应手了。但很多实际情况下,照片中给到的文字或有特征的画面信息并不多,尤其是在「炒饭社区」,很多发帖者会刻意遮盖画面中出现的文字,或者具有代表性的地标建筑物,这个时候该如何处理呢?接下来就是考验我们从画面中获取更多信息的本领了。

2. 分析题 —— 如何从人文地理和交通设施中获得更多信息

2.1 人文和地理

借用少数派作者「SuperJerry」的一句话:

提取解读自然地理信息需要博物君般广博深厚的自然地理知识积累,以及在此基础上的直觉。在很多著名网络迷踪案例中,关键步骤只是大佬的一句「我感觉像这个地区」,其中奥妙不可言传。

除非你属于「本地人一看就知道」,或者凭借经验和直觉得来的「我感觉像这个地区」,一般总结而言,照片中往往会透传出以下自然和地理信息:

  • 气候

  • 结合照片中的气候表征以及拍摄时间,可以从气候角度推测照片拍摄地点的大致范围。例如,给定位于北半球、画面存在积雪等信息,则可判断拍摄位置大概率在当日的 0℃ 等温线以北。

  • 山脉与水体

  • 山脉的地貌、形状、植被、朝向等信息,往往成为解题的关键因素。例如,遇见中国大陆地区的喀斯特地貌,可以优先锁定广西、云南、贵州等省区。

  • 水体的类型、流量、流向、颜色,常常也能提供很多信息。经常解题的大佬们有很多都能一眼分辨黄河、长江、珠江以及京杭大运河。

  • 植被

  • 基于对植被的分析,能确定照片拍摄位置在秦岭-淮河线以南或是以北。以南主要为亚热带常绿阔叶林,以北则是温带落叶阔叶林,这是中学地理知识了。

  • 如果能分辨画面中具体的植物品种,则可以直接根据该植物的分布范围来缩小答案范围。

  • 这里有一张《中国植被类型在线地图》请收好:https://www.osgeo.cn/map/m0139,除此之外这个网站也可以看地质、地形地貌、气候、水文海洋、土壤、动物等分布信息。

  • 土壤:土壤颜色也是推测拍摄位置的合理依据,例如在我国东部地区,土壤从南到北大致呈砖红壤-赤红壤-红壤-黄壤-黄棕壤-棕壤-暗棕壤及棕色针叶林土等地带性分布 [12]

  • 光影

  • 从光影中能获得的信息其实远比你想象的更多。从夕阳、影子等信息可以得到大致方向,从而判断道路方向或纬度信息。如果你能测量出影子的具体长度,结合本体的实际高度以及照片拍摄的时间信息,甚至可以直接得出拍摄位置的经纬度范围。Suncalc 这个网站可以利用影长、位置或时间来实现参数之间的互相确认。

  • 如果能从照片中观测到日出或日落,结合照片拍摄时间也能对照片拍摄的经纬度进行科学推测,例如可以使用 https://richurimo.bmcx.com/ 这个网站根据经纬度或省份查询日出日落时间。

  • 天气:主要用于推测拍摄的大致日期范围,也可以通过给定拍摄日期来筛选符合天气条件的地理范围。有很多可以查询历史天气的网站能给到我们帮助。

  • 星空:如果画面中有明显的星空,则借助星空来进行定位也是一个明智的选择。

另外照片中其实常常会有一些其他人文类信息出现,这些信息里也对照片拍摄位置有很强的归纳和筛选价值:

  • 国旗等旗帜
  • 建筑物的风格
  • 语言文字类别
  • 人种和肤色信息
  • 当地特有的物品或装饰
  • 商品,等等

举例:https://chao.fan/p/1118939(图 2.1-1)

原帖作者要求破解出飞机下方山脉的名字。这是一道经典的,利用对山脉、植被以及光影信息完成解题的案例。「炒饭社区」用户「你來了麼」以及「宇宙百科君」共同完成了解题,并分享了他们的解题思路 [13]

  • 通过在 Flightradar24https://www.flightradar24.com/)网站搜索飞机注册号 B-5280,可以查询到这是一架厦门航空波音 737-75C 客机。

  • 波音 737-75C 实际上就是波音 737-700 型飞机,其中的「5C」只是厦门航空的用户代码。

  • 同时可以查询到该架客机历史班次:https://www.flightradar24.com/data/aircraft/b-5280,并将过去 1 年所有班次以表格形式下载到本地。

  • 结合下方山脉的地貌、积雪情况,推测是中国北方,时间为冬季,过滤掉所有起降地均在南方以及不符合季节的航班。

  • 根据下方山脉的影子朝向,判断出飞机是由南向北飞行,过滤掉所有降落地在南方以及航向不符合条件的航班。

  • 根据图中对飞机影子长度的模拟,估算当时的时间。

  • 我们可以在搜索引擎中检索一张波音 737-700 的尺寸图,判断飞机右翼上产生的投影为飞机垂直尾翼顶部的投影,根据垂尾投影顶点位置、垂尾本体顶点位置、以及垂尾投影顶点到飞机中线的垂线交点构成的直角三角形,经过勾股定理可以得到阴影长度约为 15.6m。通过侧面视图可以得到垂直尾翼顶端距离机翼的高度约为 9.5m(图 2.1-2)。

  • 将这些参数代入到 Suncalchttps://www.suncalc.org/)以计算 9.5m 高度的物体产生 15.6m 长度阴影可能的日期时间范围。过滤掉该时间范围中不在执飞的航班,同时根据时间范围排查当时航班所飞越的山脉,进而大范围缩减筛查范围。

经过几轮的排查和范围缩减,剩下航班数并不多,再在其途径山脉上进行比对,可以得到最终结论:图中航班是由福州飞往西安的 MF8692 航班,照片拍摄所在位置位于陕西省西安市蓝田县蓝桥镇附近,照片下方的山脉是秦岭。

2.2 交通和设施

不同国家、不同城市之间的各类基础设施和交通工具,看似大同小异,实际大有文章。

从建筑和设施来看:

  • 地标

  • 机场、港口、桥梁、政府机关、地标等建筑物具有独特识别性,往往对推测拍摄位置发挥着关键作用。

  • 例如,旗杆往往在政府机关、酒店和学校出现,而大型探照灯意味着附近可能有体育场。

  • 道路

  • 道路类型、交通标志、路灯款式等细节信息,有时能成为解题的突破口。

  • 例如,城市路牌颜色就大有学问, 根据 GB 17733-2008 国家标准 [14],东西走向用蓝色,南北走向用绿色。

  • 建筑流派:例如中国传统建筑可以分为徽派、闽派、京派、苏派、晋派、川派共 6 大流派,而风雨桥则流行于湖南、湖北、贵州、广西等地。

  • 建筑朝向与楼间距

  • 中国的房屋大多坐北朝南,其朝向和庭院位置可用于分辨方向。

  • 楼间距其实也有信息价值,按照 GB 50180-2018 国家标准 [15],以冬至日照时间不低于 1 小时(房子最底层窗户)为标准,据此可以推测纬度信息。

从交通工具来看:

  • 公共交通

  • 每个城市的公交车和出租车的车型、涂装往往统一或成系列,很容易与其他城市进行区分。这是新手常常忽略的重要信息。

  • 诸如公交站、地铁站,以及交通相关 logo、导向标识等设计,每个城市也有各自独特的规范。

  • 航班信息:若知晓照片的拍摄时间、照片的拍摄位置、飞机的班次中任意 2 个信息,则可以借助第三方工具推断出第 3 个信息。常用的工具有:

  • Flightradar24https://www.flightradar24.com/):基于 ADS-B 等信息来源,提供航班的飞行轨迹、出发地、目的地、航班号、注册编号、飞行器型号、当前位置、高度和空速等信息。平常看到头顶有飞机飞过时也能随时打开 app 了解下。

  • FlightAwarehttps://zh.flightaware.com/ ):与 Flightradar24 功能类似。

  • VariFlighthttps://map.variflight.com/):用于查询实时或历史航班的航线。

  • 船舶信息:类似航班信息,船舶相关信息也可以通过各个 AIS 工具进行检索。

举例:https://chao.fan/p/1173907(图 2.2-1)

这张照片中并没有什么地标建筑物,也没有文字可供利用,其解题关键在于对画面右侧出租车以及对画面左侧设施的识别。「炒饭社区」用户「红双喜」分享了他的解题思路:先从出租车及其车牌判断位于香港。其次,根据出租车颜色来分析香港的具体区域。

香港的出租车分三种颜色,分别行驶于不同地区,但全部均可往返香港国际机场及香港迪士尼乐园:

  • 红色出租车即市区出租车,俗称「红的」、「红艇」,除了大屿山岛上的东涌道及南部以外,可以在香港大部分地区行驶。
  • 绿色出租车即新界区出租车(图 2.2-2),因其绿色的漆身而被俗称「绿的」或「草蜢」,只限行驶于新界,不得进入市区。
  • 蓝色出租车即大屿山区出租车,也被称为「蓝的」、「蓝灯笼」、「蓝精灵」或「屿的」——只限于大屿山,不得进入市区。

经过简单搜索比对,可以确认原图拍摄于香港新界。第二步是确认左侧的设施,从画面中我们可以得到以下信息:

  • 大热天地面有水,说明车轮带水且车辆进出频繁,由此可以判断画面中左侧应为洗车设备
  • 远处有一辆似乎是运垃圾的车,正在洗车槽内清洗车轮
  • 保安亭外墙面肮脏

由此,「红双喜」推测这是一个垃圾填埋区或垃圾处理区。在地图中搜索「新界垃圾处理」,地图上只搜出新界东南和东北两处堆填区,验证都不符合。再通过搜索引擎发现还有处西堆填区,进入地图验证一致,因此原帖照片拍摄于香港特别行政区新界西堆填区(West New Territories Landfill, WENT)。

3. 超纲题 —— 那些远古难题被突破的过程

即便是我们已经掌握了很多分析手段和分析工具,但局限于照片中的有效信息过少,仍然有很多题目经历半年甚至更长的时间都没有「侦探」们能顺利将其「擒拿归案」。截至目前「炒饭社区」里大概已经有 1000 个谜题进入「远古难题」,但其中只有约四分之一的题目在之后被人成功解答。历数在这些拨云见日的过程中发挥关键作用的神兵,大概可以概括为以下两种。

3.1 工具

工欲善其事,必先利其器。前文已经提到了不少地图服务和地理工具,但真正专业的玩家掌握着更加硬核的工具。常见地,我们有各类地图开放平台以及基于 OSM(OpenStreetMap,一个开源地图服务)衍生的数据挖掘产品,另外还有 GIS(Geographic Information System,地理信息系统)领域中的专业软件。这里简要介绍 3 种常用的「硬核工具」:

  • 地图开放平台

  • 中国常用:百度地图开放平台https://lbsyun.baidu.com/)以及高德地图开放平台https://lbs.amap.com/)。

  • 国外常用:OpenStreetMaphttps://www.openstreetmap.org/)以及 Google Maps Platformhttps://developers.google.com/maps)。

  • 通过这些开放平台的 API 接口和 SDK 能力,可以非常灵活地实现自定义的内容呈现方式和数据的获取,以匹配千人千面的个性化需求和在「网络迷踪」中的大数据筛查需要。

  • Overpass Turbohttps://overpass-turbo.eu/):这是一款基于 OpenStreetMap 的数据挖掘工具,能根据限定的位置逻辑搜索所有符合条件的地点,极大程度降低逐个排查(即所谓「扫图」)带来的人力成本。

  • WhatIsWherehttps://www.whatiswhere.com/):这同样是一款基于 OpenStreetMap 的 POI 搜索工具,与 Overpass Turbo 类似,但不需要复杂的语法。

举例 1:「炒饭社区」用户「」在他的一篇文章《POI 地点借助地图开放数据解题》[16] 里介绍了他是如何使用高德地图开放平台以及 MySQL 解答 https://chao.fan/p/1042686 这道题**(图 3.1-1)**的,摘录如下:

原图较为模糊,画面中「好客连锁」和「□□银行」是唯一可以利用的文字信息,原帖作者提示在广东非珠三角地区。为了完成解题,需要找到所有在银行附近的「好客连锁」。广东省内「好客连锁」数量上百,银行数量上千,靠人力比对排查显然不现实。鉴此,「猫」选择借助地图开放平台来完成解题。

这里需要自行撰写代码(他使用的是 Node),使用 API 调用高德 POI 接口,先获取到广东非珠三角地区完整的银行 POI 列表数据以及「好客连锁」相关的 POI 数据,并建立两张数据表(图 3.1-2,3.1-3)。

接着,「猫」使用了笛卡尔积连表查询,分别计算两两之间距离。查询语句如下:

SELECT
h.name,
h.address,
b.name,
b.address,
round( ( st_distance ( h.location, b.location ) / 0.0111 ) * 1000 ) AS distance
FROM
haokes AS h,
banks AS b
ORDER BY
distance

其中使用了 st_distance 计算两个 POI 之间的距离,并且使用结果进行排序。经过简单的排查,在第三条就得到了结果(图 3.1-4):位于梅州市江南新中路的嘉州假日酒店附近,原帖图中的银行是广东农信梅州农商银行。

举例 2:这里重点说一下 OpenStreetMap,基于 OpenStreetMap 的标签寻找工具 TagFinder,以及基于 OpenStreetMap 的数据挖掘工具 Overpass Turbo

OpenStreetMaphttps://www.openstreetmap.org/,以下简称 OSM)是一款开源非盈利在线地图服务,与维基百科类似,用户可以自发上传编辑和贡献地理信息数据。由于用户共建特性,在 OSM 里,你几乎可以找到地球上的任何地标(POI),大到公路、铁路、建筑、小到变电站、电线杆。OSM 中 POI 信息体量非常庞大,以至于大多数不能在地图上一一展示,但借助 API 接口或一些成熟的数据挖掘工具,我们可以轻易获取并导出这些数据。

注意,OSM 里中国的国界线是错误的,且中国大陆的地图数据偏少,但其海外的地图数据非常翔实。在适当的条件下可以善加利用。

TagFinderhttp://tagfinder.herokuapp.com/)是一款帮助在 OpenStreetMap 里找到物品标签的工具,方便后续在数据挖掘工具中请求数据。例如,我们想通过数据挖掘工具在 OSM 中找寻「风力发电机」,则可以在 TagFinder 中搜索「Wind Turbine」,系统告诉我们可以通过 generator:method=wind_turbine 以及 generator:source=wind 两条标签进行地图的数据检索。

向 OSM 服务器请求数据的方法有很多,会 Python 的朋友们可以通过安装 Overpass 请求器模块写一个简单的脚本,例如 Overpass API python wrapper;可以通过 QGIS 软件中的 QuickOSM 插件获取信息,也可以通过一些网页前端工具,例如前文介绍过的 Overpass Turbo 和 WhatIsWhere。以下以 Overpass Turbo 为例。

Overpass Turbohttps://overpass-turbo.eu/)是一款基于 OpenStreetMap 的数据挖掘工具。虽然在请求数据时需要写一段脚本,但网站的 Wizard 功能可以帮助我们快速生成请求代码。例如,输入「wind turbine」后 Wizard 功能会帮助我们自动生成一段类似这样的代码:

[out:json][timeout:25];
(
node"generator:source"="wind";
);

假设我们需要在广州找寻「与军事用地距离在 200 米内的地铁站」,我们可以将 Overpass Turbo 画面定位至广州,然后学习 Wizard 提供的方式输入以下代码:

[out:json][timeout:25];

// 获取所有军事用地,标签可以由 TagFinder 查找
(
node"landuse"="military";
way"landuse"="military";
relation"landuse"="military";
);

// 在地图上展示结果
out body;

;
out skel qt;

如此一来便能够将画面中的军事用地全部展示出来:

这时候,我们将其中 node["landuse"="military"]({{bbox}}); 这三行检索条件简写为 nwr["landuse"="military"]({{bbox}});,然后将其检索结果暂存为 military,在地铁站的检索 nwr[railway = station] 中进行调取,条件为 200 米范围内,继而得到如下代码:

[out:json][timeout:25];

// 获取所有军事用地,保存为 military
(
nwr"landuse"="military";
) -> .military;

// 获取所有与 military 距离 200 米内的地铁站
nwr[railway = station](around.military: 200);

// 在地图上展示结果
out body;

;
out skel qt;

再次运行,就能在地图上得到 13 个「与军事用地距离在 200 米内的地铁站」的结果,点击「Export」可以保存为 JSON 格式,再进行进一步筛查和处理。利用好这样的工具,我们能够节省大量的「扫图」人力。

Overpass Turbo 的玩法还有很多,感兴趣的朋友们可以在英国 OSINT 大神 NixIntel[17] 的两篇 Overpass Turbo 教程中学习完整的使用方法:

Getting Started With Overpass Turbo – Part 1​Getting Started With Overpass Turbo – Part 2​

3.2 思维

看完上面那么多工具和案例是不是感觉眼花缭乱?别太担心。

「网络迷踪」只是一个推理游戏,它并不算得上是一门严谨的科学。光有工具没有思考是远远不够的 —— 广博的知识储备,丰富的推理经验,长期的户外实践,甚至是偶尔的灵光一现,它们共同造就了大佬们那些「只可意会不可言传」的直觉。在有些人还在煞费苦心愚公移山般地「扫图」之时,有的大佬已经冲着内心中那句「我感觉像这里」前往了目标位置,面无表情地回复完答案后刷新页面前往了下一题,留下那些抓耳挠腮百思不得其解的朋友们在风中凌乱。

你以为的「网络迷踪」,远远不止真实的「网络迷踪」。为了探寻真相,不惜向当地人询问、动用美团小哥批量跑腿侦察,甚至肉身亲自前往验证之事,在「网络迷踪」历史上并不是没有发生过。一道「网络迷踪」题也就是一场开卷考试,就算作弊或蒙对也能算对。也正因此,「侦探」们都是以结果为导向的,至于过程是怎样,动用了哪些黑科技工具抑或是人际关系,其实并不是很重要。一个出色的「网络迷踪侦探」,在现实世界里可能是个刑警,婚外情调查员,可能是个黑客、全栈工程师,也完全可能只是个扫地僧。本文只是一个入门指南,若你已臻化境,大可忽略前文中所述的所有工具和方法。

尽管不是所有人都能有朝一日巅峰造极、返璞归真,但有一件事仍然是明确的:善于在实践中学习和总结,这样才能不断进步。再次提醒,本指南不可能提供解决所有谜题的最佳路径,它只是些许普适方法的简单归纳。有的时候适当的放弃是必要的。希望你在推理「网络迷踪」某道谜题遇阻之时,先把它收藏关注起来,日后回过头来看看大佬们的解题思路,也许豁然开朗柳暗花明又一村,这才是你内心真才实学得到了实质性提升的时刻。祝你好运!

送你一个「网络迷踪」资源库

对于所有在「网络迷踪」中经常使用的工具和相关资源,我已经帮大家整理了一个「网络迷踪资源库」在线文档。当然这个数据库不仅包含了本文中提到的所有工具链接,也对它们进行了分门别类的整理,而且更重要的是它会随时更新,以进行修补和扩充。既然看到了这里,相信你是对「网络迷踪」真正感兴趣的朋友,欢迎点击下方链接进行收藏:

网络迷踪资源库 OSINT Library

写在后面

本文创作过程中有参考以下文章,谨此向原作者致谢:

参考

  1. ^ 相近的术语还有开源调查(Open Source Investigations, OSI)以及在线开源调查(Online Open Source Investigations, OOSI)。
  2. ^ 最怕有心人,人人网大神仅凭 2 张图、40 分钟推理出北京女明星住址 https://page.om.qq.com/page/OzDezp5M825FCotpeuYPEl6w0
  3. ^https://m.weibo.cn/status/3886914195127757
  4. ^ 我是 EyeOpener 的个人空间 - 哔哩哔哩 Bilibili https://space.bilibili.com/43645887/channel/seriesdetail?sid=90709
  5. ^ 探照寻址的个人空间 - 哔哩哔哩 Bilibili https://space.bilibili.com/1960160215
  6. ^ 宇宙百科君的个人空间 - 哔哩哔哩 Bilibili https://space.bilibili.com/93569847
  7. ^ 夜点短视频的个人空间 - 哔哩哔哩 Bilibili https://space.bilibili.com/1078123935
  8. ^Verif!cation Quiz Bot (@quiztime) - Twitter https://twitter.com/quiztime
  9. ^GeoConfirmed - War Ukraïne https://www.google.com/maps/d/viewer?mid=10YK14-QB25penu8jeS4hBVarzGKZsVgj&ll=48.104096492535504%2C31.957569662788224&z=6
  10. ^ 豆瓣上也有类似的小组,感兴趣的可以访问「一起玩网络迷踪小组」: https://www.douban.com/group/725884/
  11. ^ 飞渡长江,路桥建筑,建筑摄影,摄影 - 汇图网 https://www.huitu.com/photo/show/20180218/204610197016.html
  12. ^ 中国第一幅高精度土壤颜色地图 http://www.ssa.ac.cn/?p=7955
  13. ^ 根据图中的影子,找到这片架飞机(山脉)的具体位置 https://www.bilibili.com/video/BV1LG4y1a79k
  14. ^ 国家标准 GB 17733-2008 https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=A4BC390727C25D327CF14ADE1C0F27A3
  15. ^ 国家标准 GB 50180-2018 https://baigongbao.oss-cn-beijing.aliyuncs.com/2020/09/29/AGZeRrtGrN.pdf
  16. ^POI 地点借助地图开放数据解题(国内) https://invited-aquarius-173.notion.site/POI-f7b3c76127404e43ac4a462c40afcc1e
  17. ^About - NixIntel https://nixintel.info/about/
Loading comments...