揭秘大数据领域：挖掘数据价值的核心技巧

揭秘大数据领域：挖掘数据价值的核心技巧——从第一性原理到工程实践的全链路解析

元数据框架

标题：揭秘大数据领域：挖掘数据价值的核心技巧——从第一性原理到工程实践的全链路解析关键词：大数据价值挖掘、特征工程、因果推断、可解释AI、数据建模、工程优化、伦理考量摘要：
大数据的核心价值并非“数据量的规模”，而是“将原始数据转化为可指导决策的有效信息”。本文从第一性原理出发，拆解数据价值的本质（信息熵减少×场景权重），构建“数据-特征-模型-业务”的全链路价值转化框架。通过理论推导（香农信息论、因果模型）、架构设计（特征商店、分布式训练）、实现细节（特征选择算法、模型压缩）及实际案例（Netflix推荐、亚马逊需求预测），系统阐述挖掘数据价值的核心技巧。同时，针对大数据时代的安全隐患（隐私泄露）、伦理挑战（算法偏见）及未来趋势（因果AI、自动机器学习），提供前沿视角与战略建议。本文兼顾理论深度与工程实践，适合从入门到专家的不同技术背景读者，助力突破“数据多但价值少”的行业困境。

1. 概念基础：数据价值的本质与问题空间

要挖掘数据价值，首先需回答：数据的价值到底是什么？ 从第一性原理出发，我们需剥离“大数据”的炒作外壳，回归信息论的本质。

1.1 数据价值的第一性原理定义

根据香农（Claude Shannon）的信息论，数据的价值在于减少不确定性。具体来说，设随机变量 ( X ) 代表“未观测数据时的不确定性”（如用户是否会购买商品），其信息熵为：

但信息增益并非数据价值的全部——场景权重（Scenario Weight）决定了信息的实际价值。例如，“用户的浏览记录”对电商推荐的价值远高于对天气预报的价值。因此，数据价值的量化公式可表示为：

( D )：数据集( IG(X,Y) )：数据 ( D ) 带来的信息增益( W(S) )：场景 ( S ) 的商业/社会价值权重（如转化率提升的收益、疾病预测的拯救人数）

结论：数据价值的核心是“有效信息的场景化转化”，而非数据量的大小。这解释了为何很多企业“数据爆炸但价值匮乏”——要么数据的信息增益低（如重复、噪声数据），要么场景权重未明确（如为了“大数据”而收集数据）。

1.2 大数据的历史轨迹与问题空间

1.2.1 历史轨迹：从“数据处理”到“价值挖掘”

传统数据时代（1970-2000年）：以关系型数据库（RDBMS）为核心，聚焦“数据存储与查询”（如银行交易记录），价值体现为“流程自动化”。互联网时代（2000-2010年）：以Web数据（日志、用户行为）为核心，聚焦“数据统计与报表”（如网站PV/UV分析），价值体现为“业务监控”。大数据时代（2010年至今）：以非结构化数据（文本、图像、视频）为核心，聚焦“数据挖掘与预测”（如推荐系统、 fraud检测），价值体现为“决策智能化”。

1.2.2 问题空间：阻碍价值挖掘的四大痛点

数据孤岛：企业内部数据分散在不同系统（ERP、CRM、日志系统），无法整合形成完整的用户画像。高维稀疏：大数据往往具有“高维度”（如用户行为的1000+特征）和“稀疏性”（如大部分用户未点击过大部分商品），导致模型过拟合。噪声干扰：原始数据中存在大量无效信息（如误点击、重复记录），降低信息增益。价值模糊：很多企业未明确“数据要解决什么问题”，导致挖掘方向偏离业务需求（如为了“AI”而做AI）。

1.3 关键术语定义

数据价值密度：单位数据量中的信息增益（( IG/数据量 )），大数据的典型特征是“低价值密度”（如1TB日志中可能只有1GB有效信息）。特征空间：数据集中所有特征的集合（如用户的年龄、性别、浏览记录），是模型输入的基础。模型上限：由数据质量与特征工程决定的模型性能边界（“数据和特征决定了模型的上限，算法只是逼近这个上限”——Andrew Ng）。

2. 理论框架：数据价值挖掘的底层逻辑

2.1 第一性原理推导：价值转化的三阶段

从信息论到工程实践，数据价值的挖掘需经历三个核心阶段（如图2-1所示）：

数据→信息：通过预处理（去重、清洗）与特征工程（提取有效特征），将原始数据转化为“有意义的信息”（如将“用户浏览记录”转化为“最近7天登录次数”）。信息→知识：通过模型训练（如分类、回归、聚类），将信息转化为“可泛化的知识”（如“年龄在25-30岁的用户更倾向于购买数码产品”）。知识→价值：通过业务应用（如推荐系统、决策支持），将知识转化为“商业/社会价值”（如提升转化率、降低运营成本）。

图2-1 数据价值转化的三阶段

2.2 数学形式化：特征工程的理论基础

特征工程是“数据→信息”阶段的核心，其本质是从原始特征空间 ( X ) 映射到更优的特征空间 ( X’ )，使得信息增益 ( IG(X’,Y) geq IG(X,Y) )。

2.2.1 特征选择：保留高信息增益的特征

特征选择的目标是从 ( n ) 个原始特征中选择 ( k ) 个（( k < n )），使得模型性能最优。常见方法包括：

过滤法（Filter）：基于统计指标（如皮尔逊相关系数、互信息）筛选特征，计算复杂度低（( O(n) )），但未考虑特征间的交互。
互信息（Mutual Information）公式：

数学证明：设原始特征为 ( X_1, X_2 )，交互特征为 ( X_3 = f(X_1,X_2) )，则 ( IG(X_3,Y) geq max(IG(X_1,Y), IG(X_2,Y)) )（当 ( f ) 是单调函数时成立）。

2.3 竞争范式分析：不同方法的局限性

传统统计分析：依赖强假设（如正态分布、线性关系），无法处理高维稀疏数据（如用户行为数据），信息增益低。机器学习（ML）：通过数据驱动的方式学习模式，能处理高维数据，但依赖特征工程（如随机森林需要手动选择特征），且可解释性差。深度学习（DL）：自动学习特征（如CNN从图像中提取边缘特征），但需要大量标注数据，且对小样本场景不友好（如医疗影像中的罕见病）。

结论：没有“万能的方法”，需根据数据特征（结构化/非结构化）、场景需求（实时/离线）、资源限制（数据量、计算力）选择合适的范式。

3. 架构设计：数据价值挖掘的系统框架

3.1 系统架构：全链路价值转化的组件设计

为了实现“数据→信息→知识→价值”的转化，需构建分层的大数据挖掘架构（如图3-1所示），核心组件包括：

图3-1 大数据挖掘系统架构

3.1.1 数据采集层：确保数据的完整性与时效性

数据源：结构化数据（数据库、Excel）、非结构化数据（日志、图像、文本）、外部数据（第三方API、公开数据集）。采集方式：批处理（如Hadoop的MapReduce）用于离线数据，流处理（如Flink、Kafka）用于实时数据（如用户点击流）。设计原则：“按需采集”（避免为了“大数据”而收集无关数据）、“可追溯性”（记录数据的来源、时间、处理流程）。

3.1.2 数据预处理层：清洗噪声，整合孤岛

核心任务：
去重（如删除重复的用户记录）；缺失值处理（均值/中位数填充、模型预测填充）；异常值处理（3σ法则、孤立森林算法）；数据整合（将分散在不同系统的数据合并为统一的用户画像）。
工具：Pandas（小数据）、Spark（大数据）、Dask（分布式内存计算）。

3.1.3 特征工程层：从数据到信息的关键一步

核心组件：
特征商店（Feature Store）：存储、共享、管理特征（如Feast、Tecton），解决“特征重复计算”“特征一致性”问题（如训练与推理使用相同的特征定义）。特征选择模块：基于过滤法/包裹法/嵌入法筛选特征（如用Sklearn的SelectKBest选择互信息最高的100个特征）。特征构造模块：通过规则（如“最近7天登录次数”）或自动方法（如AutoFeat）生成新特征。
设计原则：“特征复用”（避免重复开发）、“特征版本控制”（记录特征的历史版本，便于模型回溯）。

3.1.4 模型训练层：从信息到知识的转化

核心组件：
分布式训练框架：处理大规模数据（如Spark MLlib、TensorFlow Distributed）；模型库：存储不同场景的模型（如推荐系统用协同过滤、 fraud检测用XGBoost）；自动机器学习（AutoML）：自动选择算法、调参（如Google的AutoML、华为的ModelArts）。
设计原则：“模块化”（不同模型可快速替换）、“可扩展性”（支持新增算法）。

3.1.5 模型评估层：确保知识的可靠性

核心指标：
分类任务：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1-score；回归任务：均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）；推荐任务：点击率（CTR）、转化率（CVR）、NDCG（归一化折损累积增益）。
设计原则：“业务导向”（如fraud检测中，召回率比准确率更重要）、“鲁棒性测试”（如测试模型在异常数据下的性能）。

3.1.6 模型部署层：从知识到价值的桥梁

部署方式：
离线部署：将模型结果导出为文件（如CSV），用于批量决策（如月度销售预测）；实时部署：将模型封装为API（如用FastAPI、TensorFlow Serving），用于实时决策（如推荐系统的实时推荐）；边缘部署：将模型部署在边缘设备（如手机、摄像头），用于低延迟场景（如自动驾驶的目标检测）。
工具：Docker（容器化）、Kubernetes（集群管理）、MLflow（模型生命周期管理）。

3.1.7 业务应用层：价值的最终体现

应用场景：
推荐系统（如Netflix的电影推荐、淘宝的商品推荐）；需求预测（如亚马逊的库存预测、美团的外卖单量预测）；风险控制（如银行的 fraud检测、保险公司的理赔审核）；智能决策（如企业的客户分群、政府的疫情预测）。
设计原则：“闭环反馈”（将业务结果反馈给数据采集层，优化数据与模型）。

3.2 设计模式：解决核心问题的最佳实践

3.2.1 特征商店模式：解决特征一致性问题

特征商店是特征工程层的核心设计模式，其核心价值在于：

特征复用：避免不同团队重复计算相同的特征（如“用户的最近7天登录次数”可被推荐系统、 fraud检测系统复用）；特征一致性：训练与推理使用相同的特征定义（如训练时用“最近7天登录次数”，推理时也用同样的逻辑，避免“训练-推理偏差”）；特征可追溯：记录特征的来源、计算逻辑、版本，便于模型调试（如当模型性能下降时，可快速定位是特征变化还是数据变化）。

案例：亚马逊的特征商店（Amazon SageMaker Feature Store）支持PB级特征存储，每天处理 billions of 特征请求，为推荐系统、需求预测等场景提供一致的特征服务。

3.2.2 模型服务的微服务模式：解决 scalability 问题

模型部署层采用微服务模式（如将每个模型封装为独立的API），其优势在于：

** scalability**：可根据流量动态扩展模型实例（如用Kubernetes的HPA自动扩缩容）；容错性：单个模型故障不会影响整个系统；灵活性：可快速替换模型（如用新的推荐模型替换旧模型，无需修改业务代码）。

案例：Netflix的模型服务平台（Netflix Model Serving）采用微服务模式，支持 thousands of 模型同时运行，处理 millions of 实时请求/秒。

4. 实现机制：核心技巧的工程落地

4.1 特征工程：从理论到代码

4.1.1 特征选择：用互信息筛选高价值特征

问题：假设我们有一个电商用户行为数据集，包含“年龄”“性别”“浏览时长”“购买次数”等100个特征，需要选择最能预测“是否购买”的10个特征。
解决方案：用Sklearn的mutual_info_classif计算每个特征与目标变量的互信息，选择互信息最高的10个特征。

代码实现：


import pandas as pd
from sklearn.feature_selection import SelectKBest, mutual_info_classif

# 加载数据
data = pd.read_csv("user_behavior.csv")
X = data.drop("is_purchase", axis=1)
y = data["is_purchase"]

# 计算互信息，选择top 10特征
selector = SelectKBest(score_func=mutual_info_classif, k=10)
selector.fit(X, y)

# 输出选中的特征
selected_features = X.columns[selector.get_support()]
print("Selected Features:", selected_features)

4.1.2 特征构造：用滑动窗口生成时间特征

问题：在时间序列数据（如用户的每日登录记录）中，需要构造“最近7天登录次数”“最近30天登录次数”等时间特征。
解决方案：用Pandas的rolling函数生成滑动窗口特征。

代码实现：


import pandas as pd

# 加载时间序列数据（user_id, login_time）
data = pd.read_csv("user_login.csv", parse_dates=["login_time"])
data = data.sort_values(by=["user_id", "login_time"])

# 按用户分组，生成最近7天登录次数
data["7d_login_count"] = data.groupby("user_id")["login_time"].rolling(window="7D").count().reset_index(drop=True)

# 按用户分组，生成最近30天登录次数
data["30d_login_count"] = data.groupby("user_id")["login_time"].rolling(window="30D").count().reset_index(drop=True)

print(data.head())

4.2 模型训练：优化性能与效率

4.2.1 分布式训练：用Spark MLlib处理大规模数据

问题：当数据量超过单台机器的内存（如100GB）时，传统的单机模型（如Sklearn的随机森林）无法处理。
解决方案：用Spark MLlib的分布式随机森林模型，将数据分成多个分区，在多台机器上并行训练。

代码实现：


from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier

# 初始化SparkSession
spark = SparkSession.builder.appName("DistributedRF").getOrCreate()

# 加载数据（100GB）
data = spark.read.csv("large_user_behavior.csv", header=True, inferSchema=True)

# 构造特征向量
assembler = VectorAssembler(inputCols=data.columns.drop("is_purchase"), outputCol="features")
data = assembler.transform(data)

# 训练分布式随机森林模型
rf = RandomForestClassifier(labelCol="is_purchase", featuresCol="features", numTrees=100)
model = rf.fit(data)

# 保存模型
model.save("distributed_rf_model")

4.2.2 模型压缩：用剪枝与量化优化推理速度

问题：深度学习模型（如BERT）的大小通常为几百MB甚至几GB，导致推理速度慢（如实时推荐系统需要100ms内返回结果）。
解决方案：采用模型剪枝（删除不重要的权重）与量化（将32位浮点数转为8位整数）优化模型大小与推理速度。

代码实现（用PyTorch）：


import torch
from torch import nn
from torch.quantization import quantize_dynamic

# 加载预训练的BERT模型
model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-uncased')

# 模型剪枝：删除权重绝对值小于0.01的连接
pruner = torch.nn.utils.prune.L1Unstructured(amount=0.3)  # 删除30%的权重
pruner.apply(model.encoder.layer[0].attention.self.query, name="weight")

# 模型量化：将模型转为8位整数
quantized_model = quantize_dynamic(model, {nn.Linear}, dtype=torch.qint8)

# 保存压缩后的模型
torch.save(quantized_model.state_dict(), "compressed_bert.pt")

4.3 边缘情况处理：避免模型失效

4.3.1 缺失值处理：用模型预测填充

问题：数据中存在大量缺失值（如用户的年龄字段缺失30%），用均值填充会导致信息丢失。
解决方案：用XGBoost模型预测缺失值（将缺失字段作为目标变量，其他字段作为特征）。

代码实现：


import pandas as pd
from xgboost import XGBRegressor

# 加载数据（包含缺失值）
data = pd.read_csv("user_data.csv")

# 分离有缺失值的样本和无缺失值的样本
missing_data = data[data["age"].isnull()]
non_missing_data = data[data["age"].notnull()]

# 训练XGBoost模型预测年龄
X_train = non_missing_data.drop("age", axis=1)
y_train = non_missing_data["age"]
model = XGBRegressor()
model.fit(X_train, y_train)

# 预测缺失值
X_missing = missing_data.drop("age", axis=1)
predicted_age = model.predict(X_missing)

# 填充缺失值
data.loc[data["age"].isnull(), "age"] = predicted_age

4.3.2 异常值处理：用孤立森林检测

问题：数据中存在异常值（如用户的购买金额为100万元，远高于均值），会导致模型过拟合。
解决方案：用孤立森林（Isolation Forest）检测异常值，将异常值从数据集中删除或修正。

代码实现：


import pandas as pd
from sklearn.ensemble import IsolationForest

# 加载数据
data = pd.read_csv("user_purchase.csv")

# 训练孤立森林模型检测异常值
model = IsolationForest(contamination=0.01)  # 假设异常值比例为1%
model.fit(data[["purchase_amount"]])

# 预测异常值（-1表示异常，1表示正常）
data["is_anomaly"] = model.predict(data[["purchase_amount"]])

# 删除异常值
data = data[data["is_anomaly"] == 1]

5. 实际应用：从技巧到价值的案例

5.1 案例1：Netflix推荐系统——特征工程的艺术

业务问题：Netflix需要向用户推荐个性化的电影/电视剧，提升用户留存率与观看时长。
核心技巧：

特征构造：从用户行为数据中构造“最近30天观看时长”“喜欢的 genres”“对导演的偏好”等特征；从内容数据中构造“电影的评分”“演员的知名度”“电影的时长”等特征。特征交互：将“用户的 genres 偏好”与“电影的 genres”进行交互（如“用户喜欢动作片”且“电影是动作片”，则交互特征为1），提升推荐的准确性。特征商店：使用Netflix自研的特征商店（Metaflow Feature Store）存储与共享特征，确保训练与推理使用相同的特征定义。

结果：推荐系统的点击率（CTR）提升了20%，用户留存率提升了15%。

5.2 案例2：亚马逊需求预测——分布式训练与工程优化

业务问题：亚马逊需要预测每个商品的未来需求（如未来7天的销量），优化库存管理（避免缺货或积压）。
核心技巧：

分布式训练：用Spark MLlib的分布式时间序列模型（如ARIMA、 Prophet）处理PB级的商品销售数据，提升训练速度。模型压缩：用模型剪枝与量化优化预测模型，将模型大小从1GB压缩到100MB，推理速度提升了5倍。实时部署：将预测模型封装为API，部署在Kubernetes集群上，支持实时查询（如商家可随时查询未来7天的销量预测）。

结果：库存积压率降低了30%，缺货率降低了25%，运营成本节省了10亿美元。

5.3 案例3：某银行fraud检测——可解释AI与伦理考量

业务问题：某银行需要检测信用卡交易中的 fraud行为，降低 fraud损失。
核心技巧：

可解释AI（XAI）：使用SHAP（SHapley Additive exPlanations）解释模型的预测结果（如“这笔交易被标记为 fraud，因为交易金额是用户平均交易金额的10倍，且交易地点在国外”），提升模型的可信度。伦理考量：使用公平性 metrics（如平等机会差异）检测模型中的偏见（如是否对某一性别或种族的用户存在歧视），确保模型的公平性。闭环反馈：将 fraud检测结果反馈给数据采集层，优化特征工程（如增加“交易地点与用户常用地点的距离”这一特征）。

结果：fraud损失降低了40%，模型的可信度提升了30%，未出现明显的算法偏见。

6. 高级考量：大数据价值挖掘的未来挑战与趋势

6.1 扩展动态：从“集中式”到“联邦式”

问题：数据孤岛是阻碍价值挖掘的重要因素，但企业出于隐私保护（如用户数据）或商业竞争（如同行数据）的考虑，不愿共享数据。
解决方案：联邦学习（Federated Learning）——在不共享原始数据的情况下，多个参与方共同训练模型（如图6-1所示）。例如，银行之间可以用联邦学习共同训练 fraud检测模型，每个银行只需要上传模型参数，而不是原始交易数据。

图6-1 联邦学习架构

6.2 安全影响：数据隐私与合规

问题：大数据挖掘涉及大量用户隐私数据（如姓名、身份证号、交易记录），泄露会导致严重的法律后果（如GDPR罚款）。
解决方案：

差分隐私（Differential Privacy）：在数据中添加噪声，使得无法从统计结果中推断出单个用户的信息（如Google的RAPPOR系统）。同态加密（Homomorphic Encryption）：在加密的数据上进行计算，无需解密（如IBM的HElib库），确保数据在计算过程中的隐私。

6.3 伦理维度：算法偏见与公平性

问题：模型可能学习到数据中的偏见（如历史数据中对女性的歧视），导致不公平的决策（如女性用户的贷款申请被拒绝的概率更高）。
解决方案：

公平性 metrics：使用平等机会差异（Equal Opportunity Difference）、统计 parity 等 metrics检测模型中的偏见。公平性算法：使用对抗性去偏（Adversarial Debiasing）、再加权（Reweighting）等算法纠正模型中的偏见（如Google的FairML库）。

6.4 未来演化向量：从“关联”到“因果”

当前局限：大多数大数据模型（如推荐系统、需求预测）只能学习到“关联关系”（如“用户浏览了电影A，所以推荐电影B”），无法学习到“因果关系”（如“用户浏览电影A是因为喜欢动作片，所以推荐动作片B”）。
未来趋势：因果AI（Causal AI）——通过因果模型（如结构因果模型SCM、Do-calculus）推断变量之间的因果关系，提升模型的可靠性与可解释性。例如，在推荐系统中，因果AI可以区分“用户喜欢电影A是因为电影A的导演，还是因为电影A的 genres”，从而推荐更符合用户真实需求的电影。

7. 综合与拓展：突破数据价值挖掘的瓶颈

7.1 跨领域应用：大数据价值挖掘的边界扩展

** healthcare**：用大数据挖掘预测疾病风险（如用电子病历数据预测糖尿病）、优化治疗方案（如用基因数据个性化用药）。** smart city**：用大数据挖掘优化交通管理（如用摄像头数据预测交通拥堵）、提升公共安全（如用传感器数据预测火灾）。** agriculture**：用大数据挖掘优化农业生产（如用土壤传感器数据预测作物产量）、减少农药使用（如用卫星数据监测病虫害）。

7.2 研究前沿：值得关注的方向

自动特征工程（AutoFE）：用深度学习（如GPT-4）自动生成特征（如“用户的购买行为模式”），减少人工依赖。自监督学习（Self-supervised Learning）：用未标注数据训练模型（如用大量文本数据训练BERT），降低对标注数据的需求。数据价值评估（Data Valuation）：用 Shapley 值、因果推断等方法量化数据的价值（如“某用户的交易数据对 fraud检测模型的价值是10美元”），指导数据采集与共享。

7.3 开放问题：尚未解决的挑战

数据价值的量化标准：如何统一度量不同场景下的数据价值（如医疗数据与电商数据的价值比较）？模型的可解释性与性能的权衡：如何在保持模型性能的同时，提升可解释性（如深度学习模型的可解释性）？联邦学习的效率问题：如何提升联邦学习的训练速度（如大规模参与方的情况下）？

7.4 战略建议：企业如何提升数据价值挖掘能力

建立数据治理体系：明确数据的所有权、使用权、隐私保护规则，解决数据孤岛问题。培养跨学科团队：数据科学家（负责模型训练）、工程师（负责系统架构）、业务分析师（负责场景定义）协同工作，确保技术与业务对齐。投资特征工程与特征商店：特征工程是数据价值挖掘的核心，特征商店是提升特征复用与一致性的关键。关注伦理与安全：在模型开发过程中，融入伦理与安全考量（如公平性、隐私保护），避免法律风险。

结语

大数据价值挖掘的核心不是“拥有多少数据”，而是“如何将数据转化为有效信息，再转化为可指导决策的知识”。从第一性原理出发，我们需要构建“数据-特征-模型-业务”的全链路框架，掌握特征工程、分布式训练、可解释AI等核心技巧，同时关注伦理、安全与未来趋势。

对于企业来说，数据价值挖掘不是“技术问题”，而是“战略问题”——需要从业务需求出发，整合数据、技术与人才，才能突破“数据多但价值少”的困境，实现数据驱动的智能化转型。

未来，随着因果AI、联邦学习等技术的发展，大数据价值挖掘的边界将不断扩展，为人类社会带来更多的商业价值与社会价值。让我们一起期待，大数据时代的下一个奇迹！

参考资料

Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.Ng, A. (2016). Machine Learning Yearning.Netflix Technology Blog. (2020). Feature Store: A Centralized Repository for Machine Learning Features.Amazon Web Services. (2021). Amazon SageMaker Feature Store: A Fully Managed Feature Store for Machine Learning.Google Research. (2022). Federated Learning: Collaborative Machine Learning without Centralized Data.Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.GDPR. (2018). General Data Protection Regulation.Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.