270 likes | 349 Views
大数据的妙用. 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President. 大数据简介. 数据 <- data <- 电脑可处理信 息 ( 资料 ) 大数据研究领域 : 识其本 ( 例 : 每人的多数网上行为均被记录成 为 数据 ) 尽其用 --data mining ( 本轮重心 ) 防其 患(前 次 重心 ). 妙用领域. 金融财经 网 上 数据 广告 教学 购销 搜索 网 外 数据及其它领域 Data mining 技术. 1. 金融财经. 领域 借贷信 用计算 个 人理财
E N D
大数据的妙用 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President
大数据简介 • 数据 <- data <- 电脑可处理信息(资料) • 大数据研究领域: • 识其本(例:每人的多数网上行为均被记录成为数据) • 尽其用--data mining(本轮重心) • 防其患(前次重心)
妙用领域 • 金融财经 • 网上数据 • 广告 • 教学 • 购销 • 搜索 • 网外数据及其它领域 • Data mining 技术
1.金融财经 • 领域 • 借贷信用计算 • 个人理财 • 风险评估-(各类)评级 • 无风险金融交易 (Arbitrage) • 大数据误用 • 无发票服务 • 依据 • 直接数据 (小数据) • 行内间接数据( 中数据) • 行外数据 (大数据)
1.1金融财经案例1 --借贷 为贷款计算 • 偿付能力 • 依据收入 • 依据财产(例:金融产品,房,车,首饰,等) • 依据其它可抵押品(例: 保险, 契约,品牌, 信誉,秘密) • 借贷能力(例:亲,友,能力,关系等) • 信用 • 信用分数 • 详细信贷记录 • 所有收支,交易记录 • 组群特征记录 • 个性特征记录 • 其它个人行为记录
1.2金融财经案例2 --个人理财 • 目标 • 高收益 • 低亏损风险 • 高流动性(例如,意外用大钱时的低损失) • 低税负 • 低查税风险 • 高退休保障
1.2金融财经案例2 --个人理财2 • 个人特征 • 收入的数额及稳定性 • 财产及其可流动性 • 负债及其违约受罚风险 • 纳税状况 • 各退休后收入 • 各保险细节 • 遗产(收,供,税) • 风险容忍程度 • 存贷习惯 • 应变应灾能力 • 各阶段目标
1.2金融财经案例2 --个人理财3 • 公共数据 • Bloomberg • Back Office -- 评级, 行业趋势, 地区走势, 等等. • PerSecurity -- ETF量价具体分析, 关键公司行为, 等等. • Reuter – Foreign currency 等等 • Telekurs • 提供免费综合财产管理服务 • 其它各政府及公司的种种统计数据 • 如:制造公司的用电量变化表(产) • 如:热门餐饮的客流量变化表(销) • 如:人口年令结构的变化
1.3风险评估-例:评级 参考标准评级,加上自我评估。 • 评级机构: Moody, S&P, Fitch,… . • Fixed Income • 评级与利率及价格关系 • Gov. Bond, Corp. Bond (e.g. 垃圾债市场), … • Equity • ETF • Exchange based (e.g. NYSE) • OTC • Derivative CDO, CDS, MBS, … • Mutual Fund
1.4金融财经案例3 -- Arbitrage • 利--无风险(几乎) • 例 • FX – e.g. ¥100=$1 at NYC, ¥99=$1 at Tokyo at a moment • Stock – IBM £120 at LDN, $191 at NYC, $1.6=£1 => (120*1.6)192vs191 • 法 • 瞬时价格数据(bid & ask) • Google, Yahoo, … 只能看不能下载 • Bloomberg PS or Reuter 太贵 • 交易费数据 • 成交价格上下限及各价概率
1.4金融财经案例4 --大数据误用 股票分析重要依据 • 行业趋势. 例:石油隐现危机 • 地区走势. 例:欧元区走强 • 内部信息(违法). 例:收购,官司,增债, 现金流 … • 价量历史 若忽略前3项,则个股价量历史数据与有惯性的随机数据相近。 随机数据预测是毫无意义的。 故如下预测意义不大: • 个股的K线分析法 • 个股的其它某些热门量化预测法(所谓的”技术分析法”)
1.4金融财经案例5 --无发票服务 • 退,换 • Warrantee • 更新(廉价或免费)
2. 网上软件及工具 • 网上广告 • 网上教育 • 网购 • 搜索
2.1 网上广告 • 广告效果评估 • 广告点击率 • 点击日期(近期更重要)( 中数据) • 点击后停留时间 • 停留时间内鼠标移动率(大数据) • 是否点击广告内关键联接(大数据) • 点击者(家庭)背景及心理倾向性(大数据) • 网上对口广告 • 直接相关( 中数据) • 间接相关(大数据)
2.2 教育 • 校系评估 • 依据现成排名 (不理想; 如捐款额) • 录取率 • 统考成绩及毕业率 • 学生及家长评价 • 科研水平 • 毕业后平均收入 • 雇主口碑 • 毕业后成就(大数据) • 网上教材 • On line 教材 • 买廉价教材 • Google, 百度, Wikipedia
2.3 购销 1 目标 • 购 • 追求最高性价比 • 追求最高质量(如治重疹药) • 追求各复杂条件的最优 • 销 • 追求最高价格 • 追求最大销量 • 追求最高市场占有率 • 追求最佳品牌 • 追求最佳服务信誉
2.3 购销 2 手段: 依据网上及各数据库数据 • 购 • 质量评估及统计 • 卖家声誉评估及统计 • 售后服务评估及统计 • 消费者反馈信息 • 销 • 群体购买欲 • 群体价值观 • 群体购买力 • 群体消费习惯及心理倾向性或错觉 • 群体性价错觉(例:Amr. Exp. 0.5% & 5%) • 个体上述消费特征( 超大数据) • 共:地区物流能力(中国特色)
2.4 搜索 • 多数网站均有搜索功能 • 搜索结果排序是关键 • 例: ant (Google, Bing, 百度) • 排序依据(加权优化) • 用户(IP)是否搜索过该关键词(小数据) • 用户地址(小数据) • 点击率(小数据) • 点击日期(近期更重要)( 中数据) • 点击后停留时间(也许接电话)( 中数据) • 用户搜索相关内容及次数( 中数据) • 用户搜索相近内容及次数(大数据) • 目标网站操作量( 大数据) • 用户搜索拼写相近关键词的相关及相近内容与次数( 超大数据) • 横向关联(例:Google发现疫情)
3.1 网外数据 • 电话(手机) • 对方详情 • 时间 • 时长 • 用电量(例: 李总理凭其估经济侧面) • 用水,煤,煤气,等资源量 • 交通运输统计 • 人口资料统计 • 其它统计(例:病例,医药实验等)
3.2 其它领域 • 医药(预防,治疗,药品) • 公路交通(摄像头数据) • 铁路调度(人流,物流统计) • 政策--人口,房改,城管,… • 城市建设规划(电,气,水,商场,餐饮,旅馆,…) • 航空票价预测 • 仓储,物流
4. Data Mining 技术 • 本质--从数据库大数据中找到有用信息 • Methods • AI (Artificial Intelligence 人工智能) • 各类优化 • Machine Learning Algorithms • Statistics • Database Systems • 可行性 • 效率 • 成本
4.1 Machine Learning Algorithms • Algorithm types/paradigms • Supervised – from known in-out sets to generalize rules • Unsupervised – from known in & desired out to discover structures in data • Semi-supervised • Others like Reinforcement, Transduction, Developmental, … • Neural network • Case-based reasoning • Lazy learning & Eager learning • Decision tree • AODE, Bayesian statistics, Group method, Random forest, PAC, …
4.3 Case-based reasoning 4R process: • Retrieve • Reuse • Revise • Retain
4.4 Decision tree Tree models: • Classification Trees • Regression Trees • Pros: • Simple • Robust • Cons: • NP-Complete (nondeterministicpolynomial) • Over-complex trees
4.5 AODE (AveragedOne-Dependence Estimators) Probabilisticclassification learning
结束语 • 效果(扩妙用,避误用) • 成本(数据资金,速度,容量) • 未来(便扩展,避隐患) • Open to extension; “Close” to modification. • Strengthen security. • 技术 • 统计,概率 • Data mining • Database • Application