1 / 27

大数据的妙用

大数据的妙用. 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President. 大数据简介. 数据 <- data <- 电脑可处理信 息 ( 资料 ) 大数据研究领域 : 识其本 ( 例 : 每人的多数网上行为均被记录成 为 数据 ) 尽其用 --data mining ( 本轮重心 ) 防其 患(前 次 重心 ). 妙用领域. 金融财经 网 上 数据 广告 教学 购销 搜索 网 外 数据及其它领域 Data mining 技术. 1. 金融财经. 领域 借贷信 用计算 个 人理财

daquan-west
Download Presentation

大数据的妙用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大数据的妙用 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President

  2. 大数据简介 • 数据 <- data <- 电脑可处理信息(资料) • 大数据研究领域: • 识其本(例:每人的多数网上行为均被记录成为数据) • 尽其用--data mining(本轮重心) • 防其患(前次重心)

  3. 妙用领域 • 金融财经 • 网上数据 • 广告 • 教学 • 购销 • 搜索 • 网外数据及其它领域 • Data mining 技术

  4. 1.金融财经 • 领域 • 借贷信用计算 • 个人理财 • 风险评估-(各类)评级 • 无风险金融交易 (Arbitrage) • 大数据误用 • 无发票服务 • 依据 • 直接数据 (小数据) • 行内间接数据( 中数据) • 行外数据 (大数据)

  5. 1.1金融财经案例1 --借贷 为贷款计算 • 偿付能力 • 依据收入 • 依据财产(例:金融产品,房,车,首饰,等) • 依据其它可抵押品(例: 保险, 契约,品牌, 信誉,秘密) • 借贷能力(例:亲,友,能力,关系等) • 信用 • 信用分数 • 详细信贷记录 • 所有收支,交易记录 • 组群特征记录 • 个性特征记录 • 其它个人行为记录

  6. 1.2金融财经案例2 --个人理财 • 目标 • 高收益 • 低亏损风险 • 高流动性(例如,意外用大钱时的低损失) • 低税负 • 低查税风险 • 高退休保障

  7. 1.2金融财经案例2 --个人理财2 • 个人特征 • 收入的数额及稳定性 • 财产及其可流动性 • 负债及其违约受罚风险 • 纳税状况 • 各退休后收入 • 各保险细节 • 遗产(收,供,税) • 风险容忍程度 • 存贷习惯 • 应变应灾能力 • 各阶段目标

  8. 1.2金融财经案例2 --个人理财3 • 公共数据 • Bloomberg • Back Office -- 评级, 行业趋势, 地区走势, 等等. • PerSecurity -- ETF量价具体分析, 关键公司行为, 等等. • Reuter – Foreign currency 等等 • Telekurs • 提供免费综合财产管理服务 • 其它各政府及公司的种种统计数据 • 如:制造公司的用电量变化表(产) • 如:热门餐饮的客流量变化表(销) • 如:人口年令结构的变化

  9. 1.3风险评估-例:评级 参考标准评级,加上自我评估。 • 评级机构: Moody, S&P, Fitch,… . • Fixed Income • 评级与利率及价格关系 • Gov. Bond, Corp. Bond (e.g. 垃圾债市场), … • Equity • ETF • Exchange based (e.g. NYSE) • OTC • Derivative CDO, CDS, MBS, … • Mutual Fund

  10. 1.4金融财经案例3 -- Arbitrage • 利--无风险(几乎) • 例 • FX – e.g. ¥100=$1 at NYC, ¥99=$1 at Tokyo at a moment • Stock – IBM £120 at LDN, $191 at NYC, $1.6=£1 => (120*1.6)192vs191 • 法 • 瞬时价格数据(bid & ask) • Google, Yahoo, … 只能看不能下载 • Bloomberg PS or Reuter 太贵 • 交易费数据 • 成交价格上下限及各价概率

  11. 1.4金融财经案例4 --大数据误用 股票分析重要依据 • 行业趋势. 例:石油隐现危机 • 地区走势. 例:欧元区走强 • 内部信息(违法). 例:收购,官司,增债, 现金流 … • 价量历史 若忽略前3项,则个股价量历史数据与有惯性的随机数据相近。 随机数据预测是毫无意义的。 故如下预测意义不大: • 个股的K线分析法 • 个股的其它某些热门量化预测法(所谓的”技术分析法”)

  12. 1.4金融财经案例5 --无发票服务 • 退,换 • Warrantee • 更新(廉价或免费)

  13. 2. 网上软件及工具 • 网上广告 • 网上教育 • 网购 • 搜索

  14. 2.1 网上广告 • 广告效果评估 • 广告点击率 • 点击日期(近期更重要)( 中数据) • 点击后停留时间 • 停留时间内鼠标移动率(大数据) • 是否点击广告内关键联接(大数据) • 点击者(家庭)背景及心理倾向性(大数据) • 网上对口广告 • 直接相关( 中数据) • 间接相关(大数据)

  15. 2.2 教育 • 校系评估 • 依据现成排名 (不理想; 如捐款额) • 录取率 • 统考成绩及毕业率 • 学生及家长评价 • 科研水平 • 毕业后平均收入 • 雇主口碑 • 毕业后成就(大数据) • 网上教材 • On line 教材 • 买廉价教材 • Google, 百度, Wikipedia

  16. 2.3 购销 1 目标 • 购 • 追求最高性价比 • 追求最高质量(如治重疹药) • 追求各复杂条件的最优 • 销 • 追求最高价格 • 追求最大销量 • 追求最高市场占有率 • 追求最佳品牌 • 追求最佳服务信誉

  17. 2.3 购销 2 手段: 依据网上及各数据库数据 • 购 • 质量评估及统计 • 卖家声誉评估及统计 • 售后服务评估及统计 • 消费者反馈信息 • 销 • 群体购买欲 • 群体价值观 • 群体购买力 • 群体消费习惯及心理倾向性或错觉 • 群体性价错觉(例:Amr. Exp. 0.5% & 5%) • 个体上述消费特征( 超大数据) • 共:地区物流能力(中国特色)

  18. 2.4 搜索 • 多数网站均有搜索功能 • 搜索结果排序是关键 • 例: ant (Google, Bing, 百度) • 排序依据(加权优化) • 用户(IP)是否搜索过该关键词(小数据) • 用户地址(小数据) • 点击率(小数据) • 点击日期(近期更重要)( 中数据) • 点击后停留时间(也许接电话)( 中数据) • 用户搜索相关内容及次数( 中数据) • 用户搜索相近内容及次数(大数据) • 目标网站操作量( 大数据) • 用户搜索拼写相近关键词的相关及相近内容与次数( 超大数据) • 横向关联(例:Google发现疫情)

  19. 3.1 网外数据 • 电话(手机) • 对方详情 • 时间 • 时长 • 用电量(例: 李总理凭其估经济侧面) • 用水,煤,煤气,等资源量 • 交通运输统计 • 人口资料统计 • 其它统计(例:病例,医药实验等)

  20. 3.2 其它领域 • 医药(预防,治疗,药品) • 公路交通(摄像头数据) • 铁路调度(人流,物流统计) • 政策--人口,房改,城管,… • 城市建设规划(电,气,水,商场,餐饮,旅馆,…) • 航空票价预测 • 仓储,物流

  21. 4. Data Mining 技术 • 本质--从数据库大数据中找到有用信息 • Methods • AI (Artificial Intelligence 人工智能) • 各类优化 • Machine Learning Algorithms • Statistics • Database Systems • 可行性 • 效率 • 成本

  22. 4.1 Machine Learning Algorithms • Algorithm types/paradigms • Supervised – from known in-out sets to generalize rules • Unsupervised – from known in & desired out to discover structures in data • Semi-supervised • Others like Reinforcement, Transduction, Developmental, … • Neural network • Case-based reasoning • Lazy learning & Eager learning • Decision tree • AODE, Bayesian statistics, Group method, Random forest, PAC, …

  23. 4.2 Neural network

  24. 4.3 Case-based reasoning 4R process: • Retrieve • Reuse • Revise • Retain

  25. 4.4 Decision tree Tree models: • Classification Trees • Regression Trees • Pros: • Simple • Robust • Cons: • NP-Complete (nondeterministicpolynomial) • Over-complex trees

  26. 4.5 AODE (AveragedOne-Dependence Estimators) Probabilisticclassification learning

  27. 结束语 • 效果(扩妙用,避误用) • 成本(数据资金,速度,容量) • 未来(便扩展,避隐患) • Open to extension; “Close” to modification. • Strengthen security. • 技术 • 统计,概率 • Data mining • Database • Application

More Related