190 likes | 356 Views
基于 Web 日志分析的校园网受众分析. 刘佐达 清华大学网络中心. 目录. 背景介绍 Web 日志分析原理 系统设计与实现 实验结果及分析 小结. 背景介绍. 数字化校园已经成为高等院校信息化建设的一个重要目标 网络宣传阵地的竞争日趋激烈 新的问题 校园网宣传是否达到了预期的效果? 用户在接收和使用校园网信息的时候具有什么样的特点? 校园网信息的传播存在什么样的规律?. Web 日志分析原理. Web 日志记录了网站服务器接收、处理请求以及运行错误等各种原始信息. Web 服务模式主要有三个步骤
E N D
基于Web日志分析的校园网受众分析 刘佐达 清华大学网络中心
目录 • 背景介绍 • Web日志分析原理 • 系统设计与实现 • 实验结果及分析 • 小结
背景介绍 • 数字化校园已经成为高等院校信息化建设的一个重要目标 • 网络宣传阵地的竞争日趋激烈 • 新的问题 • 校园网宣传是否达到了预期的效果? • 用户在接收和使用校园网信息的时候具有什么样的特点? • 校园网信息的传播存在什么样的规律?
Web日志分析原理 • Web日志记录了网站服务器接收、处理请求以及运行错误等各种原始信息 • Web服务模式主要有三个步骤 • 服务请求,包含用户端的众多基本信息,如IP地址、浏览器类型、目标URL等。 • 服务响应,Web服务器接收到请求后,按照用户要求运行相应的功能,并将信息返回给用户。如果出现错误,将返回错误代码。 • 追加日志,服务器将对用户访问过程中的相关信息以追加的方式保存到日志文件中。
Web日志分析原理(续) • 实验中采用的是NCSA公用格式,它是一种固定的ASCII 格式,无法进行自定义。这种格式适用于网站,但不适用于 FTP 站点。 • NCSA日志实例:“66.249.65.144 - anonymous [25/Feb/2007:04:02:35 +0800] "GET /dzzsread.php?id=2331 HTTP/1.1" 200 11493”
系统设计与实现 • 输入与定制 • 网络日志文件 • 用户的特定需求 • 日志预处理 • 去除无关信息 • 综合分析 • 从特定信息数据库和IP数据库中抽取相关的数据,根据用户的定制进行综合分析,得到关于特定信息受众的IP分布数据 • 统计输出 • 根据用户的需求绘制图表,并通过显示接口反馈给用户
实验 • 数据集 • 清华新闻网(http://news.tsinghua.edu.cn)是清华大学的重要信息发布中心 • 清华大学计算中心提供清华新闻网的访问日志,作为实验数据,测试我们的系统 • 分析功能 • 用户地理位置分析 • 访问特征分析
用户地理位置分析 • 将网络受众的地理位置分析分为校内、国内、国外三个类型
用户地理位置分析 ——校内受众分析 • 案例一 • 新闻《比尔·盖茨与清华学子精彩对话》发布后两个月内访问者在清华大学校内的分布
用户地理位置分析 ——国内受众分析 • 案例二 • 新闻《研招办进行2007年硕士研究生招生网上咨询活动》发布后三个月内的国内访问者分布
用户地理位置分析 ——国外受众分析 • 案例三 • 新闻《研招办进行2007年硕士研究生招生网上咨询活动》发布后三个月内的国外访问者分布
访问特征分析 • 通过分析访问量的历史曲线,可以对校园网信息做以下分类: • 时效型信息 • 持久型信息 • 间歇型信息
访问特征分析(续)——时效型信息 • 特征 • 发布后2~3天内访问量具有明显的峰起 • 之后开始衰落 • 多为娱乐新闻,容易引起轰动,但是却很难产生持久的影响力。 • 案例四 • 新闻《第十六届清华校园十佳歌手产生》
访问特征分析(续)——持久型信息 • 特征 • 信息在发布后的很长一段时间内,其访问量在某一均值附近振荡 • 没有明显的峰起或者低谷,具有较为持续的影响力 • 通常政策性的信息具有类似特征 • 案例五 • 新闻《清华开展主题团日活动学习讨论“八荣八耻” 》
访问特征分析(续)——间歇型信息 • 特征 • 信息具有多个峰起,显示出信息传播中的周期性 • 通常与事件本身的流程等具有相同的周期 • 案例六 • 新闻《研招办进行2007年硕士研究生招生网上咨询活动》
小结 • 针对目前数字化校园发展中一些亟待解决的问题,通过对Web日志的分析,设计了校园网受众的分析模型,并实现了可用系统。 • 经过实验,证实了该模型的合理性和有效性,并根据访问量历史曲线的特征总结了校园网信息的三种基本类型。