20xx年信息资源调查报告(编辑修改稿)内容摘要:

性 防火墙、操作系统等 网站效果指标 信息发布 可用性度量 业务结合 网页 网页 按 内容形式分类 比例 计算机搜索 包括图像、音频和视频 网页按性质分类比例 政府、企业、商业等 网页按地域分布比例 省域及七大区分布 网页长度 以字节数计算 网页的更新周期 网页编码状况 简、繁体中文、英文 等 第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 3 在线数据库 按性质分类比例 问卷调查 政府、企业、商业网站等 按地域 分布 比例 华北、华南等七大区分布 按内容分类比例 产品 、 科技信息数据库 等 按形式分类比 例 图形文字数据综合等 按使用 情况 分类比例 分自用和公用 公用下分免费和收费 收费下分收费方式 按服务方式分类比例 面向终端用户或中介 在线数据库更新状况 - 数据库容量 物理存储量( G) 是否同时具有其它载体 否、是(光盘、纸质等) 三、调查时间 调查时间: 2020年 12月- 2020年 2月 ;数据截至时间: 2020 年 12 月 31 日。 四、 有关概念 1. 在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。 2. 中国互联网络是指所有域名注册单位属 于中国大陆的网站总和。 3. 在线数据库是指以 Web 为界面,提供公共检索的收费或免费的数据库。 4. 网站是指有独立域名的 web 站点,其中包括 CN 和通用顶级域名( gTLD)下的web 站点。 此处的独立域名指的是每个域名最多只对应一个网站 “ WWW.+域名 ” ,如:对域名 来说,它只有一个网站 ,并非它有 、 „„ 等多个网站。 5. 商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企业网站是相对于商业网站 而言,指业务主要在网下进行的企业所建立的网站,如联想集团的网站。 6. 网页搜索是指对抽取的网站从其首页( WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。 7. 静态网页是指 URL 中不含。 和输入参数的网页,包括: *.htm、 *.html、*.shtml、 *.txt、 *.xml 等。 8. 动态网页是指 URL 中含。 或输入参数的网页,包括: ASP, PHP, PERL, CGI第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 4 等 在 Server 方进行处理的网页。 9. 网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在 HTML 中的声明来判断的。 因为大量国内的英文网页在其 HTML 声明中都是简体中文。 10. 网页的内容形式:是通过文件后缀获得的。 关于图像、音频、视频的文件后缀定义标准参考 MIME 标准。 11. 网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。 五、调查方法 (一)数据获取方式和渠道 域名和网站的总量数据通过国内各国际域名注册商和 CNNIC 联合获得。 网页的特征数据由百度公司利 用搜索技术对全国网站进行搜索获得。 搜索 时通过 URL 判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的 IP 地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。 网站 的特征数据 及在线数据库的 特征 数据通过 Call Center电话 问卷 调查的方式获得。 (二)调查问卷的抽样方法 按照对中国互联网络信息资源的定义( 中国互联网络上公开发布的网页、在线数据库的总和 ),同时考虑到未注册域名而提供服务的网站数量较少以及调查的难度,本次调查中所指的总体为: 中国(不包括香港、澳门 、台湾 地区 )所有已注册域名的 网站 , 包括 .COM, .NET, .ORG 和 .CN 域名 (含 , 等 )下的所有网站。 关于抽样框,最直接的作法是选择抽样框为全国有域名的网站名录。 由于保密性的原因,抽样过程需要委托各域名注册 /代理商完成,从方便实施并提高数据精度的角度考虑选择抽样框为全国(不含港、澳、台)范围内的域名名录。 第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 5 由于一个网站可能会有两个或两个以上域名,而有的域名没有建立网站。 这样对于总体而言,就出现了“抽样框单位没有对应的抽样单位”、“抽样框单位和抽样单位不一一对应”等问题。 对此,考虑采用排除、事后加权等方法来解决。 本次调查的抽样方法采用分层按比例抽样:考虑到各域名类别下网站特征的差别,首先 按 域名类别 分层 ;之后在每个类别内采用定距抽样的方法来抽取样本,最后 对调查结果进行事后加权处理以 估计全国 范围的估计量。 下面分阶段叙述抽样方法: 第一阶段:将样本量分到各层 因为到目前( 2020 年 11 月)为止只有截止 2020 年 6 月 30 日的全国范围的域名数的情况;同时考虑到我们主要是利用各类别域名数之间的比例关系来确定样本量在各层的分配,而这种关系应该不会有较大的变化。 因此本方案按 照截止2020 年 6 月 30 日的“各类别域名数占全国域名总数的比例”将样本总量分配到各域名类别。 第二阶段:将样本量分配到各域名注册 /代理商 抽样过程由域名注册 /代理商按照抽样办法(由中国互联网络信息中心提供)抽取指定数量的域名作为样本。 样本按照各域名注册 /代理商所注册拥有的域名数的比例进行分配。 具体计算办法如下: M ij = Mj( Nij /Nj) 其中: M ij 表示第 i家域名注册 /代理商所应抽取第 j类的域名数, M j 表示第 j类应抽取的域名样本数, Nij 表示第 i家域名注册 /代理商所拥有第 j类的域名总数, Nj 表示第 j类的域名总数。 第三阶段:各家域名注册 /代理商抽取域名样本 考虑到尽可能简化各域名注册 /代理商抽取样本的工作量和保证抽样的精度,要求各域名注册 /代理商在整理了域名名录(抽样框)后采用等距抽样,抽取样本步骤如下: 步骤 1:分组 以域名的类别为单位对域名名录进行分组。 步骤 2:排序 第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 6 由域名注册 /代理商对其抽样框(域名名录及相关信息)内各组域名首先按照域名注册单位所属省份排序,进而在域名注册单位所属省份下按域名注册先后时间进行排序。 步骤 3:编号 对各组内完成排序的域名进行编号。 域名注册单位所属省份排序和 编号规则规定如下: 序号 省市区 序号 省市区 序号 省市区 序号 省市区 1 北京 9 上海 17 湖北 25 云南 2 天津 10 江苏 18 湖南 26 西藏 3 河北 11 浙江 19 广东 27 陕西 4 山西 12 安徽 20 广西 28 甘肃 5 内蒙古 13 福建 21 海南 29 青海 6 辽宁 14 江西 22 重庆 30 宁夏 7 吉林 15 山东 23 四川 31 新疆 8 黑龙江 16 河南 24 贵州 步骤 4:抽取样本 以第 i个域名注册 /代理商、抽取第 j类样 本的过程为例叙述如下。 第 i 个域名注册 /代理商在第 j 组域名列表中抽取出指定数量的 Mij 个域名作为其提供的第 j类域名的样本,抽取的规则如下:首先计算一个抽样距离 XIJ( XIJ=Round( nij/Mij)), XIJ为第 i个域名注册 /代理商在第 j类样本中的抽样间距,然后随机从 1到 nij 中选出一个数 S,那么编号为 P=S+k*Xij(k=0、 3 M ij1)的域名即为被抽取的样本域名(当 Pnij 时,取 P=Pnij)。 其他组的样本抽取过程类似,将各组中抽取到的样本综合到一起可组成第 i个注册 /代理商应 抽取的样本。 步骤 5:获取样本相关资料 将以上步骤所抽取的样本域名及其相关信息(包括:域名、域名类型、域名注册时间、域名所属单位、域名单位所在地、域名联系人、联系电话等)存为Excel 工作表文件。 格式如下: 第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 7 序号 域名 域名类型 域名注册时间 域名所属单位 域名单位所在地 联系人及联系方式 1 Net 北京 将所有注册 /代理商提供的样本合并即成为调查所需样本。 六、调查问卷 本次问卷调查的有效网站样本数为 2492 个,在置信度为 95%的精度要求下,可保证最 大允许绝对误差小于 2%。 调查问卷时间为 2020 年 12 月 - 2020 年 2 月。 问卷所采集数据的相应记录时间为 2020 年 12月 31 日。 七、组织单位 委托单位: 国务院信息化工作办公室 实施单位: 中国互联网络信息中心( CNNIC) 协助单位 (按字母排序) : 百度在线网络技术(北京)有限公司 北京东方网景信息科技有限公司 北京信海科技发展公司 北京信诺立兴业网络通信技术有限公司 创联万网国际信息技术(北京)有限公司 东方通信股份有限公司 搜狐爱特信信息技术(北京)有限公司 第二部分 调查说明 2020 年中国互联网络信息资源数量调查报告 8 厦门必信电脑网络有限 公司 厦门精通科技实业有限公司 厦门中资源网络服务有限公司 第三部分 调查结果 2020 年中国互联网络信息资源数量调查报告 9 第三部分 调查结果 (以下调查结果截止到 2020 年 12月 31 日) 第一章 域名、网站数及地区分布 一、域名数 1. 全国域名数: 1187380 个 注:包括 CN域名和通用顶级域名( gTLD),不含中文域名。 2. 分地区域名数比例 表 2 地区域名数量分布 北京 天津 上海 重庆 安徽 % % % % % 福建 甘肃 广东 广西 贵州 % % % % % 海南 河北 河南 黑龙江 湖北 % % % % % 湖南 吉林 江苏 江西 辽宁 % % % % % 内蒙古 宁夏 青海 山东 山西 % % % % % 陕西 四川 西藏 新疆 云南 % % % % % 浙江 % 第三部分 调查结果 2020 年中国互联网络信息资源数量调查报告 10 图 1 地区域名数量分布 二、网站数 1. 全国网站数 (包括 .CN、 .COM、 .NET、 .ORG 下的网站):约 595550 个 1 2. WWW 站点分类状况 表 3 站点性质分类 AC COM EDU GOV NET ORG 行政区域名 . .CN . (.) . . (.) (.) 百分比 % % 略 % % % % % 图 2 站点性质分类 1由于此次对网站的定义是指 WWW.+域名 有 Web 服务,而有的网站的主机名并不是 WWW,则这类网站虽然存在,却不在我们的统计之列。 第三部分 调查结果 2020 年中国互联网络信息资源数量调查报告 11 3. 分地区网站比例 表 4 地区网站数量分布 北京 天津 上海 重庆 河北 山西 内蒙古 百分比 % % % % % % % 辽宁 吉林 黑龙江 江苏 浙江 安徽 福建 百分比 % % % % % % % 江西 山东 河南 湖北 湖南 广东 广西 百分比 % % % % % % % 海南 四川 贵州 云南 西藏 陕西 甘肃 百分比 % % % % % % % 青海 宁夏 新疆 百分比 % % % 图 3 地区网站数量分布 第三部分 调查结果 2020 年中国互联网络信息资源数量调查报告 12 第二章 网站性质及服务内容 一、 网站按性质分类 将网站按照主体性质不同分为政府网站、企业网站、商业网站、教育科研机构网站、个人网站、其它非盈利机构网站以及其它类型等。 本次调查结果显示,企业网站数的比例最大,占整个网站总体的 %,其次为 商业 网站,占 %,第三是 个人 网站,占 %,随后依次为教育科研机构网站占 %,其它非盈利机构网站占 %, 政府网站占 %,其它类型占 %。 如下图所示。 注:商业网站指 业务主要在网上进行的电子商业网站 ,如新浪、搜狐等 网站 ;企业网站是相对于商业网站而言,指业务主要在网下的企业所建立的网站 ,如联想集团的网站。 图 4 不同性质类型网站分布图 饼状图。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。