【地方标准】DB3302/T 1112—2019 政府网站网页归档管理规范(浙江省宁波市)
2020/4/28 13:41:57
DB3302/T 1112—2019
2019-12-23发布 2020-01-23实施
政府网站网页归档与管理规范.pdf
本标准规定了政府网站网页归档与管理的总则,以及采集、归档、整理、移交接收、保管和利用等主要流程的具体要求。本标准适用于政府网站网页的归档和管理,其它类型网站网页归档可参照执行。 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 18894-2016 电子文件归档与电子档案管理规范
GB/T 32010.1 文献管理可移植文档格式第1部分:PDF 1.7
GB/T 33190 电子文件存储与交换格式版式文档
GB/T 33994 信息和文献WARC文件格式
DA/T 15 磁性载体档案管理与保护规范
DA/T 70-2018 文书类电子档案检测一般要求
各级人民政府及其部门、派出机构和承担行政职能的事业单位在互联网上开办的,具备信息发布、 解读回应、办事服务、互动交流等功能的网站。 将政府机关和企事业单位通过网站形成的,对国家和社会具有保存价值的网页、网页附件及元数据进行采集、整理、移交接收、保管和利用的过程。 政府机关和企事业单位网站形成的,经归档的对国家和社会具有保存价值的网页、网页附件及元数据。 对网站和网页进行采集、归档、整理、移交接收、保管和利用的电子文件管理系统。 OFD:开放的版式文档(Open Fixed-layout Document) PDF:便携式文档格式(Portable Document Format) URL:统一资源定位系统(Uniform Resource Locator) WARC:互联网存档(Web ARChive File) 4.1 网站网页归档与管理主要流程图见图 1。
4.2 应充分考虑网页文件的特点,在采集、归档、保管和利用等环节采取不同的安全管理措施。 4.3 网页归档管理系统应充分吸收国内外网络信息资源归档项目的成功经验。 4.4 应加强相关机构之间的分工与合作,应重视网页文件涉及的知识产权问题。 4.5 网站主办单位应担负网页归档的主体责任,确保本单位网站中对国家和社会具有保存价值的网页文件及时归档。
5.1 网站主办单位应根据本单位网站网页内容的实际情况,综合分析网页信息的重要程度和保存价值, 制定本单位网页文件的《归档范围和保管期限表》,并提交同级档案行政管理部门审核和备案: a) 归档范围:应综合分析网页信息的重要程度和保存价值,制定本单位网页信息的归档范围。网页归档范围一般应包括反映网站整体风貌的网站首页、频道首页及栏目首页,反映本单位职能和网站功能的信息发布类、解读回应类、办事服务类、互动交流类,以及其他具有保存价值的页面; b) 保管期限:网页档案的保管期限定为永久、定期30年、定期10年三种,应以网站栏目为单位设定保管期限,网站栏目的保管期限设定为栏目内网页文件的最高保管期限。 5.2 网站主办单位制定网页文件的《归档范围和保管期限表》时,可参考附录A。 5.3 网站主办单位依据《归档范围与保管期限表》采集网站的网页文件和内部链接,以URL链接方式存在于网页文件中的文本、照片、音频、视频等附件及网页文件相关元数据,应同时采集。 5.4 网站主办单位采集时,如网页文件中有较大的音频、视频类附件导致WARC文件需分割时,附件应单独存放。 5.5 网站主办单位采集应以符合GB/T 33994规定的WARC格式,或符合GB/T 33190规定的OFD格式, 或符合GB/T 32010.1规定的PDF格式保存。 5.6 网站遇整合迁移、改版等情况,或网上事务办理完毕、栏目频道信息重大更新、展现形式发生较大变化时,网站主办单位应及时采集。 5.7 网站主办单位宜通过采集工具进行采集,采集应在网站夜间访问低峰时段进行;网站新开发建设或重大改版时,应考虑集成网页档案归档功能。 5.8 网站主办单位应使用重复信息识别技术,对相同URL的网页文件,仅采集一次。 5.9 网页采集后,网站主办单位宜采用无钥签名、电子签名、区块链等技术手段来保障网页档案的真实性;电子签名宜通过批量一次性签名与按件签名相结合的手段,降低签名成本。 6.1.1 网页文件在采集完成后,网站主办单位应当实时归档。 6.1.2 网页归档时应将网页文件的元数据同时归档(归档元数据项参见附录 B),包括且不限于:——内容检索类;
——资源属性类;
——知识产权类;
——固化信息类。
6.1.3 对于有附件的网页,归档时应将附件与网页同时归档。 6.1.4 当网页文件因篇幅较长而分为多个页面显示时,应将该项内容所对应的多个页面同时归档。6.1.5 网站主办单位在网页归档管理系统上进行归档时,可采取逻辑归档方式。 6.1.6 对即将关闭的网站或即将网站改版的网站,网站主办单位应进行物理归档,将存储的网页档案进行备份,并上报网站主管单位和档案行政管理部门。 6.2.1 网站主办单位应在采集时对网页文件进行文件级的真实性和完整性检测,归档时对归档包进行可用性和安全性检测,采集和归档时的检测应分步进行。 6.2.2 网页档案的检测内容可参照DA/T 70-2018执行。检测要求主要包括对网页档案的真实性、完整 性、可用性和安全性进行检测。 6.2.3 网站主办单位和国家综合档案馆应在移交接收时、长久保存时,分别进行真实性、完整性、可 用性和安全性检测。 6.2.4 检测应以网页归档管理系统自动检测为主,检测主要内容包括且不限于:——网站、频道首页内容;
——栏目数量、栏目内网页数量;
——网页文件的元数据和全文特殊赋值情况,如空值、最大值、异常值等。
7.1.1 网页文件唯一标识符应能唯一表示网页文件,字符编码不区分大小写,能扩展为数字对象唯一 标识符(DOI)。 7.1.2 网页文件唯一标识符的编制结构为“网站编号-日期-保管期限代码-流水号”:——网站编号:为10位数字,前2位为省级行政区划码,后8位数字为网站主办单位的ICP备案号中的8位数字;——日期:为网页文件WARC格式采集时间,以8位数字表示的年月日;——保管期限代码:“永久”用“Y”表示,“定期30年”用“D30”表示,“定期10年”用“D10” 表示;——流水号:为网页文件采集时的流水编号,采用6位数字编码,从“000001”起。 7.2.1 网页档案应以网页文件唯一标识符为基础生成档号。 7.2.2 档号的结构宜为“全宗号-WY.年度-网页文件唯一标识符”。 7.3.1 网页档案可采用层级文件夹的形式进行存储,在“网页档案”总文件夹下,根据保存格式的不同分别采取不同的层级结构。 7.3.2 以WARC格式保存的网页档案,依次按不同的网站、年度建立层级文件夹,如“\网页档案\宁波 档案网\2018\”。 7.3.3 以非WARC格式保存的网页档案,应符合GB/T 18894-2016规定的保存要求。 8.1 网页档案由网站主办单位向同级国家综合档案馆办理移交手续。
8.2 网站主办单位应自网页档案形成之日起 5 年内移交给同级国家综合档案馆。
8.3 如遇网站重大改版,网站主办单位应在改版后及时进行移交。
8.4 网站主办单位应当将已移交的网页档案在本单位至少保存 5 年。
9.1.1 网站主办单位应维护一个与WARC文件一致的网页文件元数据数据结构快照,并进行保存。 9.1.2 保存为OFD文件格式的网页档案,应将网页文件中的图片、视频、音频等附件单独另存,其保 存方式应符合GB/T 33190的要求。9.1.3 网站主办单位应合理设计网页文件的分层存储结构和WARC大小,支持第三方备份软件进行备份。9.1.4 网页档案应采用在线和离线二种方式分别保存。 9.1.5 离线存储在磁性载体上的网页档案按DA/T 15的要求进行保管。 9.2.1 除涉及知识产权、个人隐私等问题外的所有网页档案均应在互联网上向社会公众提供利用服务。9.2.2 应提供URL、全文、元数据等检索功能。 9.2.3 应提供按时间、主题、专业等分类展示功能。 9.2.4 应提供以OFD、PDF格式的网页版式电子文件输出功能。 9.3.1 国家综合档案馆应定期对网页档案进行销毁鉴定,鉴定程序应符合国家有关规定。9.3.2 国家综合档案馆应在确保网页档案的真实性、完整性、可用性和安全性基础上,实施网页档案及其元数据的迁移。 9.3.3 对于定期10年、定期30年到期的网页档案应参照国家关于档案销毁的有关规定与程序执行,具体要求如下: a) 以时间轴、栏目为单位对电子档案内容进行销毁鉴定,如网页档案内容没有继续保存价值的,可进行批量销毁;
b) 根据网页档案的技术状态检测、依赖环境保存状态检测、病毒检测结果,对不可用或嵌入了病毒、木马代码的电子文件可进行销毁;
c) 应销毁的网页档案可在保存成本增加或迁移前进行集中销毁。(资料性附录)
归档范围与保管期限
网页文件的归档范围和保管期限见表A.1
附 录 B
(资料性附录)
网页文件归档元数据
网页文件归档元数据见表B.1
来源:宁波市市场监督管理局