AI智能总结
作品名称:档案数字化加工流程数据分析荣获奖项:一等奖并获泰迪杯作品单位:浙江工商大学作品成员:卢茜唐至阳王苗封面为后期添加,原作品没有此页。 档案数字化加工流程数据分析 摘要: 随着扫描、光学字符识别(OCR)、数码摄影、数据库、多媒体和存储技术的不断创新,档案数字化作为一种崭新的档案信息处理技术应运而生。它将各类载体的档案资源转化为数字形式,并以数字形态进行储存,实现网络化连接,通过计算机系统进行综合管理,筑构出一个有机有序的档案信息库。眼下,我国各个行业的存量档案数量巨大,对档案数字化的需求持续攀升,档案数字化加工行业的市场规模呈现逐年扩大之势。 本文基于某档案数字化加工单位2020年7月加工处理过程中各个工序的管理数据,对档案数字化流程的耗时和进度情况、操作人员的工作量和工作效率情况进行了统计分析与可视化展示,旨在为管理人员能够及时了解档案加工处理动态提供数据参考。具体做法如下: 针对问题一,数据预处理与统计。本文首先统计出完成四道工序的案卷数量为33980,并在有效工作时间范围内将各案卷各工序的开始时间及各案卷的完成时长进行统计。其次,本文统计出需要返工的案卷数量为8166,其占完工案卷总数的百分比为24.032%,并将返工案卷的返工工序和返工开始时间进行汇总。同时,本文一方面对自检全检工序,汇总每个操作人员的返工案卷数,计算其占该操作人员该工序工作总量的百分比,另一方面按工序分别统计完成案卷的数量、总耗时和平均耗时。最后,本文按操作人员,根据不同工序,统计其工作时长、完成案卷的数量与每个案卷的平均耗时。 针对问题二,数据分析与可视化。本文根据给出的管理数据,绘制出多幅数据可视图,分别为每天不同工序完成案卷数量的簇状柱形图、各工序每天投入工作量(单位:人·小时)的多重折线图、每天各工序返工案卷数占当天返工案卷总数的百分比堆积面积图与每个操作人员返工案卷数饼图。 针对问题三,领取提交模式分析。本文通过可视化的方法分析批次内案卷的领取提交时序,总结有4种领取提交模式,分别为串行领取串行提交模式、多次领取多次提交、多次领取同时提交与同时领取多次提交模式,并对每一种模式提供了一个实际案例。 关键词:档案数字化,数据分析,数据可视化,案卷领取提交模式 目录 1.1问题背景.....................................................31.2问题重述.....................................................3 二、任务一:数据预处理与统计........................................6 2.1问题分析.....................................................62.2第一小问求解.................................................62.3第二小问求解.................................................82.4第三小问求解.................................................82.5第四小问求解.................................................92.6第五小问求解.................................................9 三、任务二:数据分析与可视化.......................................10 3.1第一小问求解................................................103.2第二小问求解................................................133.3第三小问求解................................................143.4第四小问求解................................................15 一、问题简介 1.1问题背景 随着扫描、光学字符识别(OCR)、数码摄影、数据库、多媒体和存储技术的不断发展,档案数字化作为一种新型档案信息处理技术应运而生。它将各种载体的档案资源转变为数字化档案信息,并以数字形式存储,以网络化形式相互连接,通过计算机系统进行管理,构建一个有序结构的档案信息库。我国档案工作采取“存量数字化、增量电子化”的信息化战略。当前,我国各行业存量档案数量巨大,档案数字化的需求持续增加,档案数字化加工行业的市场规模呈逐年增长之势。 1.2问题重述 (一)预期目标 对加工流程数据进行统计分析,并作可视化展示,便于管理人员及时了解档案加工处理动态。具体目标如下: 1.统计档案数字化流程的耗时和进度情况。 2.统计操作人员的工作量和工作效率情况。 (二)附件内容 表1-data.xlsx 表2-result1_1.xlsx表3-result1_2.xlsx表4-result1_3.xlsx表5-result1_4.xlsx表6-result1_5.xlsx表7-result3.xlsx 注:data.xlsx记录了某档案数字化加工单位2020年7月加工处理过程中各个工序的管理数据。 (三)任务要求 基于上述问题背景与提供的附件数据,本文需要研究完成以下任务: 任务一:数据预处理与统计 a)统计完成四道工序的案卷数量,在报告中列出统计结果。汇总各案卷各工序的开始时间及各案卷的完成时长,以表1的格式将汇总结果保存到文件“result1_1.xlsx”中,同时在报告中列出案卷完成时长最长的三个案卷的结果。 注1:每个案卷的完成时长是扫描、图像处理、自检全检三个工序的耗时之和,PDF处理无需计算耗时,各工序的耗时是该工序的开始时间至结束时间的时长。 注2:完成时长应去掉非工作时间(“三、案卷加工流程说明”第5条),单位:h,保留3位小数。 b)统计需要返工的案卷数量及其占完工案卷总数的百分比,在报告中列出结果。汇总返工案卷的返工工序和返工开始时间,以表2的格式将汇总结果保存到文件“result1_2.xlsx”中,同时在报告中列出返工案卷号“托40606-册六”“托40606-册七”“托5901_1-册三”的结果。 注:未返工工序的时间为空。 c)对自检全检工序,汇总每个操作人员的返工案卷数,计算其占该操作人员该工序工作总量的百分比,按百分比降序排列,以表3的格式将结果保存到文件“result1_3.xlsx”中,同时在报告中列出前三位操作人员的结果。结果保留3位小数,例如:返工案卷占比为1%,在结果表中填写“1.000”。 d)按工序分别统计完成案卷的数量、总耗时和平均耗时,以表4的格式将结果保存到文件“result1_4.xlsx”中,并在报告中列出结果。结果保留3位小数。 注:按工序计算总耗时,是该工序各个批次的案卷集最早开始时间至案卷集最晚结束时间之和,而不是各个案卷完成时长的总和。 e)按操作人员、工序统计工作时长、完成案卷的数量和每个案卷的平均耗时(h/卷 ), 以 表5的 格 式 将 结 果 按 操 作 人 员ID升 序 排 列 保 存 到 文 件“result1_5.xlsx”中,同时在正文中列出操作人员ID“10”“33”“48”的结果。结果保留3位小数。 注:按操作人员、工序统计工作时长是按批进行的(“三、案卷加工流程说明”第3条),应去除非工作时间(“三、案卷加工流程说明”第5条)。 任务二:数据分析与可视化 a)计算并绘制每天不同工序完成案卷数量的簇状柱形图:x轴表示时间,y轴表示完成案卷的数量,用不同颜色标记不同工序。 b)计算并绘制各工序每天投入工作量(单位:人·小时)的多重折线图:x轴表示时间,y轴表示每天投入的工作量,用不同颜色标记不同工序。 c)绘制每天各工序返工案卷数占当天返工案卷总数的百分比堆积面积图:x轴表示时间,y轴表示百分比,用不同颜色标记不同工序。 d)对图像处理工序,汇总每个操作人员返工案卷数,计算其占该工序返工案卷总数的百分比,并按百分比进行排序,绘制饼图,其中排名第10位及以后的合并成一个扇区。 任务三:领取提交模式分析 根据文件data.xlsx的批次数据,通过可视化的方法分析批次内案卷的领取提交时序,总结有哪几种领取提交模式。对每一种模式给出一个实际例子,以表6的格式保存到文件“result3.xlsx”中,同时在报告中参照图1和图2的方式分别绘制两种不同的示意图。 二、任务一:数据预处理与统计 2.1问题分析 通过观察题目给出的附件数据与任务要求,本文分析得出任务一存在以下两大难点: 难点一:判断案卷已完成的标准。根据题目要求可知,虽然题目中注明每个案卷的完成时长是扫描、图像处理、自检全检三个工序的耗时之和,PDF处理无需计算耗时,但是在对完成案件进行计数时,需要确定每个案件在四道工序中均有结束时间。 难点二:每个案卷完成时长的计算方式。由于实际工作中工人会出现提前上岗或推迟下岗的情况,通过观察附件数据可知,如果仅仅以每个案卷的第三道工序结束时间减去第一道工序的开始时间作为每个案卷的完成时长,则会将非工作时间也会计入到完成时间中。因此,本文对附件数据中可能存在的所有情况进行总结,后续问题求解时对于一些特殊情况需要进行特殊处理,具体见表1。 2.2第一小问求解 根据任务一的要求,针对第一小问: 首先,需要确定每个案卷在四道工序中是否均有结束时间,如果没有,则判定该案卷并未完成四道工序,如果有,则判定该案卷已完成四道工序,并对该案卷进行计数。 其次,需要判断所有完成四道工序的案卷中他们的开始时间与结束时间是否出现跨周的情况,如果出现跨周的情况,在计算完成时长时需要提前去除周日一天的时间,再计算有效的工作时间。 针对案卷中各个工序的开始时间或结束时间处于非工作时间,本文进行如下处理,具体见表2。 最后,在完成对案卷各个工序非工作时间的处理后,根据情况去除中午午休的一小时时间与晚上18:00至后一天早上8:30前的下班时间,即可得到各案卷的有效完成时长。 根据上述解题思路,本文最终求得完成四道工序的案卷数量为33980,案卷完成时长最长的三个案卷的结果如表3所示。 2.3第二小问求解 根据任务一的要求,针对第二小问: 首先,根据字段名为“dPROC_TIME”的值,判断各个案卷在各个工序上是否需要返工。 其次,对所有具有返工时间的数据根据“案卷号”去除重复项,统计需要返工的案卷数量。 最 终 , 计 算其 占 完 工 案 卷 总 数 的 百 分 比, 并 将汇 总 结 果 保 存 到 文 件“result1_2.xlsx”中。 根据上述解题思路,求得需要返工的案卷数量为8166,其占完工案卷总数的百分比为24.032%。返工案卷号“托40606-册六”“托40606-册七”“托5901_1-册三”的结果如表4所示。 2.4第三小问求解 根据任务一的要求,针对第三小问: 首先,需要对自检全检工序,根据返工开始时间,汇总每个操作人员的返工案卷数。 其次,计算每个操作人员的返工案卷数占该操作人员该工序工作总量的百分比,并将百分比按降序排列。 最后,以结果保存到文件“result1_3.xlsx”中。 根据上述解题思路,前三位操作人员的结果具体如表5所示。 2.5第四小问求解 根据任务一的要求,针对第四小问: 首先,根据各个工序是否存在结束时间,分别统计各个工序完成案卷的数量。 其次,根据各个工序中各个批次的案卷集最早开始时间至案卷集最晚结束时间之和,计算各个工序的总耗时。 最后,用总耗时去除以每个工序完成案卷的数量,计算各个工序的平均