号外:录入山东招生计划的心路历程
在河北教育考试院公布了河北采用“专业(类)+院校”的方式后,我就想将山东2020年的招生计划录入到数据库中,在录入过程中,经历了种种困难,今天终于录入成绩,先庆祝一下,下边来说说录入历程吧。
一、先学习图文识别软件
在学习图文识别软件中,通过对各项功能的比较,最终选择了一家知名公司的文字识别,包括通用表格识别、通用文字识别等等。经过一段时间的调试,终于将一张图片中的文字识别出来了,开心中。
二、山东招生计划识别
山东的招生计划如下图所示
在这个图片中,基本上为文字,共400多页。将这些图片以通用文字识别的方式识别出来,录入到数据库中,光这400多页的文字识别,花费了我近一天的时间。
三、数据整理
由于通用文字识别出来的数据比较乱,存在学制与计划数合在一起,无法区分;代号与院校、专业(类)名称及备注、选考科目要求、学制、计划数和年收费整合成一条记录困难重重。使用过好多方法,最终以失败告终。
四、表格识别
使用通用文字识别,再整理数据失败后,设想如果将上图的图片,添加横线和竖线,形成表格,再以通用表格的方式进行文字识别,手工添加横线和竖线后,以通用表格的方式进行识别,再导入到数据库中后,发现此种识别出的数据简单明了,可以很方便的进行分析、汇总。看来大功造成了。狂喜中┈┈但是,如何将这400多张图片形成表格呢?一张张添加,要添加到猴年马月,超级郁闷
五、自动生成表格
苍天不负有心人。通过在网上查找资料,然后再努力研究下,终于实现了自动生成表格,如下图所示。
注意,这个表格是由程序自动生成的,在生成过程中没有人为进行调整。当然,这外程序是在经历一次次错误、一次次调测才实现的。
六、表格识别录入数据库
将生成的表格,重新以通用表格的方式进行文字识别,并将识别的结果导入到数据库中。当然,这些也是由程序实现的。这一过程耗费了大半天的时间。将录入数据库的数据进行整理、汇总后,终于成为可以实用的数据了。
此次山东2020年招生计划录入,过程一波三折,中间充满了曲折。还好在自己的坚持下,最终通过努力,终于获得成功。大家如果有图片、文字识别等方面的需求,可以与我联系,让我们共同努力,共同提高。
大家在以后需要高考、中考方面数据、需要分析那些方面,请添加我的个人微信。希望以后多多交流。
作者简介:左石金,通信行业从业二十载、擅长数据分析。我利用业余时间,对天津、河北高考数据进行了研究(后期增加北京的高考数据)。
本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢