一、教育大数据采集方式
教育大数据洋葱模型将数据分为4层,不同层教育数据的主要采集(生成)方式与应用场景也有所不同(见表3-2)。数据采集的难度从内向外逐步增加,尤其是行为层数据的采集最为复杂、多变,对于传统的面授教学或是不使用技术工具的学习行为,很多数据仍无法采集到。
表3-2 教育大数据采集方式与应用场景比较
数据层次 | 数据采集方式 | 数据应用场景 |
基础层 | 人工采集、数据交换 | 宏观掌控教育发展现状、科学制定教育政策、合理配置教育资源、完善教育体系等 |
状态层 | 人工记录、传感器感知 | 教育装备的智能管理、教育环境的智能优化、教育业务的实时监控等 |
资源层 | 专门建设、动态生成 | 各种形式的教学与培训,如课堂教学、教师培训、网络探究学习、移动学习、协作学习等 |
行为层 | 日志记录、情境感知 | 个性化学习、发展性评价、学习路径推送、教学行为预测等 |
(1)基础层数据。一方面,通过定期的人工采集实现国家规定的教育基础数据的逐级上报,如每年的招生、教师招聘等新产生的教育数据;另一方面,通过系统之间的数据交换实现教育基础数据采集与更新,如学籍系统、人事系统、资产系统等定期进行自下而上的系统数据更新。基础层数据属于高度结构化的教育数据,主要用于宏观掌控教育发展现状、科学制定教育政策、合理配置教育资源、持续完善教育体系等。其中,有些基础数据(如学籍、人事、资产等)具有高度的隐私性、保密性,属于国家重点保护的教育数据。
(2)状态层数据。采集方式有人工记录和传感器感知,当前主要以人工记录为主,随着传感技术的普及应用,未来的教育装备、教育环境及教育业务的运行状态将实现全天候、全自动化的记录监控。状态层数据可用于高效管理与维护教育装备、打造更具人性化的教育环境、全面掌控各项教育业务运行状况等。
(3)资源层数据。总量巨大,形态多样,大都属于非结构化数据。资源的产生主要有两种途径,一是专门建设,包括国家组织的精品开放课程资源、企业自主开发的各种学习培训资源与工具、个体自发建设的教学课件等;二是动态生成,在教学过程中产生的各种生成性资源(讨论、试题、笔记等)。海量优质的资源是实现教学模式创新、教学方法变革的基础,比如当前基于微课的翻转课堂、基于MOOC的开放创新教学、基于电子书的移动学习等。随着移动与开放教育浪潮的兴起,微课、电子书、App应用、慕课等将成为未来重要的学习资源。
(4)行为层数据。教育行为有很多种,如收发公文、录入成绩、设备报修、科学实验、财务报销、教师备课、学生写作业等。其中,教学行为数据(包括教师的教和学生的学)在所有行为层数据中占据主导地位。大数据时代可以采集更多、更细微的教学行为数据,比如,学生在何时何地应用何种终端浏览了哪些视频课件、观看了多长时间、先后浏览顺序、是否跳跃观看等细微的行为都将以日志记录的形式被保存下来。GPS定位、情境感知、移动通信等技术使得各种教与学行为的日志信息更加丰富,不仅可以记录什么人在什么时间什么地点做了什么,还可以采集到行为发生时的周边环境信息、个人体征信息、情绪状态等。这些看似无用的数据都将成为后期数据挖掘与学习行为分析的宝贵数据源,为个性化学习、发展性评价、学习路径推送、教学行为预测等提供数据支持。
二、教育大数据
教育数据的采集需要综合应用多种技术,每种技术采集的数据范围和重点有所不同。图3-5展示了教育数据采集的技术体系,共包括4大类、13种常见数据采集技术。
物联网感知技术:采集设备状态数据和学生体质数据
物联网是指通过各种信息传感设备,实时采集任何需要监控、连接、互动的物体或过程等各种需要的信息,与互联网结合形成的一个巨大网络,其目的是实现物与物、物与人,所有的物品与网络的连接,方便识别、管理和控制。物联网感知技术是实现万物相连的前提,是采集物理世界信息的重要渠道。
视频监控技术:采集校园安全数据
校园安全监控系统是一套旨在用于全面、实时监控校园运行情况,跟踪学生出入学校情况,准确监控和预测校园中可能发生的危机地点,以实现快速处理校园危险事件的监控、警告系统,由视频采集系统、视频传输系统、中心管理系统组成。视频采集系统由前端的模拟球机或枪机和视频分析编码设备组成;视频传输系统主要依靠光纤或者以太局域网的网络传输,可以实现校园网的联网监控;中心管理系统主要由中心控制和报警服务器、存储服务器组成,实现后台数据的存储、视频的查看、报警的响应等;客户端也可安装在各个监控分点,如保卫监控点、校长办公室等,负责巡视各个监控点的情况,通过各种网络来监看校园中各个监控点的实时视频。
智能录播技术:采集课堂教学数据
随着教育信息化的高速发展,智能录播系统作为信息化教学中不可或缺的部分,已在各级各类学校得到了广泛应用。智能录播系统通过先进的流媒体及智能化全自动控制技术,可以自动实时采集课堂教学数据,并同步实现在校园网或Internet上的视频直播,以及远程互动教学功能,成为网上可实时直播、点播的学习资源,全真再现课堂教学的全过程。
网评网阅技术:采集学生考试成绩数据
互联网阅卷系统是目前中高考、英语四六级考试等大型考试活动惯用的阅卷技术,是学生考试成绩数据的重要采集技术。阅卷系统以计算机网络技术和图像处理技术为依托,采用专业扫描阅读设备,对各类考试答卷和文档进行扫描和处理,实现客观题机器自动评卷、主观题教师网络高效评卷。
点阵数码笔技术:采集各种作业、练习、考试数据
点阵数码笔是一种新型高科技纸面书写工具(见图)。通过在普通纸张上印刷一层不可见的点阵图案,点阵数码笔前端的高速摄像头能随时捕捉笔尖的运动轨迹,同时将数据传回数据处理器,最终将信息经由蓝牙或者USB线向外传输。这些信息包括纸张类型、来源、页码、位置、笔迹坐标、运动轨迹、笔尖压力、笔画顺序、运笔时间、运笔速度等信息,笔迹记录过程与书写过程同步。
点阵数码笔可以将纸张上书写的文字或者图片以数据的形式存储,并通过智能终端还原成文档,还可以通过投影同步显示。点阵数码笔不仅可以保存学习者的最终书写结果,还可以记录学习者的书写过程信息,如书写方式、书写顺序、书写时间等。除此之外,点阵数码笔还可以结合书写或者绘画过程同步录入声音,采集书写时的情景信息。点阵数码笔是一种非常自然的书写数据采集工具,最贴近用户的日常书写习惯,因此,它有望成为作业、练习数据的主导采集工具。
点阵数码笔自动采集手写数据
拍照搜题技术:采集学生作业练习数据
图像识别技术是人工智能的一个重要领域,是指利用计算机对图像进行匹配、处理、分析,以识别各种不同模式的目标和对象的技术。拍照搜题技术是图像识别技术在教育领域的应用形式之一,主要通过终端设备(智能手机、平板等)获取相关题目的照片,继而由系统根据已有的题库进行自动匹配、处理与分析,最终筛选出与图片最为相似的题目、答案及其解答思路,如图3-12所示。
情感识别技术:采集学生学习过程中的情感数据
情感识别技术通过观察人的表情、行为和情感产生的前提环境来推断情感状态,基本目的在于赋予计算机像人一样观察、理解和生成各种情感特征的能力。目前,情感识别技术主要通过面部表情和语音特征来提取情感信息。
日志搜索分析技术:采集运维日志与用户日志数据
日志文件中存储了大量的用户及系统的操作信息,通过日志搜索分析技术可以有效地筛选出有用的信息。日志搜索技术即通过日志管理工具,对日志进行集中采集和实时索引,提供搜索、分析、可视化和监控等,最终实现对线上业务的实时监控、业务异常原因定位、业务日志数据统计分析,以及安全与合规审计。
在线学习与管理平台技术:采集各种在线学习与管理数据
在线学习与管理平台是当前教育数据采集的重要载体,可以采集大多数网上学习、教研与管理活动数据。各种在线学习平台与管理平台,因定位和功能不同,支持采集的教育数据范围和类型也有所不同。
移动App技术:采集各种移动学习过程数据
近年来,随着移动终端和通信技术的发展,各种移动学习App开始涌现。市场上几乎所有的主流学习管理平台都提供了移动App,可以方便地支持学习者无处不在的学习。移动App逐渐成为移动学习过程数据采集的主导技术。
可穿戴技术:采集个体生理数据与学习行为数据
可穿戴技术主要用来探索和创造能直接穿在身上或是整合进用户的衣服或配件的设备的科学技术。近年来,智能眼镜、智能手表、智能手环等新产品不断出现,各种形态各异的可穿戴设备正在逐步融入人们的日常生活与工作。
网络爬虫技术:采集教育舆情数据
网络爬虫(WeB Crawler)又称网络蜘蛛(WeB Spider)或WeB信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫类产品,如八爪鱼采集器、网页抓取软件等,在数据采集领域有着广泛的应用,可以定期实时采集各大门户网站数据、监控各大社交网站、博客,自动抓取企业产品的相关评论。