一种基于事件的Lifelog管理模型

doi:10.12677/CSA.2024.141005

期刊菜单

一种基于事件的Lifelog管理模型
A Lifelog Management Model Based on Events

DOI: 10.12677/CSA.2024.141005, PDF, HTML, XML, 被引量科研立项经费支持
作者: 陈亮, 刘国奇：沈阳建筑大学计算机科学与工程学院，辽宁沈阳；杨建常^*：32683部队，辽宁沈阳；张立波：中国人民解放军北部战区总医院，放射科，辽宁沈阳
关键词: Lifelogging；生活事件；数据挖掘；数据管理；Lifelogging； Life Events； Data Mining； Data Management

摘要: 从2011年开始，我们发起了一个LiuLifelog项目，该项目收集了22位志愿者的3万条lifelogging数据。但是随着时间的推移，用户的lifelogging数量越来越多，管理这些数据对于用户来说变得越发复杂。为此，本文提出了一种LE-PDA模型，该模型将lifelogging数据划分为不同的事件，同时为每一个事件添加了标签，方便用户管理数据。在本次实验中，两位用户的数据在应用LE-PDA模型后，分别被划分为5215个和1086个带有标签的事件，且准确率达到了68%。实验证明了LE-PDA模型在LiuLifelog数据集上的实用性，它能帮助用户更高效的组织和管理lifelogging数据。

Abstract: Since 2011, we have initiated the LiuLifelog project, which has collected 30,000 lifelogging data en-tries from 22 volunteers. However, as time progresses, the quantity of users’ lifelogging data in-creases, making the management of these data increasingly complex for the users. To address this, this paper proposes a LE-PDA model, which segments lifelogging data into distinct events, while as-signing labels to each event, facilitating user data management. In this experiment, the data from two users were divided into 5,215 and 1,086 labeled events respectively, after applying the LE-PDA model, achieving an accuracy rate of 68%. The experiment validates the efficacy of the LE-PDA model on the LiuLifelog dataset, demonstrating its ability to assist users in organizing and managing lifelogging data more efficiently.

文章引用：陈亮, 杨建常, 刘国奇, 张立波. 一种基于事件的Lifelog管理模型[J]. 计算机科学与应用, 2024, 14(1): 29-40. https://doi.org/10.12677/CSA.2024.141005

1. 引言

人们总想着通过某些方式来记录生活中的美好瞬间。早在上世纪20年代，Buckminster Fuller就开始用剪贴簿来记录生活中的日常，到了上世纪90年代时，Steve Mann通过摄像机拍摄照片来记录自己的生活经历 [1] 。近年来，随着可穿戴设备和定位系统的发展，记录个人活动的方式发生了改变，人们开始用数据来记录生活中的细节。这些数据包含人的生活数据，健康数据，我们称这类数据为PBD (Personal Big Data) [2] 。PBD具有隐私性，lifelogging就是PBD的一个典型代表。

lifelogging数据是个人在日常生活中的生活经历和行为创建的个人数据，其中包括了位置 [3] 、行为 [4] 、音频 [5] 和图片 [6] 等。这些数据揭示了一个人在何时何地发生了哪些事情，通过对数据的进一步分析，我们还能够分析用户的日常行为 [7] [8] [9] 。过去几年间，lifelogging受到了研究人员和商业公司的广泛关注，lifelogging也逐渐成为了一个新兴的研究领域，一些关于lifelogging的社会应用也随着发展，如运动数据分析 [10] [11] 、数字医疗 [12] [13] 、智能家居 [14] [15] 等。

随着移动设备和传感器技术的进步，越来越多的数据被存储到时空数据库中。这些数据中隐藏着大量的信息，比如吃饭、上班和到公园游玩等 [16] 。如何从帮助用户管理海量的lifelogging数据是lifelog研究面临的重大挑战之一。对于少量的数据，用户可以逐个的查看这些lifelogging找到需要的内容。但是当数据量过多时，用户就需要一个合适的方法帮助他们管理这些数据。文献 [17] 提出了一种基于集群层次结构在图中排列数据的方法。Hwang等人 [18] 提出了一种基础机器学习管理数据的方式，Kim等人 [19] 提出了一种分层化数据记录方式。

来自“国立台湾大学”的学者颜安孜在2019年将lifelogging中的事件识别问题列为lifelog领域十大问题之一 [20] 。本文将在此基础上进行思考，我们是否可以将lifelogging划分为不同的事件，从而有效的管理数据。在本文中，我们提出了LE-PDA模型，该模型采用分层事件挖掘，分别对城市级数据和区域级数据进行挖掘。除此之外，我们还对每个事件进行了添加了标签，用户可以通过事件标签更好地管理自己的lifelogging数据。对于数据上传者来说，这是一项非常有意义的工作。

本文的章节总共分为6节，本节为绪论。第二节介绍了作者11年间收集的Liulifelog数据集，并引入了“域”的概念，同时说明了实验的目标。第三节阐述了如何使用LE-PDA模型找到用户数据中的生活事件。第四节对模型的实验结果进行性能对比和分类。第五节建立可视化系统，用以展示生活事件。最后一节对实验进行总结，并展望未来的研究方向。

2. 相关工作

2.1. LiuLifelog数据集

LiuLifelog数据集(http://www.lifelog.vip/)是Liu团队花费12年时间记录的数据。该数据集有以下优势：采样时间长，参与者人数众多，数据分布于全国各个城市且持续更新。每天有十几名用户分享他们的日常生活，使这个数据集成为生活日志数据的综合存储库。其中部分数据如表1所示。

Table 1. Sample data

表1. 数据样例

我们的数据是非连续性的，每一条lifelogging包含GPS数据、文字描述、录音、图片或者视频文件等，并且在上传数据的时候对每一条lifelogging进行了行为分类标注，行为分类是事先定义好的，例如：讲课、吃饭、工作、旅行等15个类别。

2.2. 实验目标

在Lifelog中，生活事件可以划分为两种类型。第一种是独立的事件，它们通过单条数据记录表示。例如，“我去餐厅吃饭”或“准备去公司上班”等。第二种是连续的事件，它们由一系列数据记录共同构成。图1展示了一个连续的生活事件。

Figure 1. Life event record diagram

图1. 生活事件记录图

图1描绘了用户在公园游玩的场景，用户在这期间上传了6条lifelogging，这些数据一起组成了一个连续的生活事件。本文的主要目的就是识别用户数据中单独的和连续的生活事件，并为每个事件进行分类。通过这种分类，可以帮助用户更有效的组织自己的数据，以事件为线索来管理他们的数据。

2.3. 域的概念

在本文的实验中，我们将使用数据的地理位置属性。为此，我们提出了“域”的概念，该概念基于地理坐标，将空间位置相近的lifelogging分类到同一区域，这一过程的示意图如图2所示。

Figure 2. Domain example

图2. 域示例图

图2中，假设在某一个时间段内，总共采集了12个lifelogging数据，这些数据定义为，其中都是在沈阳建筑大学采集的，是体育馆，是某个饭店，我们给每一个位置分类定义为domain，比如所在的位置可以定义为domain B。

3. 实验过程

本文提出了LE-PDA模型，该模型采用了分层的方法，分别对城市间和区域内的事件进行挖掘。在城市级别，主要挖掘的是城市间的活动，如出差和旅游等。在区域级别，主要挖掘的是日常生活中的事件，如看电影、用餐等。

3.1. 数据预处理

在实验之前，需要对数据进行预处理，具体步骤如下：

1、由于GPS定位时信号的问题会有一些噪音点和离群点。比如一些数据地点为空，有些数据的经纬度为0等。所以在进行实验之前，我们需要将这些噪音点和离群点去除。

2、数据集中存在一些冗余数据，当用户在较短时间内连续发布多条数据时，我们取其中一条数据作为有效数据。

经过预处理的后的lifelogging数量如图3所示：

Figure 3. Data preprocessing diagram

图3. 数据预处理图

在数据集中，我们选择了两位用户作为本次实验的对象。一位用户在12年间上传了11,032条数据，另一位用户在3年间上传了1558条数据。经过数据预处理后，我们将一些缺失数据和错误数据进行清除，保证了数据的鲁棒性和准确性。

3.2. 城市事件挖掘

挖掘城市事件时我们将城市作为域，同时需要设置起始域。文献 [21] 指出，人类的移动模式具有一定的规律性，通常在一段时间内会在一个或几个固定的区域中活动。在网络图中，度值越大的区域连通性越强。因此，我们选择度值较高的城市作为起始域。算法伪代码如下：

我们首先以城市为节点构建了一个网络图，并计算了各节点的度值，根据度值设定起始域。随后，我们引入了DTW算法，结合滑动窗口技术，来动态的计算相邻起始域之间的城市相似度。如果计算出的相似度小于设定的阈值F，我们将其视为两个不同的事件event和temp_event，同时将event加入事件列表E中。否则，我们则认为这两个事件相等，合并为一个事件，继续循环进行比较。

3.3. 区域事件挖掘

区域事件是指起始域中的事件。在挖掘lifelog中的事件时，发现数据间的语义关系的也被认为是一个有效方案。但是如果只使用语义关系可能会使一些事件不能被准确挖掘。在图1所示的数据中，如果按照语义关系的方式来挖掘生活事件，那么这些数据会被认为是多个不同的事件。实际上，这是一个在公园游玩的事件。于是，我们结合语义关系和地理位置来挖掘用户数据中区域事件，过程如图4所示。

Figure 4. LE-PDA process flowchart

图4. LE-PDA流程图

在图4中，首先使用DBSCAN聚类算法，将数据划分为1142个不同的域，我们用十进制阿拉伯数字表示每一个域。接着进行文本处理，为了提高文本识别的精确度，实验使用en_core_web_sm和en_core_web_lg两种文本语言模型处理数据中的文本。然后对文本语言分别进行了停词筛选、语法识别、NER实体识别和句法分析等方法，提取出文本中的关键词。最后经过算法2后得出了数据中的事件。

算法2的伪代码如下所示：

对于通过语言模型找到的关键词D，我们对每一个关键词使用TF-IDF进行向量化。在时间间隔小于阈值T的情况下，算法主要包含两个步骤：对于TF-IDF余弦相似度大于阈值F的相邻数据，或者“域”相等且余弦相似度大于F的不相邻数据，我们将其视为一个连续的事件E = {L₁, L₂, …, L_n}，其中L_n = {D₁, D₂, …, D_n}。否则我们将其视为单个的事件E = {L₁, L₂, …, L_n}，其中L_n = {D_n}。

4. 实验结果和分类

4.1. 实验结果和性能对比

经过模型运算之后，我们得到了两位用户的lifelogging中所有的事件。我们提取每一个事件的域、文本和时间特征值，得到的结果如下表2、表3所示：

Table 2. User1 events

表2. User1事件表

Table 3. User2events

表3. User2事件表

在表中可以看到，User1数据被划分为5215个事件，User2数据被划分1086个事件。接下来，我们对数据集中的事件进行人工标记。将本实验使用的LE-PDA模型和目前常用的事件挖掘TDT算法进行性能对比，如图5所示。

Figure 5. Performance comparison

图5. 性能对比图

在图5中，LE-PDA模型识别事件的准确率达到了68%，而TDT算法识别事件的准确率是56%。可以发现，在结合了域的使用后，本文提出的LE-PDA模型在性能上明显优于TDT算法。

4.2. 行为分类

数据集中的每一条数据都有一个行为属性。在实验结果中，我们可以按照数据的行为属性对事件进行分类。我们首先统计事件数据中行为出现的频率。然后根据行为的频率，可以为它们分配权重。频率最高的行为权重最高，可以被认为是最重要的。经过分类后，事件的类别表4所示：

Table 4. Behavior classification

表4. 行为分类表

在表中可以看到User1的事件被划分成了15个不同的类别，User2的事件分为了11个类别。这个分类过程保证了每一个事件都得到了准确的分类，使得用户能够根据行为类别高效的管理事件数据。当用户想要查找某个事件时，比如在校吃饭，那么他就可以在“Meal at school”类别中来找到相应的事件。

4.3. 重要性分类

不同的事件对于用户的重要性是不一样的，当我们回想起某一年经历的事情时，首先想起的是一些重要的事情。因此，为事件添加重要性标签也是一种能够帮助用户管理数据的方法。

为此，我们采用了半监督机器学习方法来为事件自动标注重要性。我们首先随机选取了一些事件，并手动给它们标上了“不重要”、“一般”和“重要”的标签，以此作为半监督训练的基础。在此过程中，我们测试了三种不同的半监督学习模型，并记录了它们的性能表现。如下表5所示：

Table 5. Importance recognition performance

表5. 重要性识别性能表

在上表中我们可以发现，S3VM的性能明显优于另外两个模型，展现出较高的准确率。此外，我们还对比了在模型中加入域和行为标签前后的性能差异。结果表明，引入这些标签后，所有模型的性能均有所提升。其中，一些模型的准确率甚至提高了20%。这一结果证明了为事件添加域和行为标签的有效性。使用S3VM后两位用户事件重要性分类结果如下图6所示。

对于lifelogging数据，将其划分为不同的事件进行管理不仅提升了数据的可用性，也增强了用户体验。通过为事件添加标签类别，使得管理个人数据变得既简单又直观。这种方法为用户提供了明晰的数据管理方式，让用户能够快速的对数据进行整理和归类。

(a) User1重要性分类 (b) User2重要性分类

Figure 6. Importance classification chart

图6. 重要性分类图

5. 系统实现

Lifelog一个重要的功能就是回忆，通过查看lifelogging数据，用户能想起许多过去珍贵的记忆。McGookin [22] 用时间和地点的方式展示用户在多个区域的所拍摄的图片。文献 [23] 提出了基于web的应用程序检索lifelogging，用户可以根据需求检索想要回忆的内容。在本节中，我们尝试以事件为核心的方式呈现用户的数据，以帮助用户更好的回忆过去。为此，我们使用Java和Html建立了一个可视化系统。以User1为例，展示了该用户的城市级事件。系统的主页面如图7所示。

Figure 7. System display diagram

图7. 系统展示图

在此系统中，用户可以通过搜索城市或时间查找想要回忆的内容。当搜索北京市时，系统会显示所有关于北京市所发生的事件。当搜索某一天时，系统会将包含这一天的事件进行展示。例如当我们搜索2015年1月14号时，显示的事件如图8所示。

在此图中，我们可以知道用户在2015年1月14号出发，前往湘潭出差。途中经过了杭州，长沙。

Figure 8. Data template diagram

图8. 数据模板图

第二天到达湘潭。在湘潭的Furong West Road休息，在Xiaotang Road做家务和吃饭，在Shuangyong South Road工作。第三天从湘潭离开，这次出差共持续了3天。

实验的结果已经公开，读者可以在网站(http://www.lifelog.vip/LifeEvent.html)进行查看。通过该系统，我们可以清晰直观的查看用户的过去的一些事情。对于数据上传者而言，这是非常有意义的，因为该系统可以帮助他们想起自己过去的记忆。

6. 总结与展望

在本文中，我们介绍了一种用事件帮助用户整理lifelogging数据的方法，并提出了LE-PDA模型。该模型通过分层挖掘将数据划分为城市级和区域级事件。同时我们对每个事件进行了分类，用户可以通过事件标签更有效的整理数据。此外，我们还以事件为中心建立了可视化系统，用以帮助用户更好的回忆过去。本实验的不足之处是，目前系统只展示了城市级事件。在未来，我们将更新系统，将区域级的事件也进行展示，从而提供一个更加全面的回忆体验。

基金项目

辽宁省教育厅自然基金项目(LJKZ0595)。

参考文献

[1]	Andrew, A.H., Eustice, K. and Hickl, A. (2013) Using Location Lifelogs to Make Meaning of Food and Physical Activ-ity Behaviors. 2013 7th International Conference on Pervasive Computing Technologies for Healthcare and Workshops, Venice, 5-8 May 2013, 408-411. [Google Scholar] [CrossRef]
[2]	Gurrin, C., Smeaton, A.F. and Doherty, A.R. (2014) Lifelogging: Personal Big Data. Foundations and Trends® in Information Re-trieval, 8, 1-125. [Google Scholar] [CrossRef]
[3]	Rekimoto, J., Miyaki, T. and Ishizawa, T. (2007) LifeTag: WiFi-Based Continuous Location Logging for Life Pattern Analysis. LoCA 2007, Oberpfaffenhofen, 20-21 September 2007, 35-49. [Google Scholar] [CrossRef]
[4]	Mafrur, R., Nugraha, I.G.D. and Choi, D. (2015) Modeling and Discovering Human Behavior from Smartphone Sensing Life-Log Data for Identification Pur-pose. Human-Centric Computing and Information Sciences, 5, Article No. 31. [Google Scholar] [CrossRef]
[5]	Ziaei, A., Sangwan, A., Kaushik, L. and Hansen, J.H. (2015) Prof-Life-Log: Analysis and Classification of Activities in Daily Audio Streams. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), South Brisbane, 19-24 April 2015, 4719-4723. [Google Scholar] [CrossRef]
[6]	Gurrin, C., Smeaton, A.F., Byrne, D., O’Hare, N., Jones, G.J. and O’Connor, N. (2008) An Examination of a Large Visual Lifelog. Information Retrieval Technology: 4th Asia Infor-mation Retrieval Symposium, AIRS 2008, Harbin, 15-18 January 2008, 537-542.
[7]	Hu, B., Song, Z. and Ester, M. (2012) User Features and Social Networks for Topic Modeling in Online Social Media. 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, Istanbul, 26-29 August 2012, 202-209.
[8]	Liu, G.Q., Zhang, Y.J., Fu, Y.M. and Liu, Y. (2014) Behavior Identification Based on Geotagged Photo Data Set. The Scien-tific World Journal, 2014, Article ID: 616030. [Google Scholar] [CrossRef] [PubMed]
[9]	Lee, R., Wakamiya, S. and Sumiya, K. (2013) Urban Area Characterization Based on Crowd Behavioral Lifelogs over Twitter. Personal and Ubiquitous Computing, 17, 605-620. [Google Scholar] [CrossRef]
[10]	Ninh, V.T., Le, T.K., Zhou, L., Piras, L., Riegler, M.A., Halvorsen, P. and Dang Nguyen, D.T. (2020) Overview of ImageCLEF Lifelog 2020: Life-log Moment Retrieval and Sport Performance Lifelog.
[11]	Thambawita, V., Hicks, S.A., Borgli, H., et al. (2020) Pmdata: A Sports Logging Dataset. Proceedings of the 11th ACM Multimedia Systems Conference, Istanbul, 8-11 June 2020, 231-236. [Google Scholar] [CrossRef]
[12]	Lee, K.H., Urtnasan, E., Hwang, S., et al. (2022) Concept and Proof of the Lifelog Bigdata Platform for Digital Healthcare and Precision Medicine on the Cloud. Yonsei Medical Journal, 63, S84. [Google Scholar] [CrossRef]
[13]	Yang, P., Stankevicius, D., Marozas, V., et al. (2016) Lifelogging Data Validation Model for Internet of Things Enabled Personalized Healthcare. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 48, 50-64. [Google Scholar] [CrossRef]
[14]	Cho, Y., Seo, J., Lee, H., et al. (2020) Platform Design for Lifelog-Based Smart Lighting Control. Building and Environment, 185, Article ID: 107267. [Google Scholar] [CrossRef]
[15]	Jalal, A. and Kamal, S. (2014) Real-Time Life Logging via a Depth Silhouette-Based Human Activity Recognition System for Smart Home Services. 2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), Seoul, 26-29 August 2014, 74-80. [Google Scholar] [CrossRef]
[16]	Ribeiro, R., Trifan, A. and Neves, A.J. (2022) Lifelog Retrieval from Daily Digital Data: Narrative Review. JMIR mHealth and uHealth, 10, e30517.
[17]	Rossetto, L., Inel, O., Lange, S., Ruosch, F., Wang, R. and Bernstein, A. (2023) Multi-Mode Clustering for Graph-Based Lifelog Retrieval. Proceed-ings of the 6th Annual ACM Lifelog Search Challenge, Thessaloniki, 12-15 June 2023, 36-40. [Google Scholar] [CrossRef]
[18]	Hwang, K.S. and Cho, S.B. (2008) Life Log Management Based on Machine Learning Technique. 2008 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, Seoul, 20-22 August 2008, 691-696. [Google Scholar] [CrossRef]
[19]	Kim, M., Lee, D.W., Kim, K. and Kim, J.H. (2015) Hierarchical Structured Data Logging System for Effective Lifelog Management in Ubiquitous Environment. Multimedia Tools and Applications, 74, 3561-3577. [Google Scholar] [CrossRef]
[20]	Yen, A.Z., Huang, H.H. and Chen, H.H. (2021) Ten Questions in Lifelog Mining and Information Recall. Proceedings of the 2021 International Conference on Multimedia Retrieval, Tai-pei, 21-24 August 2021, 511-518. [Google Scholar] [CrossRef]
[21]	Barbosa, H., Barthelemy, M., Ghoshal, G., et al. (2018) Human Mobility: Models and Applications. Physics Reports, 734, 1-74. [Google Scholar] [CrossRef]
[22]	McGookin, D. (2019) Reveal: Investigating Proactive Loca-tion-Based Reminiscing with Personal Digital Photo Repositories. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, Glasgow, 4-9 May 2019, 1-14. [Google Scholar] [CrossRef]
[23]	Heller, S., Amiri Parian, M., Gasser, R., Sauter, L. and Schuldt, H. (2020) Interactive Lifelog Retrieval with Vitrivr. Proceedings of the 3rd Annual Workshop on Lifelog Search Challenge, Dublin, 8-10 June 2020, 1-6. [Google Scholar] [CrossRef]

为你推荐

友情链接