AAAIArtificialIntelligenceandtheWeb
TweetFit:融合多种社会媒体和传感器数据进行健康档案学习
TweetFit:FusingMultipleSocialMediaandSensorDataforWellnessProfileLearning
新加坡国立大学
NationalUniversityofSingapore
健康是一个广泛流行的概念,通常适用于健身和自助产品或服务。个人健康相关属性(例如身体质量指数BMI或疾病趋势)的推断,以及对健康属性与用户行为之间的全局依赖性的理解对于个人和公共健康领域的各种应用至关重要。同时,社交媒体平台和穿戴式传感器的出现使得用户可以从多种视角进行健康分析。然而,健康分析以及整合社交媒体和传感器数据的研究工作相对较少,而本文的研究代表了在该方向的首次尝试。具体来说,为了推断个人健康属性,我们提出了名为“TweetFit”的多源用户个人档案学习框架。“TweetFit”可以同时处理来自传感器和社交媒体数据的数据不完整性和执行健康属性推理。我们的实验结果表明,来自传感器和多个社交媒体来源的数据的集成可以大大提高健康状况分析的性能。
1引言
在过去十年中,社交多媒体服务对人们日常生活的影响大大增加。例如,有超过一半的美国智能手机用户平均每天花费分钟的时间来浏览他们的移动设备,旨在与他们的朋友保持社交关系。同时,这些用户经常遵循所谓的量化自我倾向,包括测量和发布可穿戴传感器的各种信号(如心率、身体加速度或物理位置)。这些数据对健康领域的研究至关重要,因为它描述了用户实际身体状况,这与用户的身体有关。与此同时,最近的工作表明了社交媒体数据在健康相关研究中具有巨大潜力(Mejova等人,;Akbari等,)。然而,这些研究中的大部分工作本质上都是描述性的,不研究社交媒体和穿戴式传感器数据的整合。考虑到大多数在互联网中活跃的成年人在日常生活中积极使用四种以上的媒体服务(GlobalWebIndex,),可穿戴式传感器的数据可用性很广,将来自不同社交网络的多模态内容与传感器数据进行联合处理似乎是合理的(Jain和Jalali)。这种整合将缩小用户在线表示与实际身体状况之间的差距,这是迈向实现度用户挖掘的正确一步(Farseev等,)。
本文重点介绍了基于多个社交网络和穿戴式传感器数据的用户个人健康分析问题。在这里,个人健康状况涉及个人用户属性(Farseev等,),如人口统计学(年龄、性别、职业等)(Farseev等,),身体质量指数(BMI)类别,人格(BuA-raya等,)或慢性疾病倾向(Akbari等,)。在我们的研究中,我们专注于两个重要的个人健康属性——BMI类别和“BMI趋势”(随着时间的推移,BMI波动的方向——增加/减少)。这两个属性紧密相关并与个人的整体健康密切相关。例如,Field等()发现,BMI高于35.0的人群发展糖尿病的可能性比常人高出20倍。此类属性的其他优点包括:a)BMI类别可以进一步用于公共卫生领域,以监测社会媒体用户在全球范围内的健康趋势;b)“BMI趋势”信息可被用户利用,以纠正其生活方式(即通过交互式移动应用或“智能手表”),并由医生获得患者的健康状况。
个人健康状况分析中存在三个挑战:1)数据采集:来自现代社交媒体服务和传感器设备的数据通常存储在独立的Web资源中,隐藏在隐私设置之后。此外,穿戴式传感器的数据以及BMI或人口学等个人属性往往不能公开访问。因此,有必要实施数据收集和跨源用户帐户映射技术,以支持大规模的社交媒体研究。2)数据表示:除文字资料之外,社交网络服务涉及各种形式的数据。例如,在Instagram中,用户分享最近拍摄的照片和视频,而在Endomondo(endomondo.