能否治疗白癜风 https://disease.39.net/bjzkbdfyy/240505/c2ozmd0.html雷锋网AI科技评论按:年12月22-24日,由中国计算机学会(CCF)主办的第87期CCF学科前沿讲习班(CCFAdvancedDisciplinesLectures,简称ADL)在北京中国科学院计算技术研究所成功举办,雷锋网作为独家合作媒体,进行了全程报道。本次讲习班的主题为《社交网络与数据挖掘》。社交网络和数据挖掘是计算机学科相关研究中的热点,具体研究涵盖理论、关键技术以及互联网核心应用等各个应用。本次讲习班邀请到了一系列的学界大牛,包括:韩家炜——UIUC教授,ACM/IEEEFellowPhilipSYu——伊利诺伊大学芝加哥分校特聘教授,清华大学数据科学院院长,ACM/IEEE会士WeiWang——UCLA教授,KDDServiceAward胡祥恩——孟菲斯大学教授,华中师范大学教授、心理学院院长JamesA.Evans——芝加哥大学社会学系教授唐杰——清华大学副教授沈华伟——中科院计算所研究员石川——北京邮电大学教授宋国杰——北京大学副教授崔鹏——清华大学副教授刘知远——清华大学助理教授赵鑫——中国人民大学副教授杨洋——浙江大学助理教授三天的时间里,在社交网络和数据挖掘领域覆盖的范围内,13位老师分别讲述了一个或几个不同的研究方向,可谓场场干货。尤其是韩家炜教授和Philip教授两位学界大牛,从他们的报告可以看出,虽然他们讲的概念不同,用的方法不同,但是他们做的方向基本一致,两位学界巨擘的研究或许也代表了数据挖掘领域当前的一个方向。下面我们来回顾一下本次讲习班的主要内容(按分享时间顺序总结,排名不分先后)。PhilipSYu:BroadLearningviaFusionofSocialNetworkInformationPhilip教授作为数据挖掘领域的顶级人物,在报告中详细阐述了他多年来所倡导的一种概念——BroadLearning(广度学习)。他认为在大数据的时代,我们不仅需要深度学习,更需要广度学习。大数据并不是每个数据都很大或者都很复杂,除了大数据外还有很多数据集可以利用。在大数据时代各种各样的数据都是可以利用的,为了更好地利用这些数据,我们需要定义和获取相关的有用数据,然后设计一种模型将异质数据源融合成起来,再从这些数据源中挖掘信息。广度学习与深度学习的区别在于,深度学习的「深」来源于模型层数,广度学习的「广」来源于数据以及模型的多样。根据对BroadLearning的考虑,Philip认为广度学习大致分为三类:1)对同一个实体上的不同类型信息进行处理,这包括multi-view,multi-model、multi-sourceLearning;2)对不同但相似的实体上的信息的处理,这包括transferlearning;3)对通过复杂网络关系相关的不同类型实体的信息进行处理,这包括异质信息网络(HeterogeneousInformationNetwork,HIN)融合。Philip教授认为BroadLearning的关键任务有两点:1、信息融合;2、知识发现。而其挑战则是,怎么融合以及怎么挖掘知识?因为现在信息融合的方法会随着不同的数据而变,此外在特定的知识发现任务中并不是所有的数据都是有用的。随后Philip教授通过三个例子来详细阐述BroadLearning的概念,分别为:POI预测;跨社交网络平台的知识融合;地点预测。唐杰:SocialNetworkMining唐杰在讲座中首先分析了什么是社交网络,以及社交网络的发展历史;随后他讲解了如何做社交网络和数据挖掘的研究、模型及应用。唐杰认为社交网络就是由一组个人(节点)组成的图形,并由一个或多个相互依赖(「边」)联系起来。这是一个通过收集和分析大规模数据来揭示个人或社会行为模式的领域。唐杰认为若想理解社交网络是什么,就需要理解整个internet的发展。Internet的发展主要有三个阶段。在信息时代1.0时,网络就是由一系列页面(文档)和页面上的链接构成的一个结构。第一个时代一方面越来越多的传统行业不断地加入,于是产生了大数据;同时还伴随着产生了云计算。在信息时代2.0,用户加入了网络当中,「今日头条」就是这方面典型的应用。在信息时代3.0,用户开始在网络上了,用户之间形成了交互,这就形成了信息空间和用户空间,通过两个空间信息的融合将产生智能。有了数据,怎么去发现并充分利用大数据的价值,则需要新型数据挖掘和分析方法,以能够从非结构化数据中获得知识和洞察力。关于社交网络研究的历史,唐杰从年Milgram提出的六度空间讲起,并介绍了WeakTie()、邓巴数()、结构洞()、HITS()、小世界()、ScaleFree()、CommunityDetection()、LinkPrediction()、SpreadofObesity()、SocialInfluenceAnalysis()等。随后唐杰以如何将AI(「小木」)应用到慕课以及如何通过手机发红包的数据研究社会现象两个具体案例,讲述了如何做社交网络的问题研究。在社交网络研究的计算模型方面,唐杰以「UnifyingNetworkEmbedding」为主题,介绍了DeepWalk,LINE,PTE,andnode2vec以及NetMF等方法。最后唐杰以他近期所做的研究AMiner为例详细讲述社交网络的研究如何应用到实际问题当中。他还介绍了一些有意思的应用,包括预测红包流向、学堂在线伴读机器人「小木」。宋国杰:社交网络影响最大化宋国杰首先介绍了社交网络最大化的基本背景知识,然后对「影响最大化」做出了定义,并举出两个有代表性的算法研究和两个他们做的一些工作。最后总结了一些该领域的未来方向。所谓扩散就是某个事物在社会系统的成员中通过某种渠道随着时间而不断有更多的人受到影响,用病毒的传播可以更好地理解这个概念,例如SARS的爆发、电脑蠕虫等。而在做社交网络的人眼中,类似地就是去研究信息如何在社交网络平台中进行传播,以及如何才能做到传播影响力的最大化(以便做广告等)。影响最大化一般可以分成几个的模型,例如离散时间模型、连续时间模型、竞争扩散模型或者其他诸如流行病传播模型、投票模型等。其中在离散时间模型大类中ThresholdModel和CascadeMode两个模型最为基本。当给定一个模型是,最优化的问题有例如:1、该如何选择一系列用户,给他们一些打折券,最后能使更多的用户受到影响?2、该选择那些人群去接种疫苗,能够最小化传染?3、如果有一些传感器,该如何放置它们以能加速检测到传染病?在研究的算法部分,宋国杰详细介绍了LazyEvaluation算法和MIAHeuristic算法。随后宋国杰介绍了他们做的四项工作,分别为:1、如何降低影响力计算所消耗的成本;2、如何加速收敛过程;3、当不同信息传播时会发生什么?4、当动态社会网络中我们会遇到什么。最后宋国杰说,在实际企业应用中并不一定会需要效率更高的算法,而是倾向于使用比较成熟、稳定的算法。因此如何在具体的场景中找到好的应用点,是驱动这个方面进一步的研究的关键之处。赵鑫:面向社交媒体平台的商业知识挖掘赵鑫主要从应用的视角来看社交媒体平台的研究。他首先讲解了社交媒体的研究动机,随后分别介绍了用户意图分析、用户画像构建、用户需求推荐三个研究内容,最后赵鑫给出了相关研究的一些展望。社交大数据无处不在,且与用户息息相关(社交身份与真实身份绑定);用户不断产生的社交大数据蕴含了丰富的商业价值,如何挖掘这些数据背后的知识则极为重要。传统的电商推荐系统往往只能在自己的站内进行推荐服务,一旦离开了自己的平台,它们的推荐服务就无能为力了。但用户可能会在自己其他的一些社交平台中暴露个人的购买需求,例如在微博上发一条「要换手机了,求推荐」,如果能够挖掘出这样的信息,利用社交状态信息实时地发现用户购买意图则将解决传统电商这方面的不足。用户购买意图识别根据领域有食物、出行、教育等。它不适用于有监督学习,最多只能做半监督学习。在用户意图分类中,可以构建整体模型的正则化框架,包括文本-关键词正则化、文本-文本正则化、关键词-关键词正则化以及原始估计。在用户画像中,传统的应用系统可能会遇到新用户的可用信息太少等问题;在这方面如果能够利用社交媒体平台上的信息,则能够很好地解决这些问题。前两步(意图识别和用户画像)的工作是为了第三步——用户需求推荐。基于受众的产品推荐需要考虑两个维度:性别和年龄,同时产品在受众上也有一定的分布、受众还有一定的图分布。赵鑫认为他应当围绕数据建立应用问题,通过数据+弱知识+模型得到强知识。此外他认为随着网络实名制的进行,社交身份的形成与刻画也是一个非常重要的研究方向。JamesA.Evans:TeamStructureandScientificAdvanceJames作为一个社会学家,在报告中分享了他们关于团队合作(众包和大团队协作)的研究。他首先举了一个例子,在年贝克教授和他的团地要重新设计酶催化Diel-Alder反应,但是效果不佳。他们就开发了一个名叫Foldit!的蛋白质游戏,不久研究人员就收回了近20万个设计方案,酶的活性提高了18倍之多。这种众包的现象也能复制到计算机领域呢,例如训练无监督(有监督)机器学习算法或者更复杂的并行任务?James的团队研究了年到年间万多份论文、专利和软件产品,以此从中分析团队合作特点。他们发现小的团队在定性工作中表现更佳,大的团队则在定量工作上更具优势。WeiWang:ModelingDynamicNetworks王伟教授在报告中主要介绍了他们实验组ScAi在动态网络中的研究。很多数据是以网络的形式存在的,例如社交网络、互联网、蛋白质交互网络、道路网络、引用率网络等。考虑到网络的动态性,王伟介绍了将网络结构描述成时间的一个函数的方法:时间因式分解网络模型。也即将矩阵因式分解为两个时间依赖的矩阵。方法很简单,但却很有效,因为当计算的时候不用每次都从头重新计算。这种方法的应用不分有向图还是无向图。在LinkPrediction问题可以看出这种方法的优势。对于Anomaly的检测,则可以直接通过相邻时间边的差异来计算。除了时间的一致性,还有空间一致性的考虑。通过考虑邻近边之间的相互影响,把空间的因素也考虑进动态网络当中。通过考虑时间和空间的动态性,则能够更好地预测网络的发展。随后王伟教授讲述了具有时空一致性的边预测(LIST)以及动态属性网络(DANE)和使用动态网络embedding的异常检测(NetWalk)。胡祥恩:语义表示和分析(SRA)以及潜在的应用胡祥恩教授主要从认知心理学的角度来考虑语义表示和分析(SRA),并介绍了相关的一些应用。胡祥恩认为数据和信息不能划等号。从心理学的角度考虑的重点不是大的数据,而是人的行为。胡祥恩介绍了他们在智能导学AutoTutor方面的研究。所谓智能导学就是用认知心理学中学习和记忆的原理来设计计算机的系统,使计算机的系统能跟人进行互动。胡祥恩的研究与其他研究团队的智能导学研究主要的区别在于,更强调自然语言的交互。他在报告中详细介绍了智能导学的框架及应用。自然语言的交互首先就需要创建语义空间,这包括首先构建语料库,其次将语料库编码进语义空间,最后才是应用。针对一个给定的应用(尤其是教育领域),胡祥恩认为我们应当选着最好的语料库、用最好的编码方法,用在最恰当的应用上,否则就是对孩子生命的不负责任。随后他就AutoTutor中如何进行选择语料库、编码和应用做出了详细讲解。石川:异质信息网络建模与分析石川首先回顾了社交网络的三个发展阶段:年以前的对象特征挖掘、年之后基于交互式网络出现的链接关系挖掘,以及随后出现的对象之间有多种复杂关系的异质信息网络挖掘。随后他介绍了异质信息网络的基本概念,并对比了异质信息网络与同质信息网络、多重关系网络、复杂网络之间的异同。他认为挖掘异质信息网络的优点在于异质信息网络无处不在,包含了大量丰富的语义和综合信息;但同时也面临着许多挑战,例如结构复杂以及语义难挖掘等。随后石川通过几个具体的实例来介绍如何进行异质网络数据挖掘,分别为相似性度量(HeteSim)、推荐(SemRec)和恶意软件检测(HinDriod)。其中最后一个为今年KDD的最佳应用论文。最后石川总结了异质信息网络研究的现状和未来研究的方向。他认为异质信息网络仍然是一个年轻的、有前途的研究领域。对于大数据的5V(Volume、Velocity、Variety、Veracity和Value),异质信息网络对其中的多样性(Variety)将有很大的促进。其挑战在于如何解决更复杂的问题(例如知识图谱)、如何变得更加强大以及如何处理更大的数据。当然异质信息网络处理中也有很多机会,包括解释、表示和分析。石川整理了异质信息网络领域较为重要的论文资料,详细信息可以访问石川的个人主页。崔鹏:网络嵌入:在向量空间中启用网络分析和推理崔鹏在报告中主要介绍了他们围绕网络嵌入的一些工作。崔鹏介绍说,现在大数据的体量和计算机的计算能力都在程指数增长,如果按照这种趋势发展,那么对大数据的研究将不成问题。但是现实的数据之间是存在关联的,这就导致数据的增长不仅仅是指数,而是指数的指数。对于这种大规模的网络数据,他认为由于link的存在,就会造成由迭代和组合造成的复杂性、由耦合带来的可平行性以及由节点间的从属关系带来的机器学习应用的一些问题。崔鹏随后介绍了将网络嵌入到一个向量空间,那么关于nodeimportance、