第一篇:中国大数据技术大会干货分享
中国大数据技术大会干货分享
2016年12月8日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办的2016中国大数据技术大会在京盛大开幕。
作为大数据领域规模最大、最具影响力的IT盛会,本次活动共历时三天。大会围绕“聚焦行业最佳实践,应用与数据深度融合”这一主题展开,同时涵盖金融大数据论坛,人工智能论坛、数据库论坛等在内的十二场专题论坛。与往届相比,本届大会更关注行业应用最佳实践,突出应运和数据的深度融合,并首次将人工智能、高性能计算等热点话题引入大会。粤科创投界熊昊博士、技术总监黄卓斌和来自国内外数千名大数据从业者与技术专家一同参加了本次大会。
中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任梅宏发表大会致辞。他表示,大数据对社会经济的发展、科学技术的研究,对国家治理甚至安全,都将产生重要的影响,推动大数据技术、科学及相关应用的发展已经成为国际社会的一个共识。加速相关的研发部署、深化大数据应用,已经成为稳增长、促改革、调结构、惠民生的内在需要和必然选择。
近年来,随着互联网金融的蓬勃发展,金融大数据已成为技术圈热议话题。在12月9日的金融大数据专题论坛上,平安大数据首席总监肖京分享了平安正在策划推出智能+金融大数据打造平安脑智能引擎,以及一系列大数据企业风险管理方案,如数据量化解决方案、数据整合解决方案、大数据企业风险管理平台。百度金融研发负责人沈抖表示大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。有了大数据的支持,百度希望做到千人千面,即根据客户的兴趣爱好、人生阶段、对生活品质的要求、消费水平等方面,为不同用户制定不同的营销方案。
来自粤科创投界的技术专家熊昊博士,现场以”大数据时代的股权智能投资“作为分享议题,展开了精彩演讲,熊昊认为互联网股权投资将要进入2.0阶段,这一阶段特征表现为:积极应用人工智能、大数据技术,应用金融科技手段重塑金融核心业务过程。这个阶段面临的难点是对业务知识的理解、数据来源、技术的选择与应用。
论坛现场,粤科创投界熊昊博士着重讲到了大数据知识图谱在智能股权投资领域的应用,并结合大数据尽调和母基金智能报告两个场景做了详细介绍。基于中文语义的实体、概念、关系、情感数据的抽取,进行文本挖掘,语义分析,实体识别和关联挖掘,包含了大图划分算法、子图融合算法、碎片化知识整合等。通过知识图谱可以把数据用活,具体体现为三个方面,一个是持续不断的有消息的输入;第二是可以沿知识图谱定义的作用链进行自动推理;第三是知识图谱可以背靠大数据,实现人工+自动模式下的自我生长。从而形成尽调知识图谱、企业知识图谱、产业知识图谱,并最终生成自动化尽调报告。
据粤科创投界相关人士介绍,粤科创投界隶属广东省人民政府授权经营的国有独资企业粤科金融集团。2015年6月,粤科金融集团为响应“双创四众“的国家号召,联合中科招商集团等知名金融公司成立了互联网金融平台——粤科创投界,公司从成立之初,就注重大数据的应用和科技金融的探索,不断自学习大数据风控系统和海量基础数据的信审系统并应运于实践,是集团在金融大数据应用领域和科技金融领域的先锋兵。
第二篇:数据加密技术(定稿)
我们经常需要一种措施来保护我们的数据,防止被一些怀有不良用心的人所看到或者破坏。在信息时代,信息可以帮助团体或个人,使他们受益,同样,信息也可以用来对他们构成威胁,造成破坏。在竞争激烈的大公司中,工业间谍经常会获取对方的情报。因此,在客观上就需要一种强有力的安全措施来保护机密数据不被窃取或篡改。数据加密与解密从宏观上讲是
非常简单的,很容易理解。加密与解密的一些方法是非常直接的,很容易掌握,可以很方便的对机密数据进行加密和解密。
一:数据加密方法好范文版权所有
在传统上,我们有几种方法来加密数据流。所有这些方法都可以用软件很容易的实现,但是当我们只知道密文的时候,是不容易破译这些加密算法的(当同时有原文和密文时,破译加密算法虽然也不是很容易,但已经是可能的了)。最好的加密算法对系统性能几乎没有影响,并且还可以带来其他内在的优点。例如,大家都知道的,它既压缩数据又加密数据。又如,的一些软件包总是包含一些加密方法以使复制文件这一功能对一些敏感数据是无效的,或者需要用户的密码。所有这些加密算法都要有高效的加密和解密能力。
幸运的是,在所有的加密算法中最简单的一种就是“置换表”算法,这种算法也能很好达到加密的需要。每一个数据段(总是一个字节)对应着“置换表”中的一个偏移量,偏移量所对应的值就输出成为加密后的文件。加密程序和解密程序都需要一个这样的“置换表”。事实上,系列就有一个指令‘’在硬件级来完成这样的工作。这种加密算法比较简单,加密解密速度都很快,但是一旦这个“置换表”被对方获得,那这个加密方案就完全被识破了。更进一步讲,这种加密算法对于黑客破译来讲是相当直接的,只要找到一个“置换表”就可以了。这种方法在计算机出现之前就已经被广泛的使用。
对这种“置换表”方式的一个改进就是使用个或者更多的“置换表”,这些表都是基于数据流中字节的位置的,或者基于数据流本身。这时,破译变的更加困难,因为黑客必须正确的做几次变换。通过使用更多的“置换表”,并且按伪随机的方式使用每个表,这种改进的加密方法已经变的很难破译。比如,我们可以对所有的偶数位置的数据使用表,对所有的奇数位置使用表,即使黑客获得了明文和密文,他想破译这个加密方案也是非常困难的,除非黑客确切的知道用了两张表。
与使用“置换表”相类似,“变换数据位置”也在计算机加密中使用。但是,这需要更多的执行时间。从输入中读入明文放到一个中,再在中对他们重排序,然后按这个顺序再输出。解密程序按相反的顺序还原数据。这种方法总是和一些别的加密算法混合使用,这就使得破译变的特别的困难,几乎有些不可能了。例如,有这样一个词,变换起字母的顺序,可以变为,但所有的字母都没有变化,没有增加也没有减少,但是字母之间的顺序已经变化了。
但是,还有一种更好的加密算法,只有计算机可以做,就是字字节循环移位和操作。如果我们把一个字或字节在一个数据流内做循环移位,使用多个或变化的方向(左移或右移),就可以迅速的产生一个加密的数据流。这种方法是很好的,破译它就更加困难!而且,更进一步的是,如果再使用操作,按位做异或操作,就就使破译密码更加困难了。如果再使用伪随机的方法,这涉及到要产生一系列的数字,我们可以使用数列。对数列所产生的数做模运算(例如模),得到一个结果,然后循环移位这个结果的次数,将使破译次密码变的几乎不可能!但是,使用数列这种伪随机的方式所产生的密码对我们的解密程序来讲是非常容易的。
在一些情况下,我们想能够知道数据是否已经被篡改了或被破坏了,这时就需要产生一些校验码,并且把这些校验码插入到数据流中。这样做对数据的防伪与程序本身都是有好处的。但是感染计算机程序的病毒才不会在意这些数据或程序是否加过密,是否有数字签名。所以,加密程序在每次到内存要开始执行时,都要检查一下本身是否被病毒感染,对与需要加、解密的文件都要做这种检查!很自然,这样一种方法体制应该保密的,因为病毒程序的编写者将会利用这些来破坏别人的程序或数据。因此,在一些反病毒或杀病毒软件中一定要使用加密技术。
循环冗余校验是一种典型的校验数据的方法。对于每一个数据块,它使用位循环移位和操作来产生一个位或位的校验和,这使得丢失一位或两个位的错误一定会导致校验和出错。这种方式很久以来就应用于文件的传输,例如。这是方法已经成为标准,而且有详细的文档。但是,基于标准算法的一种修改算法对于发现加密数据块中的错误和文件是否被病毒感染是很有效的。
二.基于公钥的加密算法
一个好的加密算法的重要特点之一是具有这种能力:可以指定一个密码或密钥,并用它来加密明文,不同的密码或密钥产生不同的密文。这又分为两种方式:对称密钥算法和非对称密钥算法。所谓对称密钥算法就是加密解密都使用相同的密钥,非对称密钥算法就是加密解密使用不同的密钥。非常著名的公钥加密以及加密方法都是非对称加密算法。加密密钥,即公钥,与解密密钥,即私钥,是非常的不同的。从数学理论上讲,几乎没有真正不可逆的算法存在。例如,对于一个输入‘’执行一个操作得到
结果‘’那么我们可以基于‘’,做一个相对应的操作,导出输入‘’。在一些情况下,对于每一种操作,我们可以得到一个确定的值,或者该操作没有定义(比如,除数为)。对于一个没有定义的操作来讲,基于加密算法,可以成功地防止把一个公钥变换成为私钥。因此,要想破译非对称加密算法,找到那个唯一的密钥,唯一的方法只能是反复的试验,而这需要大量的处理时间。
加密算法使用了两个非常大的素数来产生公钥和私钥。即使从一个公钥中通过因数分解可以得到私钥,但这个运算所包含的计算量是非常巨大的,以至于在现实上是不可行的。加密算法本身也是很慢的,这使得使用算法加密大量的数据变的有些不可行。这就使得一些现实中加密算法都基于加密算法。算法以及大多数基于算法的加密方法使用公钥来加密一个对称加密算法的密钥,然后再利用一个快速的对称加密算法来加密数据。这个对称算法的密钥是随机产生的,是保密的,因此,得到这个密钥的唯一方法就是使用私钥来解密。
我们举一个例子:假定现在要加密一些数据使用密钥‘’。利用公钥,使用算法加密这个密钥‘’,并把它放在要加密的数据的前面(可能后面跟着一个分割符或文件长度,以区分数据和密钥),然后,使用对称加密算法加密正文,使用的密钥就是‘’。当对方收到时,解密程序找到加密过的密钥,并利用私钥解密出来,然后再确定出数据的开始位置,利用密钥‘’来解密数据。这样就使得一个可靠的经过高效加密的数据安全地传输和解密。
一些简单的基于算法的加密算法可在下面的站点找到:
三.一个崭新的多步加密算法
现在又出现了一种新的加密算法,据说是几乎不可能被破译的。这个算法在年月日才正式公布的。下面详细的介绍这个算法
使用一系列的数字(比如说位密钥),来产生一个可重复的但高度随机化的伪随机的数字的序列。一次使用个表项,使用随机数序列来产生密码转表,如下所示:
把个随机数放在一个距阵中,然后对他们进行排序,使用这样一种方式(我们要记住最初的位置)使用最初的位置来产生一个表,随意排序的表,表中的数字在到之间。如果不是很明白如何来做,就可以不管它。但是,下面也提供了一些原码(在下面)是我们明白是如何来做的。现在,产生了一个具体的字节的表。让这个随机数产生器接着来产生这个表中的其余的数,好范文版权所有以至于每个表是不同的。下一步,使用技术来产生解码表。基本上说,如果映射到,那么一定可以映射到,所以(是一个在到之间的数)。在一个循环中赋值,使用一个字节的解码表它对应于我们刚才在上一步产生的字节的加密表。
使用这个方法,已经可以产生这样的一个表,表的顺序是随机,所以产生这个字节的随机数使用的是二次伪随机使用了两个额外的位的密码现在,已经有了两张转换表,基本的加密解密是如下这样工作的。前一个字节密文是这个字节的表的索引。或者,为了提高加密效果,可以使用多余位的值,甚至使用校验和或者算法来产生索引字节。假定这个表是的数组将会是下面的样子
变量是加密后的数据,是前一个加密数据(或着是前面几个加密数据的一个函数值)。很自然的,第一个数据需要一个“种子”,这个“种子”是我们必须记住的。如果使用的表,这样做将会增加密文的长度。或者,可以使用你产生出随机数序列所用的密码,也可能是它的校验和。顺便提及的是曾作过这样一个测试使用个字节来产生表的索引以位的密钥作为这个字节的初始的种子。然后,在产生出这些随机数的表之后,就可以用来加密数据,速度达到每秒钟个字节。一定要保证在加密与解密时都使用加密的值作为表的索引,而且这两次一定要匹配
加密时所产生的伪随机序列是很随意的,可以设计成想要的任何序列。没有关于这个随机序列的详细的信息,解密密文是不现实的。例如:一些码的序列,如“可能被转化成一些随机的没有任何意义的乱码,每一个字节都依赖于其前一个字节的密文,而不是实际的值。对于任一个单个的字符的这种变换来说,隐藏了加密数据的有效的真正的长度。
如果确实不理解如何来产生一个随机数序列,就考虑数列,使用个双字(位)的数作为产生随机数的种子,再加上第三个双字来做操作。这个算法产生了一系列的随机数。算法如下:
如果想产生一系列的随机数字,比如说,在和列表中所有的随机数之间的一些数,就可以使用下面的方法:
××××
××××
××××
××
一
变量中的值应该是一个排过序的唯一的一系列的整数的数组,整数的值的范围均在到之间。这样一个数组是非常有用的,例如:对一个字节对字节的转换表,就可以很容易并且非常可靠的来产生一个短的密钥(经常作为一些随机数的种子)。这样一个表还有其他的用处,比如说:来产生一个随机的字符,计算机游戏中一个物体的随机的位置等等。上面的例子就其本身而言并没有构成一个加密算法,只是加密算法一个组成部分。
作为一个测试,开发了一个应用程序来测试上面所描述的加密算法。程序本身都经过了几次的优化和修改,来提高随机数的真正的随机性和防止会产生一些短的可重复的用于加密的随机数。用这个程序来加密一个文件,破解这个文件可能会需要非常巨大的时间以至于在现实上是不可能的。
四.结论:
由于在现实生活中,我们要确保一些敏感的数据只能被有相应权限的人看到,要确保信息在传输的过程中不会被篡改,截取,这就需要很多的安全系统大量的应用于政府、大公司以及个人系统。数据加密是肯定可以被破解的,但我们所想要的是一个特定时期的安全,也就是说,密文的破解应该是足够的困难,在现实上是不可能的,尤其是短时间内。
《数据加密技术》
第三篇:大数据:不是技术难题
90%以上的企业可以用他们90%的现有需求和技术、工具来解决现在的大数据问题。企业并不是缺乏解决这些大数据难题的工具、技术甚至人才.他们真正面临的问题是,如何在公司建立一个和大数据相匹配的文化与流程。
虽然眼下十分火热,然而“大数据”概念并没有明确的范畴,时大数据的定义只是相衬于当前可用的技术和资源而言的,因此,某一个企业或行业所认为的大数据,可能衬于另一个企业或行业就不再是大数据,时于大的电子商务企业,它们眼中的大数据要比小厂商眼里的大数据“大”得多;同时,大数据也会特续地演进,现在被我们认为庞大和恐饰的数据在10年之后只是小事一桩,但那时候将会有那个时代的新数据源。然而,面衬这些源源不断出现的“大数据”,哪些事情是希望从中发掘机会的企业需要注意的?
新数据源是核心
欧博思分析师认为大数据的三个“V”特征,即Volume(规模),Variety(种类),和Velocity(高速度),这些只是大数据的第二位要素。大数据真正重要的“V”是Value(价值)。那么是什么带来了大数据的价值?
答案是新的数据源。
过去,获取网络浏览数据的技术门槛和成本都很高,而现在获取这些数据已经很容易,企业可以通过了解消费者浏览数据中展示的偏好以及未来购买倾向,来给他们推出最合适的折扣优惠。这都是新数据源的力量,这才是大数据的价值核心。
但在客户的沟通实践中,常常发现:大多数时候,人们都将精力投注在如何在“大数据”时代优化处理模型,或者升级技术装备以希求能提升分析的效果。
但是真正能提升分析效果的方式,是搜集并加入完全崭新的信息源。一旦新的、和从前不同的数据源出现并且能够被收集,你最好将自己的注意力转到这些新的数据上去一一比起你将精力放在模型优化上,新的数据源将能带来更大的收获。因此,在大数据时代,建议 就是,将你的精力放到不断寻求祈的数据源上吧。如今很多企业都会有很多新的数据源,如果正确使用的话,它们会带给企业非常有竞争力的优势。
小步快跑式
对大数据的另一个误解是,“大数据其实就是一个技术问题”。
事实上90%以上的企业可以用他们90%的现有需求和技术、工具来解决现在的大数据问题。企业并不是缺乏解决这些大数据难题的工具、技术甚至人才,他们真正面临的问题是,如何在公司建立一个和大数据相匹配的文化与流程,是缺乏对技术做投资的公司文化,他们的挑战是做出一个商业案例来证明技术升级是有价值的。
为了促进公司文化的转变,更建议一种“小步快跑”的运作方式,即在处理新数据源的过程中,企业内部的分析专家们应该积极寻找代价小、见效快的方法,不断向企业展示一些有价值的东西,来让人们保持对新数据源处理过程的兴趣。一个跨部门的大数据团队一定不能在组建一年之后,还对外宣称他们“正在试图搞明白”,要不时地迸发出想法,不管这一想法多么微小,然后迅速采取行动。
另外一个建议是,建立类似“创新中心”这样的地方,就是公司内部拿出少量的预算、人力资源、技术资源来做一些有一定未知风险的小实验,以小预算做试点,便于企业快速出击。
总的来说,大数据将为企业提供更多视角和洞察,通过和其他企业数据的结合,消费者洞察无论从数量还是质量上都会有指数级增长,因此最重要的一点,是大数据策略必须和其他数据结合形成整体数据战略,而不是独立的战略。
第四篇:2013年中国家用电器技术大会论文集
附录1:
2013年中国家用电器技术大会论文集
论文投稿注意事项
一、内容与文字:
论文报道家用电器及相关领域的研究成果、新技术的应用以及有关边缘学科、交叉学科的最新进展,中英文兼收,以中文为主。论述的内容可包括:网络与信息家电、电子技术应用、纳米技术与材料应用、产品工业设计、氟里昂替代/节能/节水/回收环保等方面的最新成果;同时包括能给家用电器的设计、操作、功能、降低成本等方面带来革新性改进的材料和元器件方面的研究成果。同时欢迎相关研究所和机构提交有关家电法规、标准、操作管理规程等方面的论文。
二、来稿要求:
1. 来稿可以是专题综述及研究论文。专题综述:论述本领域最近进展,并应有自己的学术见解。研究论文:要求至少具有国内先进水平或内容具有创新性。文章应未在其它公开刊物上发表过。提交论文时,应同时提交不超过300字的论文摘要。论文的题目、作者单位、中文摘要及文内图表名称须另译成英文,作者姓名须注汉语拼音。
2. 来稿请用电子文件方式提交,外文字母用印刷体誊写,分清大小写、正斜体。3. 论文中的图片应尽量不用灰度图(照片),最好是黑白图片,图片大小不小于300K(JPG格式)。
4. 来稿时应同时提交论文第一作者100字左右的简单介绍,内容包括作者年龄、性别、职务、职称、教育背景、从事的主要技术工作及研究方向等。来稿请注明作者的联系地址、邮编、电话、手机、E-mail、传真等。
5. 论文采用法定计量单位和法定单位符号。
6. 按制图标准绘制插图,纵横坐标轴必须标出物理量、符号及单位。
7. 图表必须有图号、表号,图题列于图下,图注写在英文图题下面,表题列在表上方中间位置,表注列在表下面,表中不用竖格线。
8. 参考文献应选择最主要的,在国内外公开刊物上发表的论文或报告,未公开发表的资料一般不引用,引用文献必须核对无误,必须是作者查阅过的,请勿转引。9. 论文是转折印刷,凡彩色图表,请务必自行改成黑白图表。
10. 引用文献的书写格式如下:
(1)期刊:
作者(如有多名作者,作者间用逗号间隔).文章标题.刊名,年(期号):页码 例:华罗庚,王元.论一致分布与近似分析.中国科学,1973(4):339~357
(2)图书或者专著:
作者.书名.其他责任人(译者等).版本.出版地:出版者,出版年.引用页码 例:高福成主编.食品分离重组技术.北京:中国轻工业出版社,1998
[美]G.L.布什.涂布设备与工艺.安建华等译.北京:轻工业出版社,1986.56
(3)论文集:
作者.文章标题.见:论文集编者.论文集名称.出版地:出版者,出版年.文章页码 例:黄蕴慧.国际古生物学研究的动向.见:程裕淇等编.世界地质科技发展方向.北京:地质出版社,1982.38~39
以上未注明的文章引用方法,参见有关国家标准。
第五篇:干货丨智慧城市与城市数据运营
干货丨智慧城市与城市数据运营
来源:DT财经 时间:2016-06-14 15:44:49 作者:王鹏
PPT干货:五环和六环之间,藏着另一个北京
王鹏:非常有幸跟大家分享一下同衡在智慧城市和城市数据运营方面的感受。
城市规划师是比较另类的角色,我们属于大数据几大门派里的“忽悠派”。我们认为,智慧城市的本质,应该是运用信息技术去解决城市问题。城市规划师的工作本来就需要集成各种学科知识去解决问题,智慧城市在我们解决问题的手段上增加了一个ICT技术。
在实践中,我们总结出以数据为核心的“智慧城市”体系结构。针对我国城市发展现状,提出各行业协同实现“感知-应用-共享信息”的模式。
我们的城市数据运营实践,主要包括智慧城市顶层设计、城市数据的获取与感知、数据分析以及城市数据实验室与数据平台四个部分。智慧城市在顶层设计方面,应该是帮助政府建立一套数据生态系统。如果缺少这个环节,我们就无法获得所需要的数据。智慧城市顶层设计方法论的基本原则,就是“以问题为导向,以数据为核心”,包括了“发现问题“和”解决问题“两个环节。
我们认为,不同城市和地区,在不同发展阶段下,面临着不同问题。所以,智慧城市建设就是要提供因地制宜的解决方案。
我们在数据获取与感知方面开展了多项工作。首先是众包与公众参与,我们搭建了一套包括APP、微信和web等的完整的规划和遗产保护公众参与平台,我们研发了高密度城市数据监测物联网设备等。此外,还包括与互联网企业的合作。
综合以上这些环节,我们以城市数据实验室与数据平台的方式系统运营城市数据,一方面,通过数据分析为政府提供大数据智库方式的决策咨询;另一方面,通过市场化研发孵化新的产品甚至企业。
案例1:上海城市体征数据云平台
新的数据环境带来了新的契机和新的应用方式。我想要介绍的第一个案例,是上海市体征数据云平台。基于城市数据实验室(Urban Data Lab)的构想,我们和上海市房屋土地资源信息中心、上海数慧、北京大学等进行战略合作,尝试开发城市数据平台。
上海市房屋土地资源信息中心拥有上海市政府的各种空间和规划数据,以及交通等实时数据。我们又一起整合了移动运营商的信令数据和互联网公司提供的位置服务(LBS)等行为数据。这些数据一起,形成全新的城市体征数据云平台。
在这个系统中,可以用各种数据分析手段,对上海不同地块的运行状态进行评价与分析,包括地块的基本情况、活动时段和居住特征等生态指标。
我们可以就此形成一套新的城市生命体征评价体系。该体系基于新数据,可以感知人在空间中的状态,为城市运行提供实时的诊断。
案例2:北京六环的城乡结合部
另一个案例则是“六环,你比五环多一环”。《五环之歌》想必许多人都知道。而去年,一个名为“六环,你比五环多一环”的艺术展览在北京举行,是艺术家们通过在北京五环与六环之间实地调研访谈所完成的艺术作品。这个地区有什么特点呢?住在北京的人可能都知道,这里是北京城乡结合部,聚集了大量多样的人口,并且城市规划非常混乱。
大家看下面左图,北京五环与六环之间的区域,藏着很多平时看不到的东西。可以说,这些数据里隐藏着“另一个北京”,最穷和最富的人都住在这个区域。而且很少有方法可以知道这里到底住了多少人,以及真正发生了什么事情。
我有一次去一个街道调研,问街道主任:“这个地方有多少人?“回答:“我们的统计是10万人”。但是,下一句话他说:“我估计这个地方得有30万人。”可见,政府对城市现状情况的掌握有多么欠缺,更别说制定出合理的城市政策。
我们现在掌握着北京大量的数据,因此可以对城市的动态变化进行非常深入的描述。我们想了解在北京五环到六环之间的这片城乡结合部地区,到底发生了什么。
这是我们基于手机、出租和公交等几组数据分析,通过机器学习分类得到的几种不同的村庄类型。
我们希望用大数据对不同状态类型进行描述,再用传统数据对结果进行验证。
工作日中,出行分成两个方向:一个方向是非正规的就业,传统上认为的流动人口,或者来自于农村非正规就业的人口。另一个方向是前往上地、中关村西区就业的高学历人口。
通过数据观察居住在这里的人群,他们工作时间较长,晚上21点到24点是回到居住地的主要时间段。
同时根据我的观察,他们周末出行距离较短或较少出行,休闲活动呈现比较单调的状态。
清华大学博士生盛明洁也对这个地方进行了非常深入的问卷调查,发现:居住在这里的人,他们的日常通勤距离,比北京市居民的通勤距离短,而且学历越低的话,通勤距离则越近。这与我们通过大数据的分析结果,较为一致。
数据发现了怎样的另一个北京?首先,数据可以推断五环与六环之间城市边缘区常住人口的规模与构成。其次,数据描述了这些常住人口的职业身份与日常生活状态。
我尤其感觉到,我们还需要关注传统规划中被忽视的城市边缘区的群体,对缺乏统计数据且高度动态化的区域进行精细化描述,通过多维多源数据融合,为城市决策提供支撑。
点击“ 《智慧城市与城市数据运营》 ”查看PPT原文。
作者丨王鹏,北京清华同衡规划设计研究院副总工程师