首页 > 新闻 > 国内 >

电信运营商大数据变现到底靠不靠谱？

2015-04-13 10:02:30 作者：liyan6 来源：移动labs 评论：0 　点击：

　　电信运营商说大数据变现也有快一年了，这一年不能说没有进展，但相对互联网行业的秒速来说，实在只能说是龟速。有人这时候会跳出来说是因为体制问题，基因问题，这个说法是万金油，一般运营商的问题归结到体制上都不会出大错，仿佛这么一说，大家就觉得一切都有了合理解释，然后各自该干嘛干嘛去了，也就不需要再动脑子了。但是今天，我想再继续就这个话题深入聊一聊。本文就是起到抛砖引玉的作用，大家可以一起来讨论，运营商做大数据运营的切入点究竟该如何选取。

　　俗话说，存在即合理，任何貌似不合理的事情背后你深究下去都是这样。运营商大数据变现进展为什么这么慢？只能说，因为运营商还是没有从大数据里面看到真金白银。为什么中国移动在LTE上的投入那么大手笔，那是因为他看明白了，这是人家未来10年吃饭的饭碗，所以钱砸下去决不手软。相比而言，大数据只能算是一块试验田，而试验田上的收成还真不好说。

　　过去大半年我们一直在研究移动的数据，做过企业级别的数据资产咨询，也做过几个落地的应用项目的探索，做来做去，我们对移动的大数据认识也越来越清晰。在14年初的时候，运营商对自己的数据还是充满自信的，说起来，移动手里的数据无外乎两大类：一大类是用户的位置数据，另一大类是用户电话、短彩信及上网行为的数据。让我们再深入看看这两类数据。

　　先说位置数据，移动网络记录用户的位置说到底也是为了给用户提供移动通信服务的，而不是为了窥探用户隐私的，因此：首先它没有必要实时关注所有用户的位置变化，对于没有在使用业务的静默用户来说，隔段时间看看他在哪里就可以了，这个用专业术语说就是周期性的位置更新，这个对于系统降低负荷是很必要的，这样就有第一个结论：网络对于有业务的用户，需要实时关注其位置变化，根据这个位置变化选择不同的基站和小区为其提供服务，对于无业务的用户，仅需轮询其位置变化，这个轮询周期通常是40分钟（根据网络负荷情况调整）。也就是说，网络感知的用户位置不实时，最坏情况时延可达40分钟！其次：网络需要了解用户位置的精度到底到什么程度就够了呢？答案也很容易想到，只要知道用户在哪个小区的服务范围就可以了，因此，移动网络记录的用户位置信息，精度只能到基站的经纬度（小区的经纬度和基站是一样的），这是什么概念呢？2G小区的覆盖范围是数公里，3G的是数百米，4G的小一些会在百米之内。也就是说，网络感知的用户位置在地理上的精度基本是百米量级。

　　知道了运营商用户位置数据在时间和空间上的精度后，对这些数据可以支撑什么应用也就心中有数了，哪些是靠谱的，哪些是纯忽悠也就一目了然。如果是用来做要求不高的人流密度分析，常住人口分析，人口迁移去向分析够了，如果是做精度要求稍高些的交通疏导，店铺选址，那就需要看实际情况，具体问题具体分析，说不准能不能支持，先别拍胸脯；可如果说要做实时营销，这牛就吹大了，不光实时你保证不了，空间上的准头也有点差，搞不好营销没成反被当骚扰。

　　再说说用户行为数据，用户的语音、短信类传统业务有一个特点是个人对个人，因此肯定是有一个对端的号码对应的活生生的人，那其中的价值点在哪里就很清楚了，通过这些传统业务的用户行为，你可以很清楚的了解用户的现实交往圈（现实交往圈是和虚拟交往圈相对的，各有各的用处）。但不幸的是，用户往往认为现实交往圈的隐私性很强，目前比较敏感，属于雷区，运营商轻易不敢越的，所以这部分数据的价值在可以预见的未来还不可能发掘。

　　再有一大类重头的用户行为是用户的上网行为，现在大有手机取代电脑之势，看看低头一族那么多就知道了。所以新新人类的大量碎片时间基本都被手机上网行为所占据了。对于用户通过手机进行的上网行为，网络侧会纪录下用户访问的地址，理论上可以通过该URL地址，结合网络爬虫或APP抓包技术，将实际内容获取回来，然后采用内容识别技术对其中的关键内容进行识别，这样就可以获取到用户行为的相关数据。但我们再进一步看看理论后面的一些落地阶段遇到的问题。至于网络记录的地址长度有限（128位），超出部分会被截断，这些地址也就废了，这些都是小问题，因为记录最初也不是设计来干这个的，而且超出的比例也不是很大，大数据也不在乎少那百分之几的数据。主要的问题有几个，一是APP和网页层出不穷，每天都是爆发式的增多，需要有一个动态更新的APP和网站的分类库，这个库里有网站和APP的多级分类，还需要有网站和APP的多个服务器地址/域名对应关系，这实际上是做了URL分类的基础工作。有效的URL库及后期良性的维护机制是非常重要的；第二，内容分词/识别的复杂度和识别率，每个网站和APP的内容识别往往需要采取不同的方法，具体情况具体分析，需要看页面有无设计规律等，进一步设计具体的内容提取、识别算法，工作量巨大，一旦网站/APP改版，这些工作还要重新进行，因此也要有一套动态维护机制。这两项工作都是非常琐碎繁杂的工作，又很难体现具体的价值，因此很少有厂家愿意投入大量的资源去做。基本还是需求来了，再根据具体的需求具体分析的模式，支撑的时间周期和质量都不稳定。

　　在APP内容识别的过程中，我们也发现了一些APP分析厂家目前的一些尝试，他们会和APP开发厂家签署协议，直接在APP代码中嵌入数据采集代码，通过在APP运行过程中采集的数据，有针对性地对用户的行为进行分析，通常他们获取的位置和内容精度会很高，而且他们不会因为APP的升级改版而很被动，造成自身程序的大规模修改。与电信运营商相比，他们的劣势是不能获取到所有竞争对手的数据，但是对于APP分析厂家来说，只要和更多的APP厂家签署的协议，他们慢慢也会积累到这部分数据。而且他们获取数据到形成可供分析的基础数据中所作的附加工作比电信运营商少的多，可以把更多的精力放在业务运营上而不是数据准备上。

　　也许，电信运营商需要重新评估自己的数据适合做什么，不适合做什么，对需要做复杂的数据准备和精度提升才能支撑的应用场景，也许更好的办法是换一个别的方式去做，那样才更符合客观规律。

　　以上信息纯属一家之言，还希望大家能多多讨论，发表各自的看法。

下一篇:最后一页