——嘉宾——
上海图书馆副馆长 陈超
著名作家 梁晓声
中华书局副总编辑 顾青
大数据之热,出版业不可能没有感受到.不过,对大数据时代的到来,出版业人士在2013上海书展的一场高层论坛上表现得诚惶诚恐,他们不知道大数据是否真的那么美妙,不清楚大数据给未来提供的全新可能性是什么.尽管如此,出版业面对大数据的一场长期战役已经打响.
当出版遇上大数据
2010年,谷歌推出图书数据库,库中包括从1500年到2008年间出版的各类图书的5000亿个单词.用户可以在电脑上输入最多五个单词,查看这些单词历年来的使用频率情况.
例如,输入"women"(女性)和"men"(男性)会发现,上世纪70年代之前,"women"在图书中很少被提及,而当女权主义站稳脚跟后,"women"的使用频率逐年提升,到1986年,"women"和"men"的使用频率曲线出现了交点."这说明,将高质量的数据分析应用于人文学科也是可行的."美国哈佛大学研究员埃雷兹·利伯曼·艾丁将这种研究方法称作"文化组学"(culturomics).上海图书馆副馆长陈超在论坛上分析说,这诱发了一个新的学科,通过文本的定量分析来揭示人类行为和文化发展的趋势.
随着大数据时代的到来,阅读方式也发生了深刻的变化.数世纪以来阅读作为一种单独、私密行为的方式,转变为某种可以测量的半公开的行为.如今,电子阅读器能够让出版商和作家一窥销售额背后的故事,它们不仅仅能够显示某些书吸引了多少购买者,还能揭示他们的阅读强度.
出版社已经开始运用这些数据.出版《哈利·波特》小说的Scholastic出版社通过建立在线游戏追踪最吸引人的线索和角色,以此为构思基础创作了《39条线索》系列小说,成为又一本全球畅销书;Coliloquy出版的电子书允许读者自己设计人物角色和情节线索,经数据分析,让作家调整故事迎合大众口味.读者甚至可以选择女主角与三位追求者中的哪一位发生关系.
中国出版业的实践与猜想
Coliloquy的这一模式某种意义上说明了大数据在出版业的可行性.但是,能否真的像英国电视剧《纸牌屋》那样,靠大数据的排列组合,流水线生产一本同类畅销书呢?陈超很同意豆瓣上一篇关于此分析的日志:"如果我们能量化用户的阅读题材、阅读场所、阅读时长、标注章节和重复浏览内容,大数据时代的快销书指日可待."
著名作家梁晓声却并不如此认为,"大数据不可能影响我们(作家)."他在接受《IT时报》记者采访时斩钉截铁地表示.他认为:"数字阅读的时代刚刚来临,是否意味着它将告别读书这一古老而良好的习惯呢?有人断言这是早晚的事,最快50年后变成现实.我认为不会,起码100年后不会.人类对读书的亲情,对于一部分读书人而言,早已成为基因,成了DNA的一部分."
现实情况是,出版业已经开始对大数据展开各类探索.上海图书馆今年春节期间做了"读者阅读账单",根据一年来的外借量,将读者分为极客、书虫、文青,并寄一张个性化的阅读数据表给读者.陈超介绍,他们发现去年一年在上海所有图书馆中借书量最大的一个人共借了3414本书,是一位司机,"没有数据,不知道这个事情,知道以后会去问为什么,和数据大小无关."
作为中国传统文化的内容供应商,中华书局也在思考如何在大数据时代为出版提供更多可能.中华书局副总编辑顾青认为,用数字经济的理念来看待,中华书局不仅要保持古籍整理和出版的核心竞争力,更应该保留获取、存储、整合、搜索、分析中国传统古籍文本及其研究文本的能力.
顾青同时坦承,目前中华书局仍以纸书为主,数字产品极少,主要是"中华经典古籍库"和"中华基本史籍知识库"两个数据库.图书馆采购也在借力大数据.如今,图书馆文献资源建设经费紧张,特别是纸本书刊经费比例逐年减少.同时,图书采访员人员有限,三四万人的综合类大学的图书采访员也不过三四个,采回的书80%没有价值或价值不高.据此,北京人天书店董事长邹进提出,在大数据时代,可以从采访数据中提取核心书目,根据出版社、作者、责任编辑、版次等综合评分提供采购指导.
要大数据,得先数字化
与会者普遍认为,在中国,传统出版业和图书馆还处在数字化的转型时期,因此现在谈要在内容、阅读、服务、管理方面"数据化",得先将"数字化"进行彻底.
在管理方面,陈超说,我国数字出版产业链上"B2L2R"(出版社到图书馆到读者)的商业模式和平台远未成熟.在美国,Overdrive公司搭建了这样一个平台:出版社把电子资源交给他们,再由他们负责向所有图书馆提供电子书,亚马逊借书服务就是他们的客户.
"国内没有数字阅读平台,不掌握用户阅读行为的数据,怎么来做大数据创新呢?"陈超发问道.