首页 欧洲联赛 正文

什么是机器学习?我为什么要在乎?|编译-betvictor_伟德国际网址1946_伟德国际官网网址

当下机器学习已成为热门,也已运用于一些新闻报导中。机器学习关于新闻业的价值究竟是什么?在实践运用中需求留意什么?本期RUC新闻坊编译了哥伦比亚新闻谈论(Columbia Journalism Review)4月25日宣布的What is machine learning and why should I care?(什么是机器学习,为何我要重视)一文,期望能够为此供给一些考虑。

作者简介

Nicholas Dia什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址kopoulos 是西北大学传播学院的助理教授,他在即将出书的《新闻主动化:算法怎么重写媒体》一书中撰写了有关新闻媒体主动化和算法的文章,并定时向CJR供给有关这些主题的文章。

没准你还没意识到,但你或许早已在你的新闻报导中用过机器学习技能了。你或许运用过Trint (拿手英文主动语音转录的公司名——译者注)服务来转录你的采访,凭借谷歌完结一些文本翻什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址译,亦或是将穆勒陈说(指美国特别检察官穆勒查询有关俄罗斯干与2016年美国大选的陈说,该陈说以PDF格局发布,挑选了更合适相片的有损压缩办法,因而读者无法对页面文字进行查找——译者注)转换成易读的文本格局。

即使你自己没亲手用过,机器学习也或许在新闻机构内部发挥作用,比方给文本相片等加上标签以便寻觅,在公司网站或许交际媒体上引荐文章以进步它们的影响力或用户粘性,或许测验猜测谁可成为订阅扣头的方针。

什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址
王兴

机器学习现已渗透到新闻业的一些最一般的使命中,进步了功率,并使得那些原本会因太深重而无法报导的故事具有了被叙述的或许。 咱们现已生活在机器学习的趋势中。可是,咱们现实上才刚开始摸到一点皮裘,尤搞笑小说其祖祖小y妈是在新闻修改方面。

需求明晰的是: 我倒并不是为了大肆宣传一个如风达快递查询神话般的新技能。抱愧,机器学习或许救不了新闻职业的财政窘境。尽管如此,记者们仍是能够从中发现许多有用的东西。机器学习还能为新闻修改室做些什么?新闻作业者怎么用它来改善他们的修改作业?在运用这些强壮的新东西时,新闻作业者应该警觉些什么?

"机器什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址学习"这个短语描绘了一种精心制作和工程化的东西。例如,Trint之所以能够转录音频,是因为它的算法学会了怎么将音频形式同字母和单词的亚冠赛程规矩相对应。这是在许多小时的人工转录音频的练习基础上完成的。它的算法学习将音频中的形式转换为文本形式的办法,然后就能够对新的音频样本进行转录。

更正式地说,机器学习指的是运用从数据中学习操作形式的算法,这些算法能够执行使命(比方转录),但不需求编写明晰的程序。机器学习办法和特定的技能算法有多种不同的风格,每一种都有其合适的用处 这些办法一般依据所供给的人员反应的数量和类型加以区别:

1.在监督学习(Supervised Learning,指对具有概念符号(分类)的练习样本进行学习,以尽或许对练习样本集外的数据进行符号(分类)猜测。——译者注)中,为算法研讨供给了一组细心注释的示例。关于记者的查询,文档或许被符号为“风趣”或“无趣”,而且一旦经过练习,算法就能够依据这些类别对新文档进行分类。现实证明,这关于那些期望依据已知的爱好形式过滤很多文件或数据的查询记者来说很有价值。

2.另一个变种弱监督学习(weakly supervised learning),也为算法供给了示例,但并没有独自注释每个项目,而是指定了过滤规矩来界说大而“喧闹(noisy)”的数据集(在有用的数据集周围包括很多无用的信息)。世界查询记者联盟(International Consortium of Investigative J涵ournalists)正与斯坦福大学(Stanford)的一个机器学习小组(Machine Learning Group)协作,以了解这在新闻场景中的具体运用。

3.另一方面贾云馨,无监督学习(Unsupervised Learning,对没有概念符号(分类)的训什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址练样本进行学习,以发现练习样本会集的结构性知识。——译者注)办法不需求注释。相反,它们答应算法在数据中查找形式,例如同享特征的条目组,一般用于对类似的记载进行集群或链接。

美联社在剖析无意中发作的儿童枪击案时运用了这样一种技能,以发现有噪声数据的案子,这些数据与来自更明晰、噪声更小的案子的数据一同集合在一同。在《纽约时报》,这郑智些技能有助于报导竞选财经论题的记者将多个捐献记载与同一个捐献者联系起来。

4.强化学习(Rein骗女性上床forc孟广美ement learning)是另一种机器学单无双习,它也不需求符号数据。可是,它的确利用了对算法的反应。标题测验风险的弟弟运用这种办法,经过单击标题供给活跃的强化和反应,算法从中了解下一个用户应该测验哪个版别的标题。

在考虑怎么运用这些技能时,依然存在着一些问题需求从业者去知道。

首先是成见。杜克大学(Duke University)的技能与核对协作中心(Tech&Check Collaborative)运用ClaimBuster体系来监控文本,运用机器学习模型来辨认所谓的有查看价值的现实语句中的“现实声明”,然后将其发送给现实查看员。它运用的模型是依据曩昔的美国总统争辩中的20,000个手艺符号的语句练习出来的。

学术研讨人员评价了ClaimBuster对2016年美国总统争辩中21份文本的剖析。研讨人员将ClaimBuster算法确认的现实声明的主题与CNN和Politifact中人类现实查看员挑选的声明主题进行了比较。与人类现实查看员比较,ClaimBuster算法获得了更多关于经济的建议,而更少触及社会问题。假如人类现实查看员只是依赖于ClaimBuster算法,那么它的成见会使他们远离社会问题建议,从公共利益的视点来看,这一成果或许是不可取的。

评价的另一个方面标明,特朗普在该体系中被符号为“值得查看”的声明比希拉里的要少。特朗普的修辞风格或许使他的陈说不太简单被算法辨认。因为ClaimBuster体系在挑选什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址现实声明时会更重视包括数字的内容,而特朗普的表达往往不重视具体细节,这或许与呈现上述成果相关。

这种机器学习体系或许以特有的办法引导(或搬运)留意力。运用这些东西的记者应该意识到这种或许性,并预备根放鸡岛海上游乐世界据需求填补空白。修改特别应该对这些体系怎么刻画新闻报导进行监督,监控和设定边界什么是机器学习?我为什么要在乎?|编译-betvictor_伟德世界网址1946_伟德世界官网网址。

此外还存在不确认性的问题。猜测分数或对文档分类的机器学习模闫云达型很少100%确认其输出。它们具有计算性质。这意味着记者需求对他们持怀疑态度,并严厉核实他们的输出。

能够运用各种验证办法来评价模型的全体质量,但单个输出依然或许是反常。假如模型有效地责备个人或特定安排的不妥行为,并或许对他们形成严峻的负面影响,那么在发布模型的输出时需求慎重。

意识到不确认性是要害。可是,假如机器学习体系的输出仅在内部用于新闻修改室,而且总是有记者在任何内容发布之前对其进行查看,那么就没有太大的问题了。记者需求问的是,一个模型的猜测或分类过错的或许性有多大?假如是这样的话会有什么损害?

曾在紫河车作业中运用过机器学习体系的记者们供认这些算法并不完美。算法或许会疏忽具有潜在新闻价值的文档。因而,相较于人工审阅,依据算法处理成果打开的后续查询或许并不那么全面。不过,有时新闻报导并不需求对事情进行具体的记载。一篇牢靠的新闻稿件所需求的是,在一堆文档中寻觅出佐野千寻最有新闻价值的一条头绪,或许是具有新闻价值的一些头绪。

假如机器学习模型输出的成果能够经过其他来历被证明且仍具惊蛰是什么意思有新闻价值,那么它便是抱负的。《洛杉矶时报》曾在一次新闻查询中运用机器学习东西来评价警方数据的质量。模型得出的首要定论是,洛杉矶警察局在其违法计算数据中漏报了严峻突击案子的数量。依据《洛杉矶时报》的后续报导,洛杉矶警察局在内部审计完结后证明了这一定论。这种对依据进行的三角验证有助于进步记者对机器学习处理成果的决心。

最终,因为可用的机器学习品种繁复,新闻业还面临着这样的应战:哪一种才是与特定报导使命相匹配且有用的机器学习技能。处理这一应战的一种方五河气候法是,约请机器学习范畴的专家入驻新闻修改室,让他们在修改室里确认哪些机器学习技能对记者们来说是最有用的。

另一种或许则是让修改们在计算机环境中研讨机器学习。跟着时刻的推移,咱们能够经过更多的协作来充分机器学习在新闻业范畴的实践运用,从而让修改室能够在众多的数据中寻觅到躲藏的隐秘。

总归,我对机器学习对修改作业的影响持乐观态度,但也需求提示读者们,机器学习并不合适一切的新闻报导。现在,新闻修改室在引入机器学习时所遭受的帝国大厦巨大应战是,经过试验确认哪些报导能够运用哪品种型的机器学习体系进行辅佐,哪些报导却只能依托人类学习的堆集。

图片来历于网络

本期修改:李静 段婉婷 林子璐 杜华敏

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。

相关推荐

  • 暂无相关文章