《用户能够控制和理解由机器学习驱动的UI吗?》中讲到机器算法运用到用户身上有一些弊端,本文将为大家继续讲解针对这些弊端企业所遇到的挑战和改善。。
对输出缺乏控制
在我们查看的所有系统中,输出不仅取决于用户的操作,还取决于外部事件,如其他人的帖子、新闻故事、新电影发行或流量。这些种类繁多的数据使得理解如何控制算法和将用户自己的操作与第三方操作的效果隔离开来变得更加困难。
当根据一些自动预测确定了一组相关项时,这些项显示的顺序以及它们是否显示通常由相关性度量决定:首先显示相关度高的项,然后显示相关度较低的项。如果相关性低于某个阈值,则可能根本不显示该项目。(Netflix以匹配分数的形式明确地展示了这个相关性指标。这个指标本身并没有直接引起用户的兴趣——我们的研究人员完全忽略了这个分数)。
虽然有人可能会说,一个良好的相关性度量不应该把重要的项目放在列表的最后,但事实是,这些系统只收集关于用户的零碎信息,这些用户是复杂的个体,他们的需求不仅取决于过去的习惯,还取决于上下文甚至情绪。(例如,一名参与者说:“我希望能有办法隐藏Facebook上所有悲伤的帖子。”有些海报可能很有趣,但频率很低,因此系统可能无法积累足够的相关数据。)因此,即使是很好的相关性度量也很可能无法正确地预测相关性——至少偶尔是这样。
有一些问题是由于不完善的相关性指标引起的:
- 有些用户感兴趣的项目被遗漏了。(在信息检索术语中,这相当于低回忆。)
对用户来说,忽略一个高相关度的项目可能是有代价的。在Facebook和Instagram这样的网站上,错过你最亲密的朋友的帖子可能会引起烦恼,并破坏这种体验。这些站点上的新闻源只包含新帖子的一个子集,这对我们的参与者来说是一个很大的麻烦。一名参与者表示:“我需要与算法斗争,以获得我希望看到的账户。“人们试图根据他们(通常是错误的或碎片化的)对系统如何工作的心理模型来控制算法。有些人(通过点赞按钮)关注他们感兴趣的页面上的所有帖子,希望说服算法不要再错过这些帖子。因此,Like的含义已经超出了它最初的字面和社会含义(喜欢用来表示对内容或海报的欣赏),并开始被解释为一种对算法进行某种控制的方式。
即使是那些认为自己可以操纵算法的人,也常常怀疑算法的有效性。他们不断地直接访问他们感兴趣的人或组织的新闻提要,以确保他们不会错过内容。
放弃一个高度相关的项目并不总是有那么大的代价。例如,在Netflix或Spotify上,有成千上万的条目可能会引起用户的极大兴趣;把一个排除在外不太可能引起人们的抱怨。
- 项目的顺序是无法预测或无法容易理解的。
丢失对用户重要的项不仅是因为算法没有将其包含在结果列表中,还因为它没有将其包含在列表中足够高的位置。最终,这种担忧与注意力经济有关:如果人们只有有限的注意力用于新闻或社交媒体,那么对他们来说重要的项目可能会被遗漏,因为它们在输出列表中的位置太低了。
我们看到的一些推荐系统,建议的顺序对用户没有意义:人们不明白为什么Facebook上的某个帖子会在另一个帖子之前播放,也不知道为什么Netflix轮播上的一部电影会在另一部电影之前播放。
在Facebook、Instagram和Google News上,一个常见的抱怨是故事的顺序不是按时间顺序排列的。正因为如此,很难预测你是否看到了一个人的一切,或者你可能错过了一些帖子。同样,在新闻方面,参与者担心对他们来说不那么重要的有趣的故事(比如一篇与汽车相关的文章)可能会排在很长的列表的第一位,并可能使他们错过最近的一般新闻。
在Netflix的例子中,推荐的特别类别(例如,因为你看了……,首选)掩盖了人们已经形成的该领域的自然类别。例如,对于视频内容,一个常见的问题是时间(例如,用户可能知道他们只有1个小时的观看时间)或节目类型。然而,在Netflix创造的类别中,电视节目与完整长度的电影混合在一起,如果没有区分标记,就没有可识别的顺序,而且人们没有简单的方法来过滤它们。
- 一些低兴趣的推荐被呈现给用户。(在信息检索术语中,这相当于低精度。)
糟糕的建议对用户的注意力来说是代价高昂的——他们必须检查这些建议,确定它们是无关的,然后跳过它们。然而,在不同类型的系统中,错误建议的代价并不总是相同的。使用Netflix的轮播列表布局,一个糟糕的建议相对来说更容易被忽略——一部无趣的电影不会占用太多的页面空间,人们可以很容易地在页面上移动。
Netflix:一个糟糕的推荐在列表布局中占的空间相对较小;人们很容易忽视它。
在Spotify或StichFix(服装托运服务)这样的系统上,用户不能忽视一个不好的建议——他们不能只是坐着听自己不喜欢的歌,或者穿一条不符合他们风格的裤子。Facebook介于两者之间:不相关的帖子或广告占据了页面空间,需要用户滚动浏览。
Facebook上一个无关紧要的广告可能会占据整个窗口,比Netflix上一个糟糕的电影建议更需要努力去忽略。
忽视一个糟糕建议的代价将决定人们直接提供反馈的可能性有多大。例如,在Spotify上,他们会参与到系统中,对不好的条目进行评分,不仅是为了调整算法,也是为了避免自己坐着听完自己不喜欢的歌曲。在Facebook上,我们确实注意到用户偶尔会使用隐藏广告按钮,但因为它隐藏在菜单下,一些人认为不值得这么做。人们关注的是喜欢的好建议,而不是降级的差建议。
Facebook:很少有用户利用隐藏在More按钮下的隐藏广告选项。
推荐内容占用的空间(或处理时间)越多,反馈按钮就应该越突出。如果推荐的内容很容易被忽略,那么提供反馈的方法可以是次要的。
个性化不应该增加用户努力
我们在上面看到,在用户体验中,最成功的推荐算法是那些能够向用户传达他们所使用输入的合理心理模型的算法。特别是,我们的研究参与者喜欢Netflix的“因为你(看了/添加到列表中/等等)……”建议列表。
然而,这种方法的一个问题是相同的项目可能会被多次推荐。例如,一个电影被包含在“因为你看了……”列表中,它也可以出现在我的列表或首选项中。当人们遇到这些重复的项目时,他们必须付出额外的努力,因为至少他们必须认识到他们以前见过这些项目,并进行迁移。一位用户评论道:“为什么要有各种各样的名单,还要保留重复的名单?我讨厌这些重复的名单。我又看了一遍,看到了和以前一样的东西,这让我很恼火,因为我觉得这是在浪费时间……”
Netflix:同一部电影(《发生什么事了,西蒙妮小姐?》)在For You和Jazz & Easy Listening两栏都出现过。
但是,重复的努力不仅限于重复的项目。Netflix承认,它超越了内容个性化,为视频创建了个性化的(甚至是特定于会话的)主页布局和个性化的封面艺术。
这两种个性化都会增加交互成本:
- 特定于会话的缩略图、描述和标题
个性化的内容如何呈现给特定的用户对于吸引用户的注意力有很大的帮助。我们的研究参与者看到了过多的内容,他们快速浏览了一遍,浏览了缩略图,阅读了1-2个单词的文本。一位Facebook用户说:“我通常甚至不读别人写的东西;我只是浏览了一下,”一位Netflix用户评论道,“我寻找的是不同的、有趣的东西,封面吸引了我的注意力。”
在Netflix上,不仅两个不同的用户会看到同一部电影的不同缩略图(如“帝国游戏”),而且同一个用户可能在两个不同的会话中看到同一部电影的不同缩略图。
Netflix: 同一个用户在不同的会话中看到了电影《查帕奎迪克》的不同缩略图。
从理论上讲,这种做法可能会增加人们喜欢这部电影并观看它的机会——因为电影的不同方面将在不同的会话中被强调,其中一个可能会吸引用户的注意力。不幸的是,这种不一致性也使得电影不那么令人难忘,并且浪费了用户的时间:人们可能最终会访问电影细节页面并多次检查描述,结果却发现他们仍然不感兴趣,或者他们已经将该电影添加到了他们的观看列表中。
- 特定于会话的布局
Netflix还根据用户、会话和设备个性化主页的布局。因此,对于一个用户来说,在一个会话中Continue watching可能会非常接近页面顶部,而在下一个会话中可能会在页面底部。这是一个自适应界面的例子,限制了对页面布局的学习。因此,喜欢通过检查新添加的内容来开始浏览的用户可能需要主动地查找Recently added列表,而在以前的会话中定位该列表不会带来任何好处。因为Netflix是一个需要大量浏览的界面,所以改变不同建议列表的顺序不会对我们的用户群产生重大影响;然而,通常情况下,这种做法会显著降低用户体验。
建议
我们研究了数量相当有限的系统,这些系统严重依赖于机器学习算法来向用户呈现内容。以下是一些经验教训:
- 努力建立一个精确的心理模型的算法。要弄清楚人的哪些行为可以对算法的输出做出贡献。
- 让人们容易地控制机器学习算法的输出。允许他们以熟悉或自然的方式对输出进行排序或重组。错误推荐的成本越高,向系统提供反馈就应该越容易。
- 不要重复内容,如果它适合多个类别的话。
- 为个人用户实施个性化,然后坚持个性化的设计;要注意在会话级别进行个性化设置,并在每次访问时更改用户的UI。
- 选择可能吸引用户的视觉属性,因为当人们不得不消费大量内容时,视觉属性非常重要。
- 前置描述和标题以支持对大量数据的扫描。
- 遵循这6个UX指导方针将使AI不再仅仅是花哨的技术,从而积极支持用户并提高他们对体验质量的满意度。
原文链接:https://www.nngroup.com/articles/machine-learning-ux/
翻译:马克笔设计留学