免费注册 找回密码     

查看: 2013|回复: 0
打印 上一主题 下一主题

别让评测数据欺骗了你的眼睛

[复制链接]

8776

主题

9753

帖子

1万

积分

金牌会员

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

跳转到指定楼层
1
发表于 2012/2/22 13:10 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本文所要描述和讨论的并不是测试成绩究竟是否含有水分,而是评测过程的本质。&nbsp;<BR><BR>  阅读拙作之前您先回答一个问题,两块显卡在同样平台、同样条件下运行游戏,一个平均速度是150帧/秒,另一个是160帧/秒,这两块显卡有区别么?也许您会回答有区别,因为这两块显卡的速度相差6.666667%。或许您会回答没有区别,因为无论是120帧/秒还是130帧/秒或者更高,我们在游戏中感觉到的速度都是一样的。但是无论如何,作为DIYer的我们还是都热衷于讨论各种显卡的评测数据。<BR><BR>  由于种种原因,无论是厂家、经销商还是国内外媒体、用户,对显卡3D性能(注意,2D画质和显卡做工不在本文讨论范围之内)好坏最直接的评价都是通过各种标准化的评测数据获得的。评测方式不外乎以下三种。<BR><BR>  方法一,基准测试软件。基准测试软件在选定条件下运行几款覆盖面较大的实际3D游戏,获得平均帧数,然后通过自有运算方式进行加权平均后,给出平台的3D性能得分作为测试成绩。这种方法的典型代表是经典的3DMark&nbsp;03和3DMark&nbsp;05等。<BR><BR>  方法二,游戏软件中自带的帧数测试程序。某些游戏软件自带性能测试程序,通过运行相同DEMO获得平均帧数作为测试成绩。例如常见的DOOM&nbsp;3、Half-Life&nbsp;2、Far&nbsp;Cry等。<BR><BR>  方法三,实际测试帧速度。使用第三方软件纪录游戏实际运行时的平均帧速度作为测试成绩。这种方法由于随机性较大,一般通过多次测试取数值平均的方式减少误差。<BR><BR>  也许看过太多的评测数据后,您和笔者一样已经麻木了。但是眼花耳热之后,您是否也曾仔细想过,这些评测数据合理么?或者说这种评测方式合理么?也许您会习惯性的觉得这些很合理,也许您不会同意笔者以下的观点,也许您通读本文后仍旧不会找到更好的评测显卡的方法,甚至不知笔者所云。这里需要强调的是,笔者本文中仅对目前流行的标准化显卡评测方式作技术性探讨,而不存在任何针对媒体或厂商的攻击,由于没有足够的证据,文章中涉及到的厂商和产品品牌均用化名。<BR><BR>  上述三种评测方法从本质来说是相同的,都是通过使用显卡运行各种3D程序,然后通过处理平均帧数数据获得显卡性能评价,那么这种非常流行的以平均帧数作为显卡性能唯一标准的标准评测方式是否合理呢?笔者在经历了许久的麻木后产生以下疑问。<BR><BR>  回到本文最初的那个问题,两块显卡在同样平台、同样条件下运行游戏,一个平均速度是150帧/秒,另一个是160帧/秒,这两块显卡有区别么?实际上对于多数人来说,这是没区别的,因为人眼最大分辨速度大约50~100ms,也就是说,当图像连续速度超过30帧/秒的时候,人眼就会认为画面是连续的,所以包括电视画面在内大多数视频的连续播放速度都是30帧/秒。此外,对于CRT显示器来说,其刷新速度最多100&nbsp;Hz,也就是说每秒最多显示100张画面,而对于LCD显示器来说,这个速度降为60&nbsp;MHz。那么是不是对于显卡来说,30帧/秒的速度就足够了呢?需要注意的是,这里笔者提到的是连续播放速度,而不是平均速度。对于实际3D游戏来说,由于不同画面渲染工作量差别极大,不可能像播放媒体流那样速度均一,所以对显卡的品均运行速度来说30帧/秒并不代表最佳性能。<BR><BR>  其实,对于不同类型的游戏,平均帧速度的要求并不是完全相同的。例如对于CS-S这类激烈的第一人称3D对战游戏,根据笔者多年的经验,45帧/秒的速度已经基本能够保证流畅运行,而当速度达到60帧/秒的时候,我们的感觉已经是非常流畅了。笔者可以负责地告诉您,无论您是多么专业的玩家,无论您的水平有多高,您永远不会发现120帧/秒和110帧/秒之间所谓“庞大”的速度差别,即使您认为您能够分出它们之间的差别,这也将是纯粹的心理作用。但是尽管所有人都明白这个道理,一些别有用心的媒体或是厂商,总是如此炒作,经常会看到这样的比较:“A卡的测试成绩是98.4帧/秒,比测试成绩为91.5帧/秒的B卡快出7.5%之多。”但是这样的比较在实际游戏中是没有任何意义的,因为在实际游戏中,两者之间的差距我们无法用肉眼感觉到,也就是说,这两款显卡的“性能”是完全相同的!<BR><BR>  也许您会说,的确这个差距我们无法认知其存在,但是这两块显卡如果运行在更苛刻的条件下,性能差距就会被我我们感知啊。对的,是这样的!但是这里出现了概念偷换。别忘了,在这里,测试条件已经被改变了,也就是说原来九十多帧/秒的测试条件是不合理的,那么为什么测试者不选择一个更加合理并能够反映出显卡性能差距的测试条件呢?!您还会强调,一般来说性能差异会随着测试条件改变而成比例的改变。但别忘了,这句话中“一般来说”这四个字是无法省略掉的。也就是说,有(至少理论上有)这种可能,一块显卡在分辨率1024*768@32bit时的测试成绩会达到100帧/秒,但当测试条件提升至分辨率为1280*1024@32bit时,测试成绩仅为2帧/秒(当然这是笔者有意的夸张)。所以,如果您认为测试的平均帧数或其加权品均作为显卡是及性能的反映是合理的话,那么至少这个测试成绩的差别是您能够观察到的。<BR><BR>  平均帧速度也有其重要性,因为对于目前显卡来说,平均帧速度较大的差距还是能够基本体现出性能差异的,例如运行某游戏,平均速度45帧/秒的显卡一定要比平均速度15帧/秒的显卡快。但是,笔者要强调的是,这种差异一定要产生在合理范围内,我们可以认为平均45帧/秒和平均15帧/秒速度相差很大,但是我们(至少是笔者)可以认为平均450帧/秒和平均150帧/秒在速度上是完全相同的,因为它超过了感知的极限。<BR><BR>  既然110帧/秒和120帧/秒是没有区别的,那么平均帧速度40帧/秒和40帧/秒之间是否有差别呢?可能很多读者或多或少都会有这样的疑问,只是在各种标准化评测数据的攻势下,不能或不愿提出这样的疑问而已。其实,平均帧速度40帧/秒和40帧/秒之间不仅有区别而且有非常大的区别。<BR><BR>  一些有心的玩家也许会和笔者有相同的感觉,基于同样级别的1号品牌图形芯片和2号品牌图形芯片的显卡尽管在各种以平均帧速度作为唯一依据的标准化评测成绩(指前面所述的三种评测方法)中,尽管测试成绩几乎完全一样,但实际运行各种游戏时,基于2号品牌图形芯片的显卡运行游戏时明显有停顿的感觉,但基于1号品牌图形芯片的显卡运行游戏时却令人感到非常流畅,它们运行游戏时各种条件都相同。需要注意的是,这里笔者强调的是各种游戏,而不是我们津津乐道的1号品牌图形芯片比较适合运行DOOM3而2号品牌图形芯片适合运行Half-Life&nbsp;2。为什么主观上强烈的速度差异却无法体现在标准化测试成绩中呢?这只能归结为标准化测试的方法不够科学、不够合理,因为标准化测试的成绩唯一取决于平均帧速度!注意,这里笔者要强调的是“平均”二字。很多情况下恰恰是这样的,对于2号品牌图形芯片来说,尽管在资源消耗量比较小的时候,速度会大于1号品牌图形芯片,但是当游戏中突然出现极为复杂的图像时,较大的资源占用量会大大降低显卡效能,从而使其速度大幅下降,而1号品牌图形芯片尽管在处理简单图像时速度比2号图形芯片略慢,但其性能在较大资源占用量的时候下降较少,这时给人的感觉就是比较平稳,从而获得更好的主观感觉。<BR><BR>  下面笔者将举一个比较恰当的例子,一个游戏的某10秒钟片断,其中9秒图像都非常简单,但只有一秒却非常消耗资源,分别给基于1号图形芯片和2号图形芯片的显卡进行渲染。对于前者来说,前9秒钟的运行速度都是42帧/秒,而另一秒的速度是22帧/秒,这时该显卡的平均帧速度是40帧/秒;而对于后者,前9秒钟运行速度较快,是44帧/秒,但由于后一秒由于资源消耗较大,速度仅为4帧/秒,但是由于前9秒的速度较快,其平均帧速度也是40帧/秒。通过这个比较极端的例子,相信读者很容易判断出,前者在实际游戏过程中,给玩家的主观感觉是明显比后者流畅,尽管这两块显卡的标准化测试成绩是相同的。其实这就是经典的“木桶效应”,一个木桶究竟能装多少水,并不是由其最长的木板长度决定的,也不是由其一周木板的平均长度决定的,而是由其最短的一块木板长度决定的。对于显卡来说,用户对其速度的主观感觉并不取决于其平均帧速度,而主要取决于最低帧速度。<BR><BR>  看到这个结论,您也许会眼前一亮,那么是不是只要我们确定了显卡的最低帧速度是多少就可以简单比较其性能了呢?当然不是,因为最低帧速度的随机性很大,可能某显卡其他大多数时间都正常工作,但只在某个时间点内出现跳帧,这种现象并不罕见。笔者认为,多数情况下,取显卡最慢的1/10时间平均帧速度往往比整体平均帧速度更能够清晰反映用户使用时的主观感觉。<BR><BR>  笔者看过很多标准化测试报告,一般来说3DMark&nbsp;03、3DMark&nbsp;05给出的测试成绩得分精确到1/1000,而各种平均帧速度测试给出的结果至少精确到1帧/秒或者0.1帧/秒,有些甚至精确到0.01帧/秒。我想问的是,这样的精度差异我们能够分辨出么?或者说,依靠人类的分辨率,什么样的误差是在允许范围内?<BR><BR>  结合笔者多年显卡使用、评测经验,笔者认为至少在5%之内显卡性能的区别人类是无法通过肉眼观察所能区别出来的。也就是说,显卡测试的精度只要能够达到5%以内就完全符合实际需求。换而言之,对于类似3DMark之类的标准化评测软件来说,尽管其精度可以达到1/1000甚至更高,但采用百分制完全足以满足精度需求。也就是说,3DMark能够测试出得分为3950和4000分显卡之间的速度差异,但这两块显卡对于用户来说性能是完全没有区别的!您不同意笔者的观点,没关系,回顾一下上一页我们讨论过的问题,显卡的速度并不取决于平均帧速度,而是主要取决于最低帧速度。<BR><BR>下面我们一同观察一下这两组测试成绩:<BR>
<P align=center></IMG></P><BR>
<P align=center></IMG></P><BR>  没错,尽管这两块显卡性能完全一样,但在两幅图中,给读者的感觉确是完全不同的。在图1中,两块显卡给人的感觉的确是性能非常接近,但在图2中,读者的第一感是否觉得“某品牌高档显卡”的性能完全超过了对比显卡?这样的错觉是如何造成的呢?仔细观察后问题就很明显了。这里数据并没有任何错误,实际上,图2是通过选用不同的坐标轴和原点将微小的数值差距放大后的结果。也就是说,图2中,原点的选择并不是图1中的零点,而是将3900这个数值点作为原点,从而将坐标轴放大了33倍,实际上图2中坐标轴真正的零点并不是它的原点,而是在图2坐标轴左侧,大约33倍坐标轴长度上的某点。<BR><BR>  笔者不得不承认,这样做的确非常精明,既没有篡改数据又没有编造事实,不过是通过改变坐标轴而将不存在的性能差距展示得非常明显。但是除了给读者更多的心理暗示外,这样做对于纯粹的评测来说,有什么意义么?笔者还要强调一下,得分为3950和4000分显卡之间性能是完全没有区别的。<BR><BR>  也许读者看到这个问题后会觉得笔者非常无聊,目前事实上这个问题的答案非常简单,用3DMark的得分或者某游戏的平均帧速度描述显卡性能就足够了,甚至对于包括笔者在内的某些用户,只要确认显卡使用的图形芯片、运行频率、显存规格等信息,立刻就能说出这款显卡3DMark&nbsp;03、3DMark&nbsp;05的测试得分以及DOOM&nbsp;3、Half-Life&nbsp;2等的常用DEMO平均运行帧速度,误差甚至达到10%以内!但是我要问的是,这些有意义么?更直白一些的问题是,如果告诉您,某块显卡的3DMark&nbsp;03的测试得分为3456分,您能描述一下该测试条件下这款显卡运行游戏时的真实感觉么?当然不能,因为前面我们已经分析过,测试成绩相同的显卡之间,实际游戏的感受可能完全不同(如果您不同意该观点,您可以找两块测试成绩相同但采用不通品牌图形芯片的显卡运行一下游戏试试看)!那么怎样才能更加准确地描述一块显卡的性能呢?注意,提高平均帧速度的数值精度是没有意义的,这里所讨论的“更加准确”是指与实际相符。<BR><BR>  相对于电脑这个极其精确的、完全数字化的机器,人类是一种非常感性的动物。实际上在大多数情况下,我们描述3D游戏流畅程度时,选择的并不是数字化的平均帧速度,而是“完美无缺”、“完全流畅”、“非常流畅”、“很流畅”、“比较流畅”、“流畅”、“还算流畅”、“有时停顿”、“时常停顿”、“经常停顿”、“可以忍受”、“勉强忍受”、“无法忍受”、“幻灯片一样的”等等主观感觉。既然我们无法定量感知游戏的流畅程度,为什么我们不去用这些词汇来更加生动形象的描述显卡性能,而舍本逐末的去用平均帧速度或者3DMark的测试得分来描述显卡性能。<BR><BR>  当然,评测人员实际测试,并用各种形容词来描述显卡性能这种方法也并不合理,因为这样将包含过多主观化的内容,反而更不准确。对于不同用户来说,对“流畅”的理解是不同的。例如对笔者来说,CS-S的平均帧速度达到70帧/秒、最低帧速度高于40帧/秒,笔者就可以判定为“流畅”,但可能多数用户会认为该条件已经“非常流畅”,还有一些用户会认为“还算流畅”。<BR><BR>  那么究竟应该如何描述显卡性能呢?笔者认为应该综合最低帧速度、平均帧速度、最高帧速度以及帧速度记录曲线等众多数据,并进行系统分析,然后在划定的10~15个等级中给出最终定位,就能够比较准确地描述显卡性能了。<BR><BR>  本来这一节到此已经完毕了,但是笔者还要强调一个概念上的区别,“精确”不等于“准确”。例如天气预报中,难道报道的数据是“本市今天最高气温为9.25984569845摄氏度”就是准确了?!尽管该数据更加精确,但相对来说,“本市今天最高气温为9摄氏度”这句话更加准确。<BR><BR>  看了这些,也许您会对测试的结果表示一定程度的怀疑,但是测试的过程难道就不值得怀疑了么?这里笔者并非怀疑测试人员对数据弄虚作假,笔者坚信所有报道的评测数据都是真实的。笔者怀疑的是测试的过程,也就是说,笔者认为测试和玩家实际玩游戏有着很大的差别,这种差别主要体现在两个方面。<BR><BR>  首先,测试时运行的是演示画面或录制好的游戏DEMO,这时往往对除了显卡以外系统资源的消耗量较小,内容(非3D渲染)和AI系统也比较简单。但在实际游戏中,却往往复杂得多。实际游戏中,最明显的差别是用户操作更多,复杂程度将大大超过DEMO所能包含的内容,此外画面快速的切换、经常性的场景变换,这些都大大加大了电脑系统的计算量。某处理器厂家给出的数据表明,在运行某游戏DEMO时,平均占用内存带宽为800&nbsp;MB/s,而当实际运行着款游戏时,平均占用内存带宽达到950&nbsp;MB/s。这仅仅是平均值,在运行着款游戏时,突发内存带宽占用甚至可以达到3.0&nbsp;GB/s!也就是说,尽管测试时,运行DEMO非常流畅,但实际游戏过程中对于配置较低的电脑,仍旧会由于内存带宽不足造成游戏画面停顿。<BR><BR>  您也许会说,那么我们采用实际游戏平均帧速度描述显卡性能就可以了。但是评测环境对测试结果和真实情况差别造成的影响也是非常大的。笔者日常评测时选用的平台都是刚刚重新安装过最新操作系统、驱动程序的空白系统。但是实际上有哪台电脑会是这样呢?我们平时用来玩游戏的电脑大多都会安装办公软件、图像处理软件、杀毒软件、图片浏览软件、视频播放软件等多种软件,甚至在运行这些软件的过程中运行游戏。也就是说,实际情况中,游戏对于电脑的占有并不是100%的,这无疑会造成标准化测试和实际情况之间的巨大误差。<BR><BR>  笔者的意思是,一块显卡也许会比另一块标准化测试成绩相同的显卡对系统资源的依赖程度更低,从而在实际玩家电脑上有着更好的表现。<BR><BR>  也就是说,相对于标准化测试成绩中微小的差别来说,对系统资源的依赖程度也许更能决定显卡在实际使用过程中性能的表现。<BR><BR>  看了以上这些本来不该成为疑问的疑问,您也许会迫不及待的问笔者,究竟应该如何测试和描述显卡的性能呢?什么样的测试数据才是最合理的?<BR><BR>  坦白的讲,笔者的答案是:不知道!<BR><BR>  对,不知道。<BR><BR>  不知者无罪,笔者以下仅就笔者关于显卡评测总结一下自己肤浅的认识。<BR><BR>  首先,笔者不得不承认,凡是存在的都是合理的。为什么包括笔者在内几乎所有媒体、厂商在提供测试报告时都不能免俗的采用这套标准化测试标准?其实,这套标准有着自身得天独厚的优势,那就是便于比较、广为人知。读者可以很简单的通过测试成绩(尽管笔者认为其中存在一些不合理因素)了解显卡大致性能,并且便于比较各个型号显卡之间性能的差别。而且这套标准化的评测数据非常易于获得,只要运行程序化的商用软件,就能够在几分钟内立刻得到测试成绩。<BR><BR>  但是笔者认为这样的测试应该进行如下所陈的一些改进。<BR><BR>  第一,设定最高帧速度上限。例如当显卡运行某3D程序时,运行速度超过80帧/秒的时候都按80帧/秒统计,从而避免了通过提升最高帧速度来提升测试成绩这一漏洞,因为超过这个上限的速度是无法被我们感知的,是没有意义的。也就是说,笔者认为Geforce&nbsp;7800&nbsp;GTX尽管在1600*1200@32&nbsp;bit分辨率下开启4x&nbsp;FSAA和8x&nbsp;AF时速度远远快于Geforce&nbsp;6600&nbsp;GT,但是在1024*768@32&nbsp;bit标准条件下,两者的性能是完全相同的。<BR><BR>  第二,在测试成绩中将最慢1/10时间的速度赋予较大权重。对于用户来说,尽管一块显卡只有1/10左右的时间让用户有停顿的感觉,但正是这段时间决定了用户使用显卡的主观感受,所以一定要在最终的测试成绩中着重体现最慢速度时显卡的表现。最低速度较快的显卡应该获得更高的测试成绩,这和用户的实际感受相吻合。<BR><BR>  第三,测试成绩精度没必要很高。既然我们永远无法分辨测试成绩为3950分和4000分的两块显卡之间的速度差异,我们为什么不更简明地将它们都表示为40分?这样岂不更加直观明了。也许您会认为这样做精度有所下降,但实际上这样将更加准确。<BR><BR>  第四,可以附加以某些恰当的标准化的评价来描述显卡测试成绩。例如可以给出某品牌Geforce&nbsp;6600显卡3DMark&nbsp;0x的测试成绩为“5500分,比较流畅运行xx游戏”。这样,测试成绩将更加直观。相信如此给出测试成绩后,也许读者会更加关心测试成绩后的标准化评价,而不是测试成绩的数值本身。<BR><BR>  第五,在测试过程中加入标准化干扰程序。我们可以通过在测试过程中引入几个较低CPU占有率的进程来模拟实际用来游戏的电脑中其他程序对测试结果的干扰,从而更加真实的模拟实际游戏时的情况,从而获得更加接近真实的测试结论。<BR><BR>  也许您很难坚持看完笔者冗长的论述,也许您会反对笔者大胆提出的质疑,但是看过了这些,相信您以后一定会更加理智和客观的看待各种评测数据,这就已经是对笔者工作最大的慰籍了。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|Archiver|兴宁A8 ( 粤ICP备17110913号 粤公网安备44140202000139号)  

GMT+8, 2024/11/25 00:50

© 兴宁A8

手机绑定 兴宁A8支持手机、电脑、平板一站式访问!

快速回复 返回顶部 返回列表