調查評估法

介面設計調查評估法
關於可用性的測試和評估，在國外現在已經形成一個新的專業，稱為可用性工程（Usability Engineering）。由於是一個專
業，因此就有專門的人員來從事這項工作，併發
展出一整套的方法和技術來進行可用性的測試和評估。根據我們給軟體可用性所下的定義，一個軟體可用性的測試和評估應
該遵循以下原則：
（1）最具有權威性的可用性測試和評估不應該是專業技術人員，而應該是產品的使用者。因為無論這些專業技術人員的水
準有多高，無論他們使用的方法和技術有多先進，最後起決定作用還是使用者對產品的滿意程度。因此，對產品可用性的測
試和評估，主要應由用戶來完成。
（2）產品的可用性測試和評估是一個過程，這個過程早在產品的初樣階段就開始了。因此一個產品在設計時反復徵求用戶
意見的過程應與可用性測試和評估過程結合起來進行。當然，在設計階段反復徵求意見的過程是後來可用性測試的基礎，不
能取代真正的可用性測試。但是如果沒有設計階段反復徵求意見的過程，僅靠使用者最後對產品的一兩次評估，是不能全面
反映出產品的可用性。
（3）產品的可用性測試必須是在用戶的實際工作任務和操作環境下進行。可用性測試和評估不能靠發幾張調查表，讓用戶
填寫完後，經過簡單的統計分析就下結論。可用性測試必須是使用者在實際操作以後，根據其完成任務的結果，進行客觀的
分析和評估。
（4）要選擇有廣泛代表性的用戶。因為對產品可用性的一條重要要求就是系統應該適合絕大多數人使用，並讓絕大多數人
都感到滿意。因此參加測試的人必須具有代表性，應能代表最廣大的用戶。
軟體是高新技術，人們對軟體的認識通常是從技術上來考慮，似乎技術越先進，水準越高，系統就越好。所謂人們的認識，
不僅包括設計人員和管理人員，而且包括普通用戶。因此提出軟體的可用性問題，不僅是設計人員思想上的一場革命，也是
普通人認識上的一場革命。
在軟體產品開發過程中，軟體可用性的測試是必不可少的一環。可用性是從人的角度來看軟體系統是否易用，高效，使人滿
意。做為一種特殊的 IT 產品，它的可用性顯得格外重要：
考察軟體系統的可用性一般來講就是測試軟體的可用性是否達到了用戶的要求。目前的方法大致可以分為四類，使用者模型
法，使用者調查法，專家評審法和用戶測試法。
使用者模型法是用數學模型來類比人機交互的過程。這種方法把人機交互的過程看做是解決問題的過程。它認為人使用軟體
系統是有目的的。而一個大的目的可以被細分為許多不的目的。這了完成每個小的目的，又有不同的動作和方法可供選擇，
每一個細小的過程都可以計算完成的時間。這個模型就可以用來預測使用者完成任務的時間了。這個方法特別適合於無法進
行用戶測試的情形。在人機交互領域中最著名的預測模型是 GOMS（Goals,Operators,Methods,Selections）模型。
用戶調查法包括問卷調查法和訪談法。這兩種方法是社會科學研究，市場研究和人機交互學中沿用已久的技術，適用於快速
評估，可用性測試和實地研究，以瞭解事實，行為，信仰和看法。
訪談與普通對話的相似程度取決於待瞭解的問題和訪談和類型。訪談有 4 種主要類型：開放開（或非結構化）訪談，結構化
訪談，半結構化采談和集體訪談.具體就採用何種訪談技術取決於評估目標，待解決的問題和選用的評估範型。例如，如果目
標是大致瞭解使用者對新設計構思（如交互設計）的反映，那麼非正式的開放式訪談通常是最好的選擇。但如果目標是搜集

關於特定特徵（如新型 WEB 流覽器的佈局）的回饋，那麼，結構化的訪談調查通常更為適合，因為，它的目標和問題更為
具體。
調查問卷是用於收集統計資料和使用者意見的常用方法，它與訪談有些相似，也是用來瞭解用戶的滿意度和遇到的問題。問
卷需要認真的設計。可以是開放式的問題，也可以是封閉的問題，但必須措辭明確，避免可能的誤導問題，保證所收集的資
料有高的可信度。在學術論文中常見的可用性問卷包括：用戶交互滿意度問卷（questionnaire for user interaction
satisfaction,QUIS）,軟體可用性測量目錄(software usability measurement inventory,SUMI)電腦系統可用性問卷
(computer system usability questionnaire,CSUQ)。
專家評審法分為啟發式評估和走查法。啟發式評估是由 Jakob Nielsen 和他的同事們開發的非正式可用性檢查技術，使用一
套相對簡單，通用，有啟發性的可用性原則來進行可用性評估。具體方法是，專家使用一組稱為“啟發式原則”的可用性規
則做為指導，評定使用者介面元素（如對話方塊，功能表，線上說明等）是否符合這些原則。在進行啟發式評估時，專家採
取“角色扮演”的方法，類比典型使用者使用產品的情形，從中找出潛在的問題。參與評估的專家數目可以不同。由於啟發
式評估不需要使用者參與，也不需要特殊設備，所以它的成本相對較低，而且較為快捷，因此也稱為“經濟評估法”。
走查法包括認知走查和協作走查，是從使用者學習使用系統的角度來評估系統的可用性的。這種方法主要用來發現新使用者
使用系統時可能遇到的問題，尤其適用於沒有任何用戶培訓和系統。走查就是逐步檢查使用系統執行的過程，從中找出可用
性問題。走查的重點非常明確，適合於評估系統的一小部分。
用戶測試法：可用性既然是評價軟體品質的標準，而且是從用戶的角度出發，評價起來當然少不了用戶的參與，在所有的可
用性評估法中，最有效的就是用戶測試法了。該方法是在測試中，讓真正的使用者使用軟體系統，而測試人員在旁邊觀察，
記錄，測量。
因此，用戶測試法最能反映使用者的要求和需要的。根據測試的地點不同，用戶測試可分為實驗室測試和現場測試。實驗室
測試是在可用性實驗室裡進行的，而現場測試則是由可用性測試人員到用戶的實際使用現場進行觀察和測試。根據試驗設計
的方法不同，用戶測試以可分為有控制條件的統計試驗和非正式的可用性觀察測試。
這兩種試驗方法在某些情況下也可以混合使用，所以經常被籠統的稱為可用性試驗。可用性的實驗就是在產品實際應用的環
境之外，就特定的環境、條件、使用者進行測試，藉以記錄系統的表現，更能對特定的因果關係進行驗證，得到量化的資料。
用戶測試常用的方法包括實驗室的實驗、焦點團體討論(Focus Group Discussion)及發聲思考(Thinking Aloud)。焦點團體
討論是一般市場行銷研究常用的手段。邀請一群使用者，一般五至八人一起就幾個焦點問題進行討論，由一位主持人掌控討
論的方向，圍繞著預定的題目進行，讓參與者都能暢所欲言並熱烈討論。不過若針對軟體進行討論，必須要考慮系統的規模
與使用的體驗，對企業的軟體來說，一次的討論絕對不夠，必須要進行一系列的討論與評價。
發聲思考法是心理學研究所用的研究方法，在國外被人機交互或可用性的研究者用來評估軟體的使用。發聲思考法要求
受測者使用指定的系統，邊用邊說話，說出使用之時心中想的一切，包括困難、問題、感覺等。這個方法能從每位受測者的
評價過程中收集到相當大的資訊，而所需邀請的受測者也不多，在國外的相關業界可說是標準的軟體使用品質評價方法。
以上介紹的可用性工程方法都是多年工業實踐證明切實有效的。在各個方法的實際運用中，可以根據具體情況對方法執行上
的某些細節靈活掌握。在特定的產品開發專案中，如何選擇所使用的可用性工程方法直接關係到可用性工程的運用效果。在
這裡一定要綜合考慮開發過程當時所處的階段、各種方法所能提供的資訊以及它們所需要的技能、人員、時間、設備等方
面的資源，在此基礎上，選擇一組適合具體情況、能夠互補和相互銜接的方法，使得以用戶為中心的設計理念得到盡可能的
充分體現。

受測者基本資料：其目的在於交叉比對、瞭解不同的使用者背景對於影響使用者需求滿足之因素是否存在顯著差異。
一、為何選擇問卷調查法
產品方對於此次用研項目提出的需求如下：
初看上去，需求比較多、比較雜，似乎無法用一個方法解決所有問題。經過反復和產品方的溝通交流，就能挖掘出他們心中
最希望瞭解的內容。再整理一下，就變成下面的表格：
最終結果除了要展示出網易 XX 使用者的上述情況，還涉及對調查物件的多種分類，以及不同類別用戶在具體題目上的橫向
比較——這可能更為重要。

而問卷調查法特別適用於調查：使用者的使用目的、使用行為習慣、態度和觀點、人口學資訊；不適合探索用戶新的、模糊
的需求。
所以，此次調研項目適宜於選擇問卷調查法作為主要方法（同時選用訪談法、運營資料作補充參考）。
二、問卷素材的來源和依據
1.二手資料（已有的理論、報告及行業資訊）
2.自己的使用體驗、競品分析
需要把自己培養成產品的深度使用者，並且還要堅持使用競爭產品。這樣有助於形成自己對產品的直覺和感性認識。
而競品分析能説明自己對產品有更充分的理解，讓我們從感性認識中提煉出理性看法，同時確保能全面地細緻地審視（不會
遺漏重要細節）。
3.對產品設計人員、普通使用者的簡單訪談
“三人行，必有吾師”，自學完了，再讓產品設計人員、普通使用者教你一些知識吧。
此時的訪談採用輕鬆聊天的形式（半結構式），訪談的物件也是方便取樣、就近選擇——目的不在於得出什麼結論，更多地
是幫助自己進一步加深理解、窮盡多種可能性，為編寫問卷做準備。
而且對於產品設計人員的訪談，還能順便獲悉產品部門工作流程、組織架構、人員配置、可動用的資源等資訊——看似無關
緊要，其實能使我們最終調查報告的建議更有針對價值！
三、問卷細節
1.指示性說明
社會調查類的教科書裡通常要求我們寫上長長的一大段說明文字，但在互聯網上有多少人會認真看一大坨文字？看看
《don’t make me think》作者如何做的：從 103 個單詞刪減到 41 個單詞（該書中文第二版，P34）！非必要資訊不得出
現在問卷的指示性說明中。
需要提及的核心資訊無非就這幾個：
A.目的：幫助改進網易 XX，也歡迎非網易用戶作答
B.時間：3-5 分鐘
C. 匿名和保密
D.有獎：通過品質檢核的完整答卷可參與抽獎
2.題目編制思路

3.題目設置需注意的細節
1) 簡潔、明確：有時這兩者是個矛盾，但儘量做到平衡。
【例子】您使用 XX 的歷史多久？——簡潔
您第一次使用 XX 是什麼時候？——簡潔、通俗
您第一次使用 XX（不一定是目前最常用的這個）是什麼時候？——稍微犧牲了“簡潔”，但是更“明確”！
2) 態度中立、無誘導性
【例子】您對目前常用的 XX 滿意嗎？
您對目前常用 XX 的滿意程度為？
4.選項設置需注意的細節
1) 選項互斥
【例子】您平時上網較常流覽的內容為？
A.熱點/頭條新聞 B.娛樂八卦 C.時事政治 D.遊戲/動漫 ……
選項 A 原本是為了對應於“每天都會看新聞頭條、但對於內容領域沒有特別偏好”的這樣一部分人的行為；但 A 選項與後
面選項存在著重疊，尤其 A 與 C 重疊的程度非常高。於是，刪除 C 選項，把 A 選項改為“時事新聞”。
2) 包含所有的可能
能否做到這一點，就反映出準備階段的工作是否充分。當懷疑選項設置可能不全時，可以再去找產品、設計、運營人員探討、
核對。
此外，可以設置【其它________】選項，以確保使用者始終可以作出選擇；同時，選擇【其它_______】選項的比例高低也反
映了選項設置是否全面。
3) 用戶易理解
【例子】詢問使用者使用的手機作業系統時，選項“iOS（iPhone）、symbian（塞班）”就比“iOS、symbian”更容易理
解，雖然前一種表達貌似不倫不類。
4) 變數的測量類型
實際工作中，只大體區分為“類別變數”和“連續變數”兩大類。就統計測量層次上來說， “連續變數”比“類別變數”
級別高，包含資訊豐富，也可以使用稍高級的統計方法。所以，可能的情況下，儘量讓選項“變為連續變數”。
【例子】想瞭解使用者平時分享站外內容的情況，兩種選項設置（後一種更好）：
A.分享 B.不分享
A.頻繁 B.經常 C.一般 D.很少 E.從不
5) 態度中立、無誘導性
【例子】選項“時事政治”改為“時事新聞”；“憤青”改為“熱衷點評時政的普通人”
6) 隨機順序呈現
若選項為事實性的、類別變數，而非按程度順序遞進的連續變數，那麼選項應該隨機順序呈現給答題者，這樣可以排除首尾
選項或中間選項更易被選擇的傾向。
5.避免反應心向
反應心向是指回答問卷的人具有一種比較固定的作答傾向。有時可能是有意識的：討好出題者；給別人留下好印象。有時可
能是無意識的：習慣回答“是”、“同意”；社會贊許性——避免社會文化規範裡不贊同、或負面的評價；回避、防衛敏感
隱私問題或社會禁忌話題。
線上下、面對面、有獎品的答題環境下，更易發生有意識的反應心向的問題。在互聯網上、匿名的情況下，有意識的反應心
向會減弱很多，無意識的反應心向也可以通過以下努力得到緩解。具體做法如下：
1) 指示性說明部分：強調匿名和保密；強調認真、如實回答才能參與抽獎。
2) 問卷中：非必要情況下，不要求使用者填寫收入狀況、手機號碼。即便確實是調查所需，也要說明緣由，且保留用戶自主
決定是否回答的權利。
3) 問卷中：設計一些呼應的題目互相印證；並且可以適當採用反向計分的方式。

4) 資料分析時：涉及自家產品和別家產品的滿意度、好感度等這些態度評價的比較時，一定要小心得出結論（可能存在反應
心向，使用者對自己產品的評價很好）。
6.建立不同問題、選項間的呼應
一方面，可以互相印證，提升問卷的信度（當然，沒必要僅僅為此而增加題量——得不償失）。另一方面，便於在統計分析
時採用交叉分析/列聯表的方法——這會為你的調查報告在“豐富、準確、有價值”方面提升很多！
【例子】“選擇目前這家 XX 作為您最常用的 XX 的主要原因為？”、“您對目前最常用這個 XX 主要不滿之處為？”這兩個
題目的結果可以用來互相印證。
【例子】“您在 XX 上比較關心什麼類型的人？”“您在 XX 上感興趣的內容為？”這兩個題目可以用來做交叉分析，能找
出“人”和“內容”最典型、最具代表性的組合。
7.題目的排序
總體的題目排序原則如上，有時也要考慮一些特殊情況，比如“接觸產品時間有先後關係、操作流程有特定的順序”，此時
局部的題目則按“時間/流程先後”排序。
8.問卷題量
先看問卷法和量表法的區別：
可以這樣通俗地理解：量表是許多專家、花了大量精力在編制環節（工具本身的信效度很高）；測試時需要的樣本量稍小一
些，就能達到研究目的。問卷原本就需要大量代表性的樣本才能實現目的，況且問卷本身的信效度還欠佳，更需要大量樣本
了。
為了得到大量的樣本，且希望資料品質較高，問卷本身就會受到限制——題量要偏少。實際工作中，將問卷總題目數控制在
25 題之內，平均答題時間不超過 300 秒（事後統計）。
四、預測試
經過了這麼細緻和長久的準備，似乎不會再有問題，迫不及待地想要投放問卷了。且慢！智者千慮，必有一失。此時應該再
找一些產品/設計人員、普通用戶來預測試一下（方便取樣、最好找之前沒有參與過討論的人）。依據個人經驗，這個環節還
是能檢查出一些遺漏問題的。
【例子】問卷中的一題：“您在 XX 上查找他人的方式為？”自我感覺選項中已經列舉了各種常用方式，一位元交互設計師
在預測試時問我：為何沒有“直接搜索找人”選項？原來我忽略了這個最直接、原始的查找方式。

五、問卷投放
除了問卷本身的品質，直接影響調查成敗的因素就是樣本品質（實際也就是問卷投放策略的考慮）。順便總結一下，量表調
查法最重要的是工具本身（量表的品質、常模指標）和高級統計方法；實驗法最重要的是控制和操控（對無關變數的控制、
對引數的操控）；而問卷調查法最重要的是樣本（樣本量足夠大，且具有代表性）。想要樣本量大，就盡可能多地動用投放管
道，當然還有些投放小技巧（越處於操作流程結束後、入口文案的排版越獨立，回饋問卷的打開率越高，詳見 taobao UED
渡劫的《賣家回饋的影響因素的量化研究》）。
這邊著重談一下樣本代表性的問題。首先得承認，網上投放問卷不是完全隨機抽樣，我們無法苛求調查物件的各種特徵完全
匹配現實生活中的總體，但是，我們要盡可能爭取覆蓋到不同類別用戶群，以具有更大代表性。
【例子】此次調查，我們除了想知道網易 XX 使用者的情況，我們還希望能夠瞭解新浪、騰訊、其它 XX 使用者的情況。為
此，我們做了以下努力：
1) 除了在網易門戶投放問卷，我們希望盡可能擴大站外投放管道比例，比如：全國各大論壇、一些搜尋引擎頁面、視頻網
站頁面等，甚至最好能投放到其它門戶網站（當然實際上不可能花這麼多代價）。
2) 當推廣和市場部門的同事希望問卷的點擊圖片包含“網易 XX”的字眼（可順便起到廣告宣傳的作用）。對此，我堅決反對，
因為這樣無疑會嚴重影響“新浪、騰訊、其它 XX 用戶”的點擊。
3) 在論壇投放問卷連結，市場的同事採用軟文帖的形式，大意是“目前 XX 產品很火，大家可以去通過此問卷能瞭解 XX 產
品”，寫得幽默風趣、激發看帖人的好奇心。有同事不認可這種做法，認為不符合問卷指示說明的規範，可能會對使用者作
答產生影響。但我個人反而認為這是個比較好的技巧。首先，在工作中是不可能完美地遵循到所有的原則，一定要有“主要
矛盾、和矛盾的主要方面”的辯證思維方式，必要的時候須權衡利弊綜合考慮。比如，此時我們最重要的目標是一定要覆蓋
到“新浪、騰訊、其它 XX 的用戶群”，且數量還不能少。其次，看那種帖的時候，使用者是採用的“掃描”而非“仔細閱
讀”的方式，頂多動用的是暫態記憶，等跳轉了頁面、再閱讀正式的問卷指示說明及填寫問卷時，之前的暫態記憶的影響很
小。第三，問卷中讓用戶表達直接態度的題目較少，更多地是事實性的問題，這些問題本身難以受到誘導出現系統性的偏差。
第四，我們整理資料時，還有一系列事後的資料檢核手段。
4) 設置自動的隱含題目，能區分來自各投放管道的樣本量（尤其是區分網易站內、站外）。
六、資料整理
通常資料的檢核需刪除不完整答卷、多選題全選的答卷、邏輯矛盾的答卷；準確且豐富的篩查手段有助於進一步提高資料的
品質（這一步可以在 excel 或者 SPSS 上完成）。
另外，還需要根據“答題時長”來篩除問卷（太短反映了不認真，太長反映了答題時受外界干擾較多）。採用 SPPS 中箱形圖
的分析，可以清楚地看到“答題時長”這個指標上的偏離值和極端值，及它們對映的問卷 ID 編號，這樣就能很方便地刪除
了。

七、統計分析
問卷調查法因為變數的測量類型限制，可用的統計方法比較低級，描述性統計居多，有時會用到交叉分析、卡方檢驗（偶爾
還可以用到相關分析、方差分析）。回過頭來，再次說明問卷編制階段就要考慮好可能用到的統計方法、以及如何盡可能地
讓選項設置為連續型的變數。
這個環節雖不像前面的環節直接關係調查的成敗（因為有反復嘗試的機會），但若能夠合理且充分地利用統計技術，將會給
最終報告的價值帶來很大的提升。這與用研人員的專業素養有很大關係，需長期不斷努力才能提升，此處不細談。
八、總結
看似簡單的問卷調查，要能做好且讓它發揮最大價值，確實有很多細緻的、值得推敲之處。一次用研項目（不管是不是問卷
調查法），前期的準備和計畫都非常重要，磨刀不誤砍柴工！
說明：出於對公司產品保密的考慮，隱去有關資訊。
使用者主觀感受評量表：其目的在於瞭解使用者操作智慧型手機介面時之主觀感受。
主觀評量考量人類主觀感受，而影響人類主觀感受的因素相當地多且難以歸納與量化統計，因此通常比較複雜且結果可能會
被認為不太精確。

對於可用性測試，業內人士存在一些普遍認可的原則。它們神聖地如同自然科學裡的理論，似乎我們只能對其言聽計從、俯
首稱臣才能踐行出“好的可用性測試”。其實，即便是科學，它的一個特徵也是“可證偽性”——理論的正確性總是存在前
提條件的。真理再向前一步就成為謬誤！
可用性測試中的原則同樣如此，需要根據目的、資源、環境的不同，靈活把握、權衡取捨，而非一味恪守某一個或某幾個原
則，也許這才是可用性從業人員經驗重要性的體現。
一．任務設置：精細 VS 寬泛
制定的任務過於精細，一般原則上是反對的。理由很清楚，如果你的任務精細到一步一步“引導”用戶進行操作，那太不符
合用戶現實中的使用情境，平時沒有人在旁邊“引導”用戶的每一步操作；而且過於控制使用者的操作步驟，使用者缺乏真
實使用時的靈活性。
是不是我們設置的任務只能是寬泛的，不能細化呢？這就必須根據研究的目的來做抉擇。如果產品處在設計的初期，我們需
要關注一些宏大的問題（如：網站的整體架構、導航和分類的合理性、頁面的邏輯關係），此時就需要通過寬泛而有彈性的
任務，來查找宏觀層面的問題。如果產品的設計已經非常完善，開始進行細節的修改反覆運算，此時就需要通過設置相對具
體的任務來查找特定的細節問題（如：對某個命名的理解、按鈕的使用、連結的點擊、表單的填寫）。按照《Don’t make me
think》一書的觀點：一般使用者使用互聯網產品時滿足於能用就行，不會尋求最好的使用方法；只掃描網頁，不會仔細閱
讀。所以，如果完全寬泛有彈性地設置任務，雖然更吻合實際使用情況，但是很可能使用者直接跳過你想考察的細節。
實際工作中，由於時間和資源的限制，無法做到每個產品從設計初期到上線前後進行多次可用性測試。可能在一次的可用性
測試中即需要同時關注宏觀方面和細節上的問題。此時，還是需要和產品經理、交互設計師反復溝通，確認測試的主要目的，
同時通過對任務設置精細程度的權衡把握，使次要目的也儘量得以滿足。
不過，即便是想考察細節的任務，也要儘量避免“直接指導操作”式的語言描述方式，這樣能讓任務與真實使用情境不會相
距太遠。例如：想考察豆瓣讀書頁面【想要】按鈕是否能被看到、是否具備可點擊感。下面列出兩種表述方式，以作對比：
A.請找到您喜歡的那本書，並在該頁面點擊【想要】。（×）
B.請找到您喜歡的那本書，並在該頁面對其作個標記。（√）
二．任務數量：多 VS 少
任務數量的多少與可用性測試考察範圍有關，與任務的精細程度也有關。如果對網站全站進行考察和只對其中某個頁面、某
個操作流程進行考察，所需的任務數量自然不一樣。在同樣的考察範圍下，如果任務設置得越精細，所需任務數量也就越多。
Lindgaard 和 Chattratichart（2007）的研究發現任務數量與發現可用性問題比例存在顯著的相關關係（r=0.82，p<0.01）。
為了盡可能多地發現可用性問題，我們就儘量多地設置任務給用戶嗎？
此時要考慮任務數量過多可能帶來的弊端：學習效應和疲勞效應，尤其是靠後的任務更可能會受影響。心理學實驗中處理此
問題的方法是順序平衡，抵消影響。但是可用性測試中設置的場景和任務存在特定的先後次序，不適合採用順序平衡的方法。
基於我們的經驗，還是通過對測試的任務數量進行控制，確保正式測試環節最多不超過 1 小時，加上前後的歡迎語、訪談、
問答等，整個過程不超過 1.5 小時。
此外，任務數量的多少還會間接影響到測試所需參與者數量的多少。

三．用戶人數：5 個足夠 VS 5 個不夠
Nielsen 的研究發現，5 個用戶可以發現 80%以上的可用性問題。這個結論得到許多人的推崇，因此稱之為“魔法數字 5”。
這個結論的來源依據是每個用戶平均可以發現 30%的可用性問題，且假設所有問題都有同等被發現的概率。不過，當設置的
任務數量過多，且任務的精細程度和難度多種多樣時，這個前提有可能不成立。
Lindgaard 和 Chattratichart（2007）的研究發現測試用戶數量與發現的可用性問題比例並不存在顯著的相關關係。這個結
論似乎又支援我們選擇少量用戶進行測試即可。
其實，在用戶招募階段，比使用者數量更需要重視是使用者的代表性的問題。能否招募到有代表性的用戶將直接影響可用性
測試的成敗。如測試一個醫療軟體產品，招募到醫護人員和患者作為測試用戶，那 5 個用戶可能就足夠了；但如果只招募到
醫學實習生來測試，就必須超過 5 個以上的用戶（即便這樣，也未必能推論到整個產品的使用者群）。
由此看來，招募用戶的人數和任務的數量、精細程度、用戶的代表性也是息息相關的。參考 Tom Tullis（2009）和本人經驗：
當可用性測試範圍限定在一定的範圍（20 個任務內、或 30 個網頁之內），且招募到很強代表性的用戶，那麼 5 個足夠了。
如果存在著差別較大的亞群體，爭取做到每個亞群組有 5 個左右的代表性的使用者（當然，目標使用者的特徵及分類應該是
在可用性測試之前的用戶調研階段就解決的問題）；一次測試最多不會超過 12 個用戶。
四．用戶表現：行為 VS 言語
在可用性測試中強調對用戶操作行為的關注，是毋庸置疑的。因為：
1.用戶的行為指標更明確、具體、客觀，易觀察和記錄。
2.如果完全把關注點放在用戶的操作行為上，那麼就無需跟用戶進行多餘的（指導語之外的）語言交流。類似於心理學研究
規範，對實驗或測試中的指導語進行統一，對一切無關變數（包括主試的語言、體態表情）進行控制，以減少對研究過程的
干擾。
3.即便你直接詢問用戶某些問題，也極可能得到錯誤的答案。30 年前 Richard Nisbett 和 Timothy Wilson 的實驗、2 年前
Peter Johansson 在《science》的文章，都證實了某些情況下人們無法解釋清楚自己行為的真正原因。另外，用戶還可能揣
摩主試的喜好，回答他們認為主試期望的答案。
因此，有必要強調在可用性測試過程中關注的重點永遠應該是用戶的操作行為，而且儘量減少任何無關變數的干擾。但這個
原則被有些人引申到極端，認為只有觀察用戶的操作行為才有意義，其他資訊都是無需關注的，甚至輕率地懷疑用戶的話都
是不可信的。
可用性測試的主要目的雖然是發現問題，但也需要瞭解問題背後的原因，而僅僅依靠觀察用戶的操作行為是無法獲悉所有問
題背後的原因的，此時，我們就希望用戶能採用“出聲思維法”，出聲思維就是集中於如何與產品進行交互的意識流。如果
測試中的氛圍比較平等、自然、融洽，用戶又特別願意表達，那麼用戶就會在進行任務操作同時，表達他們想做什麼、打算
如何做、背後的原因是什麼。此時，不僅是操作行為、用戶表達出來的想法和原因、以及語言中透露出的疑惑、失望、不滿、
驚訝、猶豫等情緒同樣是需要我們加以關注的。但是，有些用戶比較內向，不善於主動表達自己的想法，此時就需要主試跟
他進行簡單的交流，以引導用戶說出背後的原因（注：不是引導用戶說出你期望得到答案）。
所以，在實際的可用性測試，基本應該以關注用戶的行為為主，少量、適時地進行詢問交流也是需要的。但這個度如何把握
呢？
1.當用戶出現猶豫、驚訝、任務失敗（過程節點上出現自然而然地稍微中斷/暫停）的時候才進行簡單的詢問。
2.詢問採用一般疑問句的句式，重複用戶剛才的行為表現（要具體客觀）：“你剛才沒有……，是嗎？”——雖然沒有直接問
“為什麼”，但暗示了希望聽到他進一步的解釋。
3.如果用戶沒有自己主動說出原因，可以“順便”問一下“為什麼？”或通過身體前傾、目光注視等非語言方式來暗示使用
者你希望能聽到更多內容。若用戶很快、堅定地說出原因，則該理由的可信度較高；如果用戶猶豫、或難以說出原因，就不
要繼續追問。
除了上述的語言、情緒、行為都需要得到關注，還有一種特殊情況是需要聽懂使用者“沒有說的”語言。例如，我們預計網
站的某二級導航標籤和一級導航標籤存在分類邏輯上的不合理；但使用者在測試中，導航相關的操作步驟進行得很流暢，用

戶也什麼都沒說。這通常表明用戶認為這些是理所當然的、不影響操作的——此時你需要聽懂使用者“沒有說的”語言。如
果你簡單粗暴地打斷用戶並詢問：“你覺得這兩個導航標籤如何？”，則變成了一種誘導性地提問。
總結一下關於此部分內容的實踐應用：
1.用戶的操作行為永遠是可用性測試的重點。
2.鼓勵用戶採用“出聲思維法”。
3.適時、少量地向用戶提問，禁止對同一個問題反復追問“為什麼”。
4.採用真正地“傾聽”技術保持和使用者的交流狀態，而非通過過多的話語。
5.開放、不預設立場地觀察、傾聽使用者“沒有說的”語言。
在可用性測試中考慮需要遵循的原則時，一定要理解它的適用條件，以及它和其它原則之間的互相影響，並結合本次使用者
研究的目的、資源、環境綜合考慮，以盡可能形成一個最優方案。由於博文長度所限，先總結這麼多，在下次的文章中會繼
續總結其它幾方面的原則。
五．發現問題：真的 VS 假的
判斷發現問題的真假，初看上去似乎不是個困難。多數或全部參與者都遇到的問題毫無疑問是明顯的可用性問題。或許有人
會建議，根據參與者中發現該問題的人數比例來判斷：比例高是真問題，比例低是假問題。前半句話可以接受，後半句話則
有待商榷。
雖然可用性測試是相對嚴謹的用戶研究方法，但是其對無關變數控制的嚴格程度和真正的心理學實驗還是有一定的差距；並
且心理學實驗對每組參與者數量的最低要求是 30 人，這樣得出的結論（數量比例）才具有推論至一般的意義。而可用性測
試一般才 8 人左右的參與人數（儘管招募的參與者在質的方面非常具有代表性），但卻無法把可用性測試中出現的所有數量
比例簡單推論至一般。8 個參與者中有 1 人發現某個問題，不代表現實中出現同樣問題的真實用戶只有 12.5%，更不代表這
個問題不是真正的/嚴重的可用性問題。
問題的真假除了根據問題出現的次數比例，還有很重要的考慮點是：使用者“錯誤行為”背後的認知/思考方式是否合乎邏
輯？
這裡順便借用一下諾曼《設計心理學》裡談到的理論：概念模型——系統表像——心理模型。概念模型可認為是產品設計人
員對產品的設計思想；系統表像可認為是產品展現出的交互介面；而心理模型則是使用者按照既往經驗對如何操作該產品的
設想。從這個角度來認識，可用性問題則是“概念模型、系統表像、心理模型”三者的不吻合或矛盾。
通過分析使用者行為背後的認知是否符合邏輯，來判斷發現的問題的真假，主要體現在以下幾點：
1.“概念模型、系統表像”的不一致
產品設計人員突然發現，介面的交互形式根本沒有反映出他原先的設計思想！
2.“系統表像、心理模型”的不一致
（1）使用者的思維方式受已有的同類產品的影響，並內化接受，而新產品的“系統表像”和已有同類產品並不一致。
（2）用戶在日常生活經驗中形成了許多並不科學地通俗理解世界的方式（比如通俗物理學、通俗心理學），但產品設計人員
沒有意識到用戶在以這樣一種“自認正確”的錯誤方式來理解和使用產品。
如果發現的可用性問題屬於以上情況，那麼即使只有一個參與者碰到，它也非常可能是一個真正的可用性問題。
例如：讓用戶登錄購彩網站，查看自己上次購彩結果。大多數用戶點擊【個人中心】去查看，有 2 個用戶點擊【開獎公告】
去查看，發現只有開獎號碼，沒有任何購彩結果資訊後，再去點擊【個人中心】。僅 2 個人出現了稍微的偏差，而且很快就
找到了正確的頁面，這貌似應該不算什麼問題。
但若追究其行為背後的邏輯，並與其他使用者的回饋（“我上次買的號碼沒有直接顯示出來？”“這裡看不到開獎的號碼

啊？”）聯繫起來，可以判斷使用者的心理模型和產品的系統表像不一致。用戶希望能同時對照著開獎號碼和自己買的號碼
很方便地核對，而網站卻割裂兩部分放在不同的頁面，因此需要將這 2 個使用者碰到的問題當作真正的可用性問題來對待。
六．研究方法：定性 VS 定量
可用性測試，很多時候被認為是一種定性研究方法；但也有人說它是一種定量研究方法。究竟是怎麼回事呢？
個人認為，可用性測試實質上結合了定性和定量兩種方法的特點，到底哪種成分更多，要看你的使用目的以及細節上如何操
作。
定量研究的思路是基於對一定數量樣本的測量，以將研究所得的結論推廣至總體。除了強調樣本的代表性，還對樣本的數量
有具體的要求，同時會考慮抽樣誤差、置信度、置信區間的度量。並且定量研究過程中非常注重對某些引數操控、及無關變
數的控制。
而定性研究重視對主觀意義的理解（如背後隱藏的原因），採用解釋建構的方法，比如訪談法等。
平時工作中以“形成式可用性”測試為主，即便它稍微偏向於定性研究，但在允許的範圍內，我個人還是盡可能地遵循著定
量研究的方法去實施。這樣整個測試過程的嚴謹性能得到保證，結論的客觀程度相對更高（近幾個世紀來，量化研究一直是
科學研究的主要範式，也正是這個原因）。具體做法如下：
1.在任務的設置上：因為參與者可能存在差別較大的亞群體，不可能要求完成完全相同的任務。但必定會設置大部分基本的、
都需要完成的公共任務，再針對不同亞群體設置少量的特殊任務。在後期統計分析的時候，基本的公共任務則可以進行數量
化的統計，並橫向比較。
2.在測試過程中：關注參與者完成任務時的相關行為，用數位來記錄（以 0、0.5、1 分別表示失敗、幫助/提示下成功、成功）。
主試儘量少地言語及體態姿勢的干擾，只在必要時進行適當地言語交流。
3.在報告呈現：對任務完成情況（效率、完成率）統計呈現，對不同任務的完成情況進行比較，對亞群體間的任務完成情況
進行比較，對所有可用性問題按數量化指標進行排序等。或者比較反覆運算前後獨特問題的頻次是否減少，以及嚴重程度高
的等級裡面可用性問題數量的變化情況。
4.測試過後，我們通常還會收集使用者自我報告式的資料，作為“感知可用性”的一個總體反映。
（1）推薦使用系統可用性量表（SUS），因為有研究表明 SUS 在少量樣本時即可產生較為一致的評分結果。
（2）為減少用戶在填寫這些量表時的反應心向，不要求填寫任何個人資訊，且主試最好暫時回避。
（3）只統計分析所有參與者 SUS 量表總分的平均值，切勿再拆分比較亞群體之間的差異，因為即便信效度再高的量表，當
樣本量極小時都會變得很不靠譜！

七．問題優先順序：單指標 VS 多指標
除了在可用性測試過程中，最終報告也必須體現出量化、客觀地特點。例如，報告發現的可用性問題的列表，我也會以量化
的方式排列出問題的優先順序別。
這樣做的好處在於：首先，發現的可用性問題肯定有一些比另一些更嚴重；其次，考慮到產品和設計人員的精力和資源總是
有限的，必須幫助他們梳理出最亟需整改的問題。站在別人的角度考慮問題，這樣他們才能更“友好地”接受我們的報告。
可用性問題列表的排序，涉及到採用單指標還是多指標、以及指標分為幾級的問題。
先就量化的客觀性而言，“出現頻率”指標是最客觀、最易量化的；而其它三個指標都需分析人員的主觀判斷。
就指標的代表意義而言，“嚴重程度”、“出現頻率”與使用者體驗最相關，與用研人員的職責也最相關。另兩個指標可能
更多地是產品人員的職責。
就指標的價值而言，多個指標的綜合顯然比單一指標更有價值。
基於上述考慮，實際工作中我會選擇“嚴重程度”和“出現頻率”兩個指標的綜合，作為可用性問題的優先順序指標。“嚴
重程度”分為 3 級，而不是 5 級（分析人員主觀判斷時，3 級指標的誤差率要低於 5 級指標）；“出現頻率”採用計算的具
體數值，而非 4 級分類。這兩個指標合併時，採用 1：1 的權重，具體公式為：
問題優先順序=嚴重程度的級別+出現頻率的具體值×3
八．報告呈現：優點 VS 問題 VS 建議
當產品設計人員辛辛苦苦做出的產品卻被你報告上羅列的各種問題批評得一無是處時，即便理智上認可你的成果，情感上也
很難接受。因此報告中列出哪怕一條最重要的優點，也會讓產品設計人員感到欣慰、感受到你中立的態度，增加對報告的接
納程度。列出優點的另一個好處是，在測試中被參與者多次自發提及的優點確實帶給用戶某種驚喜；當你在報告中再次強調
時，可以避免在後期反覆運算開發中丟失掉原本的優點。
問題的列舉肯定是報告中非常重要的部分，但切勿羅列出清單就草草了事，因為：
1.某個（些）問題和另一個（些）問題是有關聯的，但是報告中的問題清單部分卻割裂了這些聯繫。
2.產品設計人員無法一直參與旁聽/觀察可用性測試的過程，導致對報告中文字描述的問題缺乏感性認識。
3.只提問題卻不提供解決方案，就不是“建設性地提問”！
因此，我們需要在可用性測試報告的後半部分提出針對重要問題的解決方案。其目標並非是強迫產品設計人員一定要採納我
們提出方案，而是：（1）把一些相關問題聯繫起來看，（2）加深報告閱讀者對於問題的感性認識和背後原因的理解，（3）使
整個報告的思路更清晰、完整，（4）我們還可學到一些交互設計和產品的知識。

總之，可用性測試施行起來既簡單又複雜。簡單是因為不管你如何施行，終究能發現一些問題；複雜則在於發現可用性問題
的品質、重要性、對測試的利用效率、對產品設計人員的説明程度可能相距甚遠。一次成功的可用性測試體現在從前期策劃、
測試過程、後期報告等整個過程中是否遵循了這些原則，並在某些難以兩全的原則面前做到合理的權衡取捨。
QUIS 使用者互動滿意度評量表：其目的在於瞭解使用者操作智慧型手機介面時、對於各項互動因素之感受。
使用者互動滿意度問卷是由美國馬里蘭大學人電腦互動實驗室（Human-Computer Interaction Lab, HCIL）所提出的，結
合行為主義的學習理論觀點「回饋」、建構主義的學習理論觀點「重視學習者與學習環境的互動」為基礎。
《用戶交互滿意度問卷》
馬里蘭大學人機交互實驗室從 1987 年開始編制，2011 年第 7 版測量人機交互過程中使用者對介面某些方面的主觀滿意度
衡量如下 9 各方面的指標：
◦ screen factors, terminology and system feedback, learning factors, system capabilities, technical manuals, on-line
tutorials, multimedia, teleconferencing, and software installation
有 5 種語言
大約 100 道題目 http://www.lap.umd.edu/QUIS/

調查評估法

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a 調查評估法

Similar a 調查評估法 (20)

調查評估法