Más contenido relacionado
La actualidad más candente (20)
調查評估法
- 2. 關於特定特徵(如新型 WEB 流覽器的佈局)的回饋,那麼,結構化的訪談調查通常更為適合,因為,它的目標和問題更為
具體。
調查問卷是用於收集統計資料和使用者意見的常用方法,它與訪談有些相似,也是用來瞭解用戶的滿意度和遇到的問題。問
卷需要認真的設計。可以是開放式的問題,也可以是封閉的問題,但必須措辭明確,避免可能的誤導問題,保證所收集的資
料有高的可信度。在學術論文中常見的可用性問卷包括:用戶交互滿意度問卷(questionnaire for user interaction
satisfaction,QUIS),軟體可用性測量目錄(software usability measurement inventory,SUMI)電腦系統可用性問卷
(computer system usability questionnaire,CSUQ)。
專家評審法分為啟發式評估和走查法。啟發式評估是由 Jakob Nielsen 和他的同事們開發的非正式可用性檢查技術,使用一
套相對簡單,通用,有啟發性的可用性原則來進行可用性評估。具體方法是,專家使用一組稱為“啟發式原則”的可用性規
則做為指導,評定使用者介面元素(如對話方塊,功能表,線上說明等)是否符合這些原則。在進行啟發式評估時,專家採
取“角色扮演”的方法,類比典型使用者使用產品的情形,從中找出潛在的問題。參與評估的專家數目可以不同。由於啟發
式評估不需要使用者參與,也不需要特殊設備,所以它的成本相對較低,而且較為快捷,因此也稱為“經濟評估法”。
走查法包括認知走查和協作走查,是從使用者學習使用系統的角度來評估系統的可用性的。這種方法主要用來發現新使用者
使用系統時可能遇到的問題,尤其適用於沒有任何用戶培訓和系統。走查就是逐步檢查使用系統執行的過程,從中找出可用
性問題。走查的重點非常明確,適合於評估系統的一小部分。
用戶測試法:可用性既然是評價軟體品質的標準,而且是從用戶的角度出發,評價起來當然少不了用戶的參與,在所有的可
用性評估法中,最有效的就是用戶測試法了。該方法是在測試中,讓真正的使用者使用軟體系統,而測試人員在旁邊觀察,
記錄,測量。
因此,用戶測試法最能反映使用者的要求和需要的。根據測試的地點不同,用戶測試可分為實驗室測試和現場測試。實驗室
測試是在可用性實驗室裡進行的,而現場測試則是由可用性測試人員到用戶的實際使用現場進行觀察和測試。根據試驗設計
的方法不同,用戶測試以可分為有控制條件的統計試驗和非正式的可用性觀察測試。
這兩種試驗方法在某些情況下也可以混合使用,所以經常被籠統的稱為可用性試驗。可用性的實驗就是在產品實際應用的環
境之外,就特定的環境、條件、使用者進行測試,藉以記錄系統的表現,更能對特定的因果關係進行驗證,得到量化的資料。
用戶測試常用的方法包括實驗室的實驗、焦點團體討論(Focus Group Discussion)及發聲思考(Thinking Aloud)。焦點團體
討論是一般市場行銷研究常用的手段。邀請一群使用者,一般五至八人一起就幾個焦點問題進行討論,由一位主持人掌控討
論的方向,圍繞著預定的題目進行,讓參與者都能暢所欲言並熱烈討論。不過若針對軟體進行討論,必須要考慮系統的規模
與使用的體驗,對企業的軟體來說,一次的討論絕對不夠,必須要進行一系列的討論與評價。
發聲思考法是心理學研究所用的研究方法,在國外被人機交互或可用性的研究者用來評估軟體的使用。發聲思考法要求
受測者使用指定的系統,邊用邊說話,說出使用之時心中想的一切,包括困難、問題、感覺等。這個方法能從每位受測者的
評價過程中收集到相當大的資訊,而所需邀請的受測者也不多,在國外的相關業界可說是標準的軟體使用品質評價方法。
以上介紹的可用性工程方法都是多年工業實踐證明切實有效的。在各個方法的實際運用中,可以根據具體情況對方法執行上
的某些細節靈活掌握。在特定的產品開發專案中,如何選擇所使用的可用性工程方法直接關係到可用性工程的運用效果。在
這裡一定要綜合考慮開發過程當時所處的階段、各種方法所能提供的資訊以及它們所需要的技能、人員、時間、設備等方
面的資源,在此基礎上,選擇一組適合具體情況、能夠互補和相互銜接的方法,使得以用戶為中心的設計理念得到盡可能的
充分體現。
- 5. 3.題目設置需注意的細節
1) 簡潔、明確:有時這兩者是個矛盾,但儘量做到平衡。
【例子】 您使用 XX 的歷史多久?——簡潔
您第一次使用 XX 是什麼時候?——簡潔、通俗
您第一次使用 XX(不一定是目前最常用的這個)是什麼時候?——稍微犧牲了“簡潔”,但是更“明確”!
2) 態度中立、無誘導性
【例子】 您對目前常用的 XX 滿意嗎?
您對目前常用 XX 的滿意程度為?
4.選項設置需注意的細節
1) 選項互斥
【例子】 您平時上網較常流覽的內容為?
A.熱點/頭條新聞 B.娛樂八卦 C.時事政治 D.遊戲/動漫 ……
選項 A 原本是為了對應於“每天都會看新聞頭條、但對於內容領域沒有特別偏好”的這樣一部分人的行為;但 A 選項與後
面選項存在著重疊,尤其 A 與 C 重疊的程度非常高。於是,刪除 C 選項,把 A 選項改為“時事新聞”。
2) 包含所有的可能
能否做到這一點,就反映出準備階段的工作是否充分。當懷疑選項設置可能不全時,可以再去找產品、設計、運營人員探討、
核對。
此外,可以設置【其它________】選項,以確保使用者始終可以作出選擇;同時,選擇【其它_______】選項的比例高低也反
映了選項設置是否全面。
3) 用戶易理解
【例子】詢問使用者使用的手機作業系統時,選項“iOS(iPhone)、symbian(塞班)”就比“iOS、symbian”更容易理
解,雖然前一種表達貌似不倫不類。
4) 變數的測量類型
實際工作中,只大體區分為“類別變數”和“連續變數”兩大類。就統計測量層次上來說, “連續變數”比“類別變數”
級別高,包含資訊豐富,也可以使用稍高級的統計方法。所以,可能的情況下,儘量讓選項“變為連續變數”。
【例子】 想瞭解使用者平時分享站外內容的情況,兩種選項設置(後一種更好):
A.分享 B.不分享
A.頻繁 B.經常 C.一般 D.很少 E.從不
5) 態度中立、無誘導性
【例子】選項“時事政治”改為“時事新聞”;“憤青”改為“熱衷點評時政的普通人”
6) 隨機順序呈現
若選項為事實性的、類別變數,而非按程度順序遞進的連續變數,那麼選項應該隨機順序呈現給答題者,這樣可以排除首尾
選項或中間選項更易被選擇的傾向。
5.避免反應心向
反應心向是指回答問卷的人具有一種比較固定的作答傾向。有時可能是有意識的:討好出題者;給別人留下好印象。有時可
能是無意識的:習慣回答“是”、“同意”;社會贊許性——避免社會文化規範裡不贊同、或負面的評價;回避、防衛敏感
隱私問題或社會禁忌話題。
線上下、面對面、有獎品的答題環境下,更易發生有意識的反應心向的問題。在互聯網上、匿名的情況下,有意識的反應心
向會減弱很多,無意識的反應心向也可以通過以下努力得到緩解。具體做法如下:
1) 指示性說明部分:強調匿名和保密;強調認真、如實回答才能參與抽獎。
2) 問卷中:非必要情況下,不要求使用者填寫收入狀況、手機號碼。即便確實是調查所需,也要說明緣由,且保留用戶自主
決定是否回答的權利。
3) 問卷中:設計一些呼應的題目互相印證;並且可以適當採用反向計分的方式。
- 10. 三.用戶人數:5 個足夠 VS 5 個不夠
Nielsen 的研究發現,5 個用戶可以發現 80%以上的可用性問題。這個結論得到許多人的推崇,因此稱之為“魔法數字 5”。
這個結論的來源依據是每個用戶平均可以發現 30%的可用性問題,且假設所有問題都有同等被發現的概率。不過,當設置的
任務數量過多,且任務的精細程度和難度多種多樣時,這個前提有可能不成立。
Lindgaard 和 Chattratichart(2007)的研究發現測試用戶數量與發現的可用性問題比例並不存在顯著的相關關係。這個結
論似乎又支援我們選擇少量用戶進行測試即可。
其實,在用戶招募階段,比使用者數量更需要重視是使用者的代表性的問題。能否招募到有代表性的用戶將直接影響可用性
測試的成敗。如測試一個醫療軟體產品,招募到醫護人員和患者作為測試用戶,那 5 個用戶可能就足夠了;但如果只招募到
醫學實習生來測試,就必須超過 5 個以上的用戶(即便這樣,也未必能推論到整個產品的使用者群)。
由此看來,招募用戶的人數和任務的數量、精細程度、用戶的代表性也是息息相關的。參考 Tom Tullis(2009)和本人經驗:
當可用性測試範圍限定在一定的範圍(20 個任務內、或 30 個網頁之內),且招募到很強代表性的用戶,那麼 5 個足夠了。
如果存在著差別較大的亞群體,爭取做到每個亞群組有 5 個左右的代表性的使用者(當然,目標使用者的特徵及分類應該是
在可用性測試之前的用戶調研階段就解決的問題);一次測試最多不會超過 12 個用戶。
四.用戶表現:行為 VS 言語
在可用性測試中強調對用戶操作行為的關注,是毋庸置疑的。因為:
1.用戶的行為指標更明確、具體、客觀,易觀察和記錄。
2.如果完全把關注點放在用戶的操作行為上,那麼就無需跟用戶進行多餘的(指導語之外的)語言交流。類似於心理學研究
規範,對實驗或測試中的指導語進行統一,對一切無關變數(包括主試的語言、體態表情)進行控制,以減少對研究過程的
干擾。
3.即便你直接詢問用戶某些問題,也極可能得到錯誤的答案。30 年前 Richard Nisbett 和 Timothy Wilson 的實驗、2 年前
Peter Johansson 在《science》的文章,都證實了某些情況下人們無法解釋清楚自己行為的真正原因。另外,用戶還可能揣
摩主試的喜好,回答他們認為主試期望的答案。
因此,有必要強調在可用性測試過程中關注的重點永遠應該是用戶的操作行為,而且儘量減少任何無關變數的干擾。但這個
原則被有些人引申到極端,認為只有觀察用戶的操作行為才有意義,其他資訊都是無需關注的,甚至輕率地懷疑用戶的話都
是不可信的。
可用性測試的主要目的雖然是發現問題,但也需要瞭解問題背後的原因,而僅僅依靠觀察用戶的操作行為是無法獲悉所有問
題背後的原因的,此時,我們就希望用戶能採用“出聲思維法”,出聲思維就是集中於如何與產品進行交互的意識流。如果
測試中的氛圍比較平等、自然、融洽,用戶又特別願意表達,那麼用戶就會在進行任務操作同時,表達他們想做什麼、打算
如何做、背後的原因是什麼。此時,不僅是操作行為、用戶表達出來的想法和原因、以及語言中透露出的疑惑、失望、不滿、
驚訝、猶豫等情緒同樣是需要我們加以關注的。但是,有些用戶比較內向,不善於主動表達自己的想法,此時就需要主試跟
他進行簡單的交流,以引導用戶說出背後的原因(注:不是引導用戶說出你期望得到答案)。
所以,在實際的可用性測試,基本應該以關注用戶的行為為主,少量、適時地進行詢問交流也是需要的。但這個度如何把握
呢?
1.當用戶出現猶豫、驚訝、任務失敗(過程節點上出現自然而然地稍微中斷/暫停)的時候才進行簡單的詢問。
2.詢問採用一般疑問句的句式,重複用戶剛才的行為表現(要具體客觀):“你剛才沒有……,是嗎?”——雖然沒有直接問
“為什麼”,但暗示了希望聽到他進一步的解釋。
3.如果用戶沒有自己主動說出原因,可以“順便”問一下“為什麼?”或通過身體前傾、目光注視等非語言方式來暗示使用
者你希望能聽到更多內容。若用戶很快、堅定地說出原因,則該理由的可信度較高;如果用戶猶豫、或難以說出原因,就不
要繼續追問。
除了上述的語言、情緒、行為都需要得到關注,還有一種特殊情況是需要聽懂使用者“沒有說的”語言。例如,我們預計網
站的某二級導航標籤和一級導航標籤存在分類邏輯上的不合理;但使用者在測試中,導航相關的操作步驟進行得很流暢,用
- 12. 啊?”)聯繫起來,可以判斷使用者的心理模型和產品的系統表像不一致。用戶希望能同時對照著開獎號碼和自己買的號碼
很方便地核對,而網站卻割裂兩部分放在不同的頁面,因此需要將這 2 個使用者碰到的問題當作真正的可用性問題來對待。
六.研究方法:定性 VS 定量
可用性測試,很多時候被認為是一種定性研究方法;但也有人說它是一種定量研究方法。究竟是怎麼回事呢?
個人認為,可用性測試實質上結合了定性和定量兩種方法的特點,到底哪種成分更多,要看你的使用目的以及細節上如何操
作。
定量研究的思路是基於對一定數量樣本的測量,以將研究所得的結論推廣至總體。除了強調樣本的代表性,還對樣本的數量
有具體的要求,同時會考慮抽樣誤差、置信度、置信區間的度量。並且定量研究過程中非常注重對某些引數操控、及無關變
數的控制。
而定性研究重視對主觀意義的理解(如背後隱藏的原因),採用解釋建構的方法,比如訪談法等。
平時工作中以“形成式可用性”測試為主,即便它稍微偏向於定性研究,但在允許的範圍內,我個人還是盡可能地遵循著定
量研究的方法去實施。這樣整個測試過程的嚴謹性能得到保證,結論的客觀程度相對更高(近幾個世紀來,量化研究一直是
科學研究的主要範式,也正是這個原因)。具體做法如下:
1.在任務的設置上:因為參與者可能存在差別較大的亞群體,不可能要求完成完全相同的任務。但必定會設置大部分基本的、
都需要完成的公共任務,再針對不同亞群體設置少量的特殊任務。在後期統計分析的時候,基本的公共任務則可以進行數量
化的統計,並橫向比較。
2.在測試過程中:關注參與者完成任務時的相關行為,用數位來記錄(以 0、0.5、1 分別表示失敗、幫助/提示下成功、成功)。
主試儘量少地言語及體態姿勢的干擾,只在必要時進行適當地言語交流。
3.在報告呈現:對任務完成情況(效率、完成率)統計呈現,對不同任務的完成情況進行比較,對亞群體間的任務完成情況
進行比較,對所有可用性問題按數量化指標進行排序等。或者比較反覆運算前後獨特問題的頻次是否減少,以及嚴重程度高
的等級裡面可用性問題數量的變化情況。
4.測試過後,我們通常還會收集使用者自我報告式的資料,作為“感知可用性”的一個總體反映。
(1)推薦使用系統可用性量表(SUS),因為有研究表明 SUS 在少量樣本時即可產生較為一致的評分結果。
(2)為減少用戶在填寫這些量表時的反應心向,不要求填寫任何個人資訊,且主試最好暫時回避。
(3)只統計分析所有參與者 SUS 量表總分的平均值,切勿再拆分比較亞群體之間的差異,因為即便信效度再高的量表,當
樣本量極小時都會變得很不靠譜!