智力测量

智力测量

北京师范大学心理学院北京师范大学心理学院

赵守盈赵守盈

北京师范大学心理学院北京师范大学心理学院

赵守盈赵守盈

主要内容 History of intelligence test What is intelligence? Theories of Intelligence Intelligence Tests Te Performance and Culture-Fair Tests st Administration Positive Aspects of Individual Testing What Determines Intelligence?

(Nature vs. Nurture) The Flynn Effect Gender Differences in Intelligence Extremes of Intelligence Levels of Mental Retardation

History of intelligence test Jean Esquirol (1838)

Distinguished between mental incapacity and mental illness Idiot – those mentally retarded from birthMentally-deranged persons – lost abilities

previously possessed Worked to develop measures that distinguish

ed between the two

History of intelligence test cont. Psychometrics

Galton regression to mean, correlationknowledge gained through senses -- those

with highest IQs have best sensory discrimination?

*First to propose individuals posses both general intellectual ability and specific abilities

History of intelligence test cont. Pearson

Correlation J.M. Cattell

Studied with Wundt and Galton US researcher First to use “mental test” Developed one of first tests for individual diff

erences

History of intelligence test cont. Ebbinghaus

Memory Developed test for teachers Start of clinical diagnostics

History of intelligence test cont. Binet and Simon

Among first to develop test used on a wide-scale basis for diagnostic purposes

Commissioned by French government to test kids for mental retardation

Among first to include cognition in addition to sensory processes

Binet-Simon Scale (1905) Some related subtests still on SB-IV Aged-based Measured degree of MR Saw intelligence as a collection of abilities

(like Thurstone and Cattell)

Stanford-Binet Terman – added subtests, modified, and re-

normed Binet’s test; published as the Stanford revision and extension of the Binet-Simon scale

First wide-scale intelligence test used in US

Used mental quotient (MA/CA) – renamed it “intelligence quotient”

Stanford-Binet cont.

Stanford-Binet L/M (deviation IQ; items/subtests still age-based)

1986 Stanford-Binet IV (point-scale) Quasi-based upon Cattell and Horn the

ory

Wechsler “Borrowed” 11 subtests from various intell

igence tests and put them into one test – Wechsler-Bellevue Intelligence Scale

Interested in general mental ability (g), rather than “primary mental abilities”, following work of Spearman

used multiple subtests to try and get at general ability level

History Concluded Spearman

Developed factor analysis methods allowing for comparison of the two rival theories (global intellect vs. specific, independent abilities)

Present Disagreement about definition of

“intelligence” continues Difficult to measure intelligence

Can’t directly measure it Must rely on behavioral measures and infer

Present cont. Most agree intelligence refers to abstract

reasoning, problem solving ability, capacity to acquire knowledge, learning/memory, and adaptation to one’s environment

Math knowledge, mental speed, linguistic competence, and general knowledge also ranked as important

What is intelligence? Lay people

reasons logically reads widely displays common sense has a high comprehension

What is intelligence cont.? intelligence: A general term referring to the

ability to learn and develop adaptive behaviors.

intelligence tests: Tests designed to measure a person’s general mental abilities.

What is intelligence cont. ? Most important aspects of intelligence Lay people Psychologists

practical problem-solving ability verbal ability verbal ability problem-solving ability social competence practical

intelligence

What is intelligence cont.? DEFINITIONS:

. Biological definitions intelligence is an ability to adapt to the environment

and how you behave

2. Psychological definitions psychometric approach - something we can measure

and you can have a little or a lot of

3. Operational definition intelligence is what intelligence tests measure (Borin

g, 1923)

Psychological definitions Binet (1905) to judge well, to comprehend well,

to reason well Terman (1921) to carry out abstract thinking Burt (1955) innate, general cognitive ability Wechsler (1944, 1958) the global capacity to act

purposefully, think rationally and to deal effectively with the environment

Psychological definitions cont. Heim (1970) Intelligent activity consists of

grasping the essentials in a situation and responding appropriately to them

Vernon (1969) The effective, all-round cognitive abilities to comprehend, to grasp relations

and reason.

Operational Definition Since there’s not a set theoretical definition, must derive

operational definition of intelligence: A general term referring to the ability to learn and develop adaptive behaviors.

intelligence tests: Tests designed to measure a person’s general mental abilities. for research and clinical purposes

Most common one used is a composite IQ score of some type

Common-sense approach -- Intelligence is what intelligence tests measure

补充：智力的有关定义什么是操作定义？

在心理学上，对一个心理现象根据测定它们的程序下的定义叫做操作定义。操作定义的两个缺陷

逻辑上陷入循环论证。阻碍了对智力的进一步理解，现在的每一个新智力测验在进行检验时，都

把自己与旧的测验求相关，相关高证明了可靠性高。这样实际上限制了我们对智力的进一步理解，使得新测验并不优于现在的测验。

智力的定义对智力的看法是编制智力测验的理论前提。在 19 世纪后半叶，智力一词最早是由哲

学家塞 (H. Spencer) 和生物学家高尔顿 (Galton) 将拉丁词 intelligence 引入巩的，其意义是代表一种天生的特点及倾向性。此后，智力一词随着心理测验的发展而逐渐

普及。

智力的有关定义 (cont.) 对智力的看法，比较有代表性的有以下几类观点：

智力是学习的能力 Humphreys (1971) 智力是本质上能体现智能的，任何时候都可以运用的，

个体所有的习得技能、知识、学习方法和概括倾向。 Terman (1916) 智力是形成概念，并且抓住其重要性的能力。

智力是适应环境的能力 Piaget(1972) 智力是总括性的术语，指用来适应物理和社会环境的认知结

构的组织和平衡的高级形式。 Sternberg (1985, 1986) 智力是指自动信息加工和产生适合的情况的行为的

心理能量，它包括元成分，操作成分和知识获得成分。 Pintner (1921) 智力是个体在重用中适应较新情境的能力。

智力是抽象思维的能力 Binet & Simon (1905) 智力是正确地进行理解、判断和推理的能力。 Wechsler (1939) 智力是个体有目的地行动，理发地思考以及有效地应付环

境的能力。

智力的有关定义 (cont.) 智力是信息加工的能力

Sternberg (1985, 1986) 智力是指自动信息加工和产生适合的情况的行为的心理能量，它包括元成分，操作成分和知识获得成分。

Eysenck (1986) 智力是将信息无错地传递到皮层的能力。智力是综合理解

持这种观点的人认为，以上对智力的几种看法并不矛盾，只是反映了智力的多层次和多面性，因此，出现了关于智力综合定义。美国心理学家韦克斯勒采用综合的观点，认为智力是一个人的心理能力的总和，些项能量能够使个人有目的地行动，使个人的思想有条理，并且能够对自身的环境作有效的适应。斯腾伯格也认为：“智力是从经验中学习和获益的能力，抽象思维和推理的能力，适应不断变化、模糊多样的世界的能力，以及激励自己有效地完成应该完成的任务的能力。”

智力的有关定义 (cont.) 外行的智力概念：

Sternberg等 (1981) 进行了一系列调查美国成人智力概念的研究。发现：外行和专家对各种行为重要性的评价虽然并不完全一致，但极为相似。按照重要性顺序排列，专家认为证词能力、问题解决能力和实际智能最重要，而外行则认为实际问题解决能力、语词能力和社会能；和最重要。虽然顺序有所不同，专家与外行都强调了语词能力和问题解决能力，而这正是大多数智力测验所测量的。在现代的智力测量中，这也是非常重要的。

外行与专家不一致的地方还有，专家认为实际智能 ( 把握情况，决定如何达到目标，对世界的理解和兴趣 ) 是智力的基本成分，外行则把社会能力 (接受他人，承认错误，准时，对世界的兴趣 ) 作为第三个基本成分。现代的智力测验对两者都没有测量，一方面是因为测量这方面的项目不易设计，另一方面是因为测验编制者们盲目地接受传统的智力定义和测量形式。直到今天，智力测验的形式与 Binet 时代，与第一次世界大战时的 a 、 B 测验仍很相似。也有一些心理学家在试图改变这一现状，如 Sternberg 提出的多维能力测验，Cornelius & Caspi (1987) 的日常问题解决测验 (Everyday Problem Solving Inventory) ，在此测验中，被试要回答他们对各种日常问题 (如没有带钱请人吃饭等 ) 的典型反应。

Theories of Intelligence Golton and RT-MT Charles Spearman’s genreal intelligence “g” L. L. Thurstone’s Seven Mental Abilities Raymond B. Cattell's Two-Factor Theory Robert Sternberg’s Triarchic Theory Howard Gardner’s Theory of Multiple Intelligence

s Jean Piaget’s cognitive development theory J. P. Guilford intelligence structure model

Golton and RT-MT FRANCIS GALTON (1883)

intelligence is based on sensory keenness F. Galton 与他的学生 J. M. Cattell 认为智力依赖于敏锐的感觉能力。其理论前提是，所有引起我们注意的信息都要经过感觉，感觉越敏锐，我们的判断和智力作用的范围就越大。这一理论现在已经被抛弃，但在某些对智力的时间测量上仍可以看到这一理论的痕迹。 Jense (1980) 在瓜时 - 运动时 (RT-MT) 仪器上对智力进行了研究。研究发现， RT 、 MT 与传统智力测验分数的相关高达 0.5 。这就显示 RT-MT 测量可以用来作为标准智力测验的有用的补充。

Charles Spearman’s genreal intelligence “g”

One of first theories Based upon factor analysis of group IQ tests

– why are so many tests intercorrelated? Two components contributing to performance

on every subtest –g (general intelligence factor) specific ability

Spearman’s Two-factor Theory

“g” factor (general intelligence): Spearman stressed a general mental energy that can be channeled in various directions. Intelligent people can perform well in many areas.

s factors (specific intelligence): reflect specific knowledge and abilities that are only used when performing specific tasks that have been learned.

Spearman’s Two-factor Theory Spearman’s Psychometric Approach and the “g”

Factor• Charles Spearman developed the psychometric

approach to intelligence• He attempted to measure individual differences in behaviors

and abilities.

• He measured how well a variety of people performed on a diverse selection of tasks and found that level of performance on one task was correlated positively with level of performance on all of the others.

According to Spearman (1904), all intelligent

abilities have an area of overlap, which he

called g (for “general”). Each ability

also depends partly on an s

(for “specific”)

factor

According to Spearman (1904), all intelligent

abilities have an area of overlap, which he

called g (for “general”). Each ability

also depends partly on an s

(for “specific”)

factor

图

Spearman’s Psychometric Approach and the “g” Factor

It is thought that the specific abilities depend more on practice than any innate talents.

Researchers have found evidence for genetic influences on “g” but not on “s” abilities.

Spearman referred to his theory as “monarchic” because the dominant ability of “g” rules over all of the others, the lesser “s” abilities.

Spearman’s Two-factor Theory

他认为 G 因子是整个大脑皮层共有的能力或能量，而 S 因子只是代表子大脑中某些神经元的生理功能。他推测某些测验主要负荷 G 因子，而另一些测验 ---主要是纯感觉测验 ---主要代表特殊因子。如果两个测验都主要负荷 G 因子，测验应有很高的相关，相反，两个测验特殊因子之间的相关应很低。

C. Spearman 认为个体在 g 因子上的差异最直接地反映在这三个认知原则的使用上 (1)掌握经验 (2) 引出联系 (3) 引出相关。

这一理论所面临的最困难的问题是群因素 (group factor) 的存在。早在 1906年 Spearman 就已经注意到，相对不相似的测验的相关可能比通过它们各自的 g 因子预测的值高。这一发现说明，不同的测量之间除了 g 因子外，还可能存在其他共同的因素。例如，几个测验可能共有一个记忆因子，它处于 g 因子与各种测量猢的S 因子之间。这样，群因素的存在就与双因子理论产生了冲突。

Thurstone’s Seven Primary Mental Abilities

In contrast, L. L. Thurstone said primary mental abilities are “independent” of each other. A person could excel in one area and be very average in others.

Thurstone’s seven primary mental abilities: spatial visualizations verbal meaning word fluency number facility memory reasoning perceptual speed


Mental abilities are discrete and independent of each other

Intelligence is not a unitary trait (no g) 7 primary abilities based upon special

factor analysis technique Initially, 7 discrete primary abilities Then became 8 (“Reasoning” separated into

inductive and deductive reasoning)


Verbal – knowledge of acquired information Verbal Fluency – expressiveness, use of language Reasoning – inductive/deductive Visualization – visual-spatial perception, visual

motor skills Perceptual Speed – basic processing speed Number – math skill/numerical reasoning Rote Memory/STM Later – acknowledged presence of a g factor


Thurstone 1941 年曾根据上述七种基本能力编制了著名的基本心理能力测验。

后来 Thurstone 也承认 g 因子作为更高层次因子的存在，而 Spearman 也接受了群因子代表特殊能力的观点，但他们继续强调各自的因子对智力更具决定性作用。

R.B. Cattell and Horn Late 60s Based upon factor analysis SB-IV incorporated this model Two types of intelligence – Crystallized vs.

Fluid abilities

Raymond B. Cattell's Two-Factor Theory

fluid intelligence: General mental energy (like “g”). like a fluid, it “shapes” itself to the task (e.g., math, music, chemistry).

crystallized intelligence: Knowledge that is “learned” or accumulated over a lifetime.

Crystallized intelligence is more stable across the lifespan whereas fluid intelligence begins a slow decline in middle adulthood.

R.B. Cattell and Horn cont. Crystallized Intelligence

Acquired via education, culture, environment How well can person apply learned rules to

various situations to solve problems? Improves after brain maturation (0-18+ years) Slow to decline with age Ex: Vocabulary, Information

R.B. Cattell and Horn cont. Fluid Intelligence

Related to real-world experiences and more innate abilities

Nonverbal, less culturally-biased Exhibited through common sense, reasoning,

adaptive, and new learning abilities Takes into account processing speed and WM

R.B. Cattell and Horn cont. Need adequate fluid intelligence to acquire

crystallized abilities Others state many tasks would fit both

categories (A, S) Is criticism of theory (having two be separate

and distinct)

Horn Continued to argue there’s no solitary g 80’s -- Intelligence is comprised of

multiple distinct functions that may have different genetic underpinnings and developmental courses (fluid vs. crystallized)

1998 -- 9 “composite” abilities

Horn cont. *Fluid Reasoning *Crystallized Ability Long-term retrieval *STM *Processing Speed Decision Speed Auditory Processing *Visual Processing *Quantitative Knowledge

Robert Sternberg’s Triarchic Theory

ExperientialExperiential

ComponentialComponential ContextualContextual

We all share these three types of intelligence but excel in one or two areas

We all share these three types of intelligence but excel in one or two areas

Robert Sternberg’s Triarchic Theory

Robert Sternberg’s Triarchic Theory cont.

Intelligence comprised of information processing components

Three dimensions: componential, experiential, contextual


componential: Ability to acquire new knowledge and solve problems effectively (intelligence as we think of it).

experiential: The ability to adapt creatively in new situations (ability to meet new challenges).

contextual: Ability to select “contexts” in which you can excel (e.g., being able to make the right career choice).


Componential: three components Metacomponents – planning, monitoring, eva

luating Performance components – strategies used to

execute a task Knowledge acquisition components – process

es used in learning new things

Sternberg’s Triarchic Theory cont.

Experiential – relates intelligence to both internal and external worlds Point where intelligence is most involved in a perso

n’s ability to cope with tasks or situations Deals with novelty and automaticity Why get group differences on same performance-bas

ed task; task unlikely to be equivalent for both groups as degree of novelty and automatization different for two groups


Contextual Relates intelligence to external world Emphasizes adaptation to, selection of, and

shaping of the environment to enable success

Howard Gardner’s Theory of Multiple Intelligences

Multiple intelligences with no overarching g Ex: linguistic, musical, logical-mathematical, spat

ial, bodily-kinesthetic, intrapersonal, interpersonal, naturalistic

Thought and action based on these intelligences Combinations of these are involved in behavior No standardized IQ test – Assess through hours o

f observation and age-appropriate tasks

Howard Gardner’s Theory of Multiple Intelligences cont.

logical-mathematical - Newton, Einstein linguistic - Whitman, Shakespeare spatial - Picasso, DaVinci, F. L. Wright musical - Mozart, Gershwin, Eric Clapton body-kinesthetic - M. Jackson, M. Jordan interpersonal - Ghandi,Carter, Nixon intrapersonal - to know oneself


mathematical: logical-Ability to handle chains of reasoning, numerical relations, and hierarchical relations.

linguistic: Sensitivity to the meaning and order of words, as well as the functions of language.

spatial: Ability to perceive the world accurately and to transform and recreate perceptions.

musical: Sensitivity to pitch, tone, timbre, and musical patterns.


body-kinesthetic: Ability to use one’s body or to work with objects in highly differentiated and skillful ways.

interpersonal: Ability to notice and make distinctions among the moods, temperaments, motivations, and intentions of others.

intrapersonal: Ability to understand one’s own feelings and use them to guide behavior.

Jean Piaget’s cognitive development theory

Jean Piaget(1896-1980) 在对儿童访谈和非正式测验的基础上，提出了智力发展观。这一观点包括以下三个方面：儿童思维与成人的思维存在质的差别

他通过对守恒 (conservation) 的研究，发现儿童对世界的概念与成人完全不同认知发展可以分为四个阶段

感觉运动阶段 (0-2 岁 ) 儿童练习各种简单反向，协调各种感觉。前运算阶段 (2-7 岁 ) 这是一个具体的，自我中心的阶段，儿童掌握语言和其

他符号。具体运算阶段 (7-11 岁 ) 这一阶段儿童在典型地发展守恒，并表现出有限的推

理能力。形式运算阶段 (12-15 岁 ) 能运用逻辑和言语推理进行更高水平和更抽象有运

算。※ 这四个阶段组成一个发展过程，逐一渡过每一阶段，并且每一阶段都对应一

定的年龄。这一发展过程大约在 15 岁完成，这与 Cattell 流体智力的极限年龄有某种相似之处。可能是由于认知能力与智力都是跨文化的，人类普遍具有的。

图式是知识获得的基础

Jean Piaget’s cognitive development theory

为了解释儿童如何获得新知识， Piaget 从数学中借用了图式 (schema) 概念。图式是指经过组织的行为模式或者定义明确的心理结构。根据 Piaget 的观点，儿童是通过与环境的交互作用来达到适应 (adaptation) 的。这个过程由同化 (assimilation) 和顺应 (accommodation) 组成。同化是指将新的经验整合到原有的图式中去，而顺应则是调节不成功的图式使之符合实际情况。随着同化、顺应的进行，儿童的图式越来越复杂，他也就越来越能适应环境。

※ 在 Piaget 理论基础止有人编制了测量儿童认知发展阶段和儿童心理过程的测验。如皮亚杰任务成套测验 (Piaget Task Kit) ；成套守恒概念评估 (Concept Assessment Kit Conservation) 等。

J. P. Guilford intelligence structure model

J. P. Guilford(1967,1985) 研究了 Thurstone 提出的群因素理论。发现可以区分的心理能力远远超出 Thurstone 所说的七种。他于 1967年提出了一个智力结构模型。这一模型为三维立方体，每一维代表一个变量。自变量代表思维的内容 (content), 可以分为视觉和听觉、符号 (字母、

单字、数字等 ) 、语意 (词、句的意义及概念 ) 以及行为 ( 本人行为和他人行为的解释，即社会性智力 )等四大类。

中间变量代表思维的操作 (operation) , 可以分成认知 ( 理解或认知能力 ) 、记忆 (保持信息能力 ) 、发散思维 ( 以不同方法求解，即创造力 ) ，聚敛思维 (依据零散信息得出有效或合理结论的能力，推理能力 ) 和评价 (判断及批评能力 )共五种。

因变量代表思维的产物 (products) ，可以区分为单元 ( 单一特殊组合，如一个单字，数字 ) 、类别 ( 一类有关联的单元，如名词，植物 ) 、关系 ( 单元之间的关系、如相似或差别等 ) 、系统 ( 有组织的体系或计划 ) 、转换 (涉及某种信息的改变 ) 、含义 (信息所包含的意义 )共六种。

J. P. Guilford intelligence structure model

每个维度的任何一个项目都可以与其它维度的项目进行组合。如，思维内容中的符号项目与操作中的记忆、产物中的单元相结合，得到符号单元记忆 (memory for symbolic units) 。韦克斯勒测验中的数字广度测验就能测量这种符号单元记忆智力。这样， 4×5×6=120 ，即 Guilford 认为共有 120 种智力因素。并声称已经证实了其中的 100 种以上。

Daniel Goleman: Emotional Intelligence

Relatively new area of study understanding and managing one’s own

emotions is probably MORE vital to success than pure intellectual ability

Many highly successful people are not brilliant and many geniuses die in poverty

Understanding the emotions of others is also important. It allows us to predict how they will act in various situations

David Wechsler’s Contribution Wechsler noted that the Stanford-Binet was designe

d primarily for “children” Weshsler developed a test for adults (the WAIS) We

chsler Adult Intelligence Scale The WAIS yields an overall IQ plus two “area” IQs:

“verbal” and “performance” Like the Stanford-Binet, the WAIS overall IQ and ar

ea IQs have a mean of 100 and standard deviation of 15

Wechsler Extends His Work

Wechsler developed a test for (1) older children and adolescents (WISC) Wechsler Intelligence Scale for Children and (2) young children (WPPSI) Wechsler Preschool/Primary Scales of Intelligence

Because each test covers a narrow age range and is easier to use, the Wechsler scales have surpassed the Stanford-Binet as the most widely used IQ tests

Intelligence Tests 个体智力测验

The Weschler Scales WAIS (Weschler Adult Intelligence Scale) WISC (Weschler Intelligence Scale for Children) WPPSI (Weschler Preschool/Primary Scales of Intelligence)

The Binet-Simon Scale The Stanford Binet

Kaufman Assessment Battery for Children , K-ABC McCarthy Scales of Children’s Abilities , MSCA Differential Ability Scales, DAS

Intelligence Tests cont. 团体智力测验 Multidimentional Aptitude Batterry, MAB(多维

能力倾向成套测验 ) culture fair tests ( 文化公平智力测验 ) Raven Progressive Matrices, RPM (瑞文渐进测验 ) Cognitive Abilities Test, CogAT ( 认知能力测验 ) performance tests

个体智力测验 (Individual Testing) 传统的智力测验由于施测对象的不同可以分为

个体智力测验和团体智力测验两大主流。前者一般由一位主试对一位被试进行面对面的施测，后者可由一位主试同时对若干被试进行施测。

Positive Aspects of Individual Testing( 个体智力测验的优点 ) ： problems (lack of motivation) can be detected tests can be tailored for those with special needs tests are quite accurate and reliable

The Weschler Scales 韦克斯勒测验概述

1. 韦克斯勒测验的产生 2. 韦克斯勒测验的一般特点

韦克斯勒测验的分测验介绍 16 个韦克斯勒分测验

韦克斯勒智力量表 1. 韦克斯勒成人智力量表修订版 2. 韦克斯勒儿童智力测验修订版 3. 韦克斯勒学前和小学儿童智力测验修订版 4. 韦克斯勒智力量表的中国修订本

The Weschler Scales cont. 韦克斯勒测验概述　　　自从 D. Wechsler 在 30 年代提出一系列智力测验的方法以来，在整整 60

年中，没有任何其他智力测验可以与韦克斯勒智力测验相媲美。 1. 韦氏测验的产生

韦克斯勒是从 1932 年开始他的测验编制的，目的是测量他所在的纽约 Bellevue医院精神病人的智力。其量表内容大多是从 Binet 量表、军队 a. B 测验得到启发的。从 Yerkes（ 1921）《美国陆军心理测验》一书中摘录了大量测验项目。

第一个韦氏测验出版在 1938 年。由于韦氏认为当时的智力测验不能很好地测量成人的智力，因此韦氏测验就间为了解决当时测验中存在的一些问题（ 1）测验项目引不起成人的兴趣（ 2）过多的项目涉及语词的操作（ 3）指导语过分强调速度，牺牲了准确性（ 4）计算心理年龄不适合成人的测验要求。为此韦氏为成人设计了感兴趣的测验项目；增加了操作项目来平衡语词项目；降低对速度的强调；创造了一种新的计算 IQ 的方法。　将 IQ＝心理年龄 / 实际年龄　　改为：　　

The Weschler Scales cont.IQ　＝　测验者的实际测验分数 / 这一年龄测验者的平均测验分数这一公式是基于这样的假设：年龄变化， IQ 不变。 IQ稳定性假设

是韦氏量表的基本特点。韦氏还希望他的测验有助于精神疾病诊断。为了达到这一目的，他将量表分成言语、操作两大部分。这一区分使我们可以比较测验者使用语词和符号的能力（言语测验）和操作实物、感知视觉模式的能力（操作测验）。当言语能力这（ V）和操作能力（ P）的差异达到一定程度，就认为具有诊断意义。具体来说，韦克斯勒认器质性脑疾病、精神病和情绪障碍会出现的 V＞ P模式，而青少年心理疾病和轻度智力迟滞者会表现出明显的 P＞ V模式。尽管后来的研究发现这一简单规则有许多例外，这种言语能力和操作能力的区分还是很有用的。例如它可以帮助我们对脑和行为关系进行分析，研究年龄对智力的影响。韦克斯勒的这种区分测验却成了他对现代智力测验最持久的贡献。

The Wechsler tests

The Wechsler tests David Wechsler devised two IQ tests, one for childre

n up to age 16, and the other for adults. The Wechsler Intelligence Scale for Children (WI

SC-III) and the Wechsler Adult Intelligence Scale (WAIS-III) are individually administered to subjects.

These tests also have a designated average or mean IQ of 100, and use the same adaptive method of testing

Theories and Tests of Intelligence The Wechsler tests

The Wechsler test provides an overall score, a score in two major areas (Verbal and Non-verbal) and 6 individually scaled sub-scores in each of these two areas.

The profile of strengths and weaknesses produced by administration of the Wechsler test can be very useful in planning educational and other interventions with students.

The Weschler Scales cont.

韦氏智力测验的一般特点：从 1939 年到 1991 年， D. Wechsler及其同事一共编制和修订了 9

个智力测验： 1939 年韦克斯勒－贝利弗测验（Wechsler--Bellevue） 1946 年韦克斯勒－贝利弗测验Ⅱ (Wechsler—Bellevue )Ⅱ 1949 年韦克斯勒儿童智力量表（Wechsler Intelligence Scale for Childre

n, WISC） 1955 年韦克斯勒成人智力量表（ WechslerAdult Intelligence Scale, WAI

S ） 1967 年韦克斯勒学前和小学儿童智力量表（Wechsler Preschool and Pri

mary Scale of Intelligence, WPPSI） 1974 年韦克斯勒儿童智力量表修订版（WISC－ R） 1981 年韦克斯勒成人智力量表修订版（ WAIS－ R） 1989 年韦克斯勒学前和小学儿童智力量表修订版（ WPPSI － R） 1991 年韦克斯勒儿童智力量表第三版（ WISC－ Ⅲ）所有这 9 个量表组成了韦氏智力测验的家族。

The Weschler Scales cont. 各个韦氏测验都具有如下一些特点：

10 到 12 个分测验：多个分测验不仅能得到总 IQ ，而且可以分析个体智力上的强点和弱点。其剖面图很有用。

言语量表和操作量表各由 5 到 6 个分测验组成。根据这种区分，施测者可以单独评价言语理解和知觉组织能力。这种智力模式体现了脑功能的整合，而且，可以显示个体的职业能力倾向。

共同的 IQ计分系统：对所有测验和所有的年龄组， IQ 平均为 100 分，标准差为 15 分。而且在每个分测验上，平均分为 10 分标准差接近 3 分。这使得我们可以比较被试的分测验分数，了解共相对强弱。

不同年龄组有相同的分测验：如， WAIS－ R ， WISC－ R ，　WPPSI－ R　有相同的 8 个核心分测验。这不仅方便施测者，而且有助于测验之间的相互比较。

The Weschler Scales cont. 韦克斯勒测验的分测验

韦克斯勒根据自己对智力的定义，选择了不同分测验来代表各种能力以估计个体智力。主要的分测验有 16 个，但是，任何一个测验只使用其中的 10 到 12 种。

常识（ Infomation）常识分测验包括 33 个一般知识性知识问题，要求被试用几句话或几个数字回答，问题从易到难排列。一般从第五题开始施测，例如“谁发现了美洲？”

数字广度（ Digit Span）数字广度由两部分组成：顺背部分，倒背部分。都是呈现一系列随机组合的不断增大的数字。顺背数字从三位数开始，主试以每秒一位数字的速度大声读出，然后要求被试重复。相同位数的数字有两个，如果被试在某位数上两个数字均不能正确重复，或当复述完九位数时，顺被部分就结束了。该分测验能很快地测量记忆力和注意力，不会引起被试较强的情绪反应，也不大受文化教育程度的影响，简便易测。但其可靠性较低，受偶然因素较大，对智力的一般因素负荷不是很高。有些具有些具有特别数字能力的人（如天才白痴），智商不高但可以在数字广度分测验上得高分。

The Weschler Scales cont. 词汇（ vocabulary）　　这一分测验要求被试定义和解释通过视觉或听觉呈现的字词的一般意义。如“什么是杯子”，“什么是美丽”，项目从易到难排列。言语能力差的从第一是开始，一般从第五题开始。若连续六个词解释不出则不再继续进行。根据回答的正确程度分别记 0 、 1 、 2 、分。这是测量一般智力因子的最佳分测验，其可靠性较高。但它的计分困难。测验时间较长，受文化背景及教育程度影响较大。有人仅凭记忆也能得高分。

算术（ Arithmetic）　　算术分测验就是让被试做算术题，一般从第三题开始，若连续五道题失败则停止测验。如果第三和第四题失败则做第一、二题。被试必须心算。简单项目主要是加减法运算，如“ 15 个苹果，送走 7 个还乘几个？”，难一些的问题需要对问题进行分析并运用两种以上的算术运算。如“ John 买了一个录音机，原价 600 元，降价 15% ，他花了多小钱？”。这一分测验的优点是能够很快地测量被试运用数字的技巧，缺点是易受教育程度与性别的影响，易产生焦虑和紧张。

The Weschler Scales cont. 领悟（ Comprehension）　　这一分测验要求的是理解而不仅仅是事实知识。容易题主要测常识，而

难的题目需要了解社会、文化传统。简单的项目如“为什么人要穿衣服？”。难的题目如“为什么最高法院要设终身法官？”。这一分测验主要用来测量实际知识，社会适应能力和组织信息的能力。它能反映被试对于社会价值取向、风俗、伦理道德是否理解与适应，在临床上能够鉴别脑器质性障碍的病人。领悟分测验对智力的一般因素负荷较大，与常识分测验相比，受文化教育的影响较小些。在临床上有鉴别作用。但是计分标准的统一是困难所在。

相似性（ Similarities）　　相似性分测验是让个体区分物体、事实和观念的重要的相似性与不重要

的相似性。如“衬衫和袜子有什么相似的地方？”。被试连续五道题失败则停止测验。依照反应的正确程度计 0 、 1 、 2分。相似性分测验测量了个体的逻辑思维能力、抽象思维能力、分析能力和概括能力。简单易行，计分简便。在鉴别脑器质性损伤与精神分裂症方面有作用，前者得分偏低而后者相对不太低。被试能力正确理解指导语，对些分测验有影响。

The Weschler Scales cont. 填图（ Picture Completion）　　要求被试回答图像中缺少了什么重要成分。简单项目如图片上的桌子少

了一条腿。直到被试连续错五道题或做完为止。它主要测记忆、细节注意能力和视觉敏锐性，而不仅仅是知觉操作技巧。韦氏认为，人们在心理发展过程中对所接触的日常物品要形成　完整的印象，这对于人们适应外界环境来说十分重要。填图分测验能让被试感兴趣，能测量智力的一般因素，在临床上很有意义。具有病态观念的患者往往将自己的思想投身到测验中去。智力落后者的填图成绩很差。其缺点是受到个人经验，成长环境和性别的影响。

图片排列（ Picture Arrangement）　　测验中主试呈现一张图片，有意打乱图片的顺序，要求被试重新排列图片使之组成一个有意义的故事。这一分测验计时，每组图片按难度不同，计时也不同。根据正确率计 0 、 1 、 2分。虽然图片排列分测验包括在操作测验内，因素分析研究显示，在言语和操作能力上它的负荷是平均的。它能测量到被试的广泛的分析综合能力，观察因果关系的能力、社会计划性、预测和能力和幽默感等等。它能中等强度地反映出智力一般因素。被试对测验有兴趣，可用于各种文化背景的人。在临床上有投身测验的作用。但这一测验易受视觉敏锐和文化背景的影响。

积木图案积木图案（ Block Design）　　积木图案分测验主要呈现 10张红白相间的几何图案卡片，要求被试用 4 个或 9 个积木照样摆出来，积木共 9块，每块积木两面为白色，两面为红色，还有两面红白各半，前两个图案允许被试做二次，以后每个图案只能做一次。若连续失败 4 个图形，则停止测验。此分测验计时，并有速度加分。积木图案分测验主要测量视知觉、分析能力，空间定向能力和视觉－运动综合协调能力等。它与操作量表的总分和整个测验的总分相关很高，因此被认为是最好的操作测验。它的优点是较高，在临床上能帮助诊断知觉障碍，分心，老年衰退等症状，受文化影响较小，缺点是手指技巧有时可能会提高分数。

物体拼凑物体拼凑（ Object Assembly）　　在物体拼凑分测验中，主试将零散的拼板呈现给被试，要求他们拼出一个完整的人或物体图形。每套图形计分由被试拼对的数目决定。此分测验计时，并有速度加分。它用来测量被试的思维能力、注意力、持久力和视觉综合能力。物体拼凑分测验在韦氏测验中的是信度最低的，且施测时间长，受机遇因素影响，可靠性低。但是该测验能引起被试的兴趣，在临床上可以测出被试的知觉类型及其对尝试错误方法的依赖程度。

译码（ Coding）或数字符号（ Digit symbol）

这个分测验在 WISC-R 中称为译码，而在 WAIS－ R 中则称为数字符号。译码由两个没部分组成， 8 岁以下的被试做译码 A ， 8 岁以上者做译码 B 。在译码 A 上，儿童必须在一系列随机排列的几何图形内作正确的符号，几何图形有五种（星形、圆、三角形、十字形和正方形），每种形状有其特定的记号（分别为垂直线，二条水平线，一条水平线，圆和两条垂直线）。在简短的练习之后，就让儿童在 43 个随机排列的几何图形内作正确的记号。时间限制为两分钟，所以只有快速才能多得分。译码 B（ WISC－ R ）与数字符号（ WAIS－ R ）在形式上是相同的，只不过前者时限是两分钟，后者的时限是 1.5分钟。这个分测验测量的是注意力、简单感觉运动的力、建立新联系的能力和速度。它与性别、工种、性格和个人缺陷有关。文书工作人员得分，具有强迫观念和强迫行为者做也较快。伏笔　事认真人，一丝不苟者做得较慢；手运动残疾被试工作成绩可能较低；女性速度比男性一快。该测验并不能很好地测量智力的一般因素，但计分快，且不太受文化因素的影响。

迷津（Maze）迷津分测验只用于 WPPSI-R 和 WISC-R, 由纸笔迷津组成。测验时被试不能将笔从纸上提起，也应避免进入盲巷。如果儿童在一定时间内( 根据迷津难度不同，时间限制从 30秒到 150秒不等 ) 完成了整个迷津并且没有进入任何盲巷，则得满分，每进入一个盲巷减去一分。这津测量的是知觉 - 运动技术、运动速度、视觉计划和掏冲动的能力。这一分测验并不能很好地测量一般智力，但能较好地测知觉组织能力。在 WISC-R 中，迷津只是补充分测验，并不用于计算 IQ 。

句子 (Sentences) 句子分测验是 WPPSI-R 的补充测验。它要求儿童逐字重复主试大声读出的一个句子。从结构与目的上，句子分测验类似于数字广度分测验，但因为针对的是年幼的儿童，因此，设计得富有意义。每个项目使用大多数儿童能懂的词汇，但对 5 岁以下的獐来说仍然能在某种程度上反映出其言语理解能力，而对稍大一些的儿童，主要是注意和听觉短时记忆的测量，最简单的项目，例如“ John had a green car” ；而最难的项目要长得多，如“ This Friday wd will visit the farmer’s garden. Bring a quarter so you can buy a pumpkin.” 虽然句子分测验是一个补充测验，一般并不用计算 IQ ，但它的确能提供年幼儿童注意和记忆能力的信息。

几何图形 (Geormetric Design) 几何图形分测验由 10 个图案组成，每个

图形由一个圆、一个正方形和一个菱形组成，让儿童复写。这一分主要针对知觉和视觉运动组织能力。 Scattler(1988)警告不要对几何图形低分作过度解释，因为它的高分依赖于运动能力，这种能力是由成熟过程决定的，与认知发展无关。

动物房 (Animal pegs) 动物房分测验类似于译码分测验，但适合于儿

童的能力、兴趣。动物房要求儿童把某种的颜色的圆锥 (黑、白、黄、蓝 )放到合适的动物(分别为狗、小鸡、猫、鱼 ) 下面的洞里。 25个动物随机排列为 5×5 的方阵。这个分测验的得分是放一个圆锥在每个动物下面的时间，从总分减去错误。成功完成这一作业需要学习能力、手的灵活性，维持注意数分钟以把圆锥放到动物下面。

韦克斯勒智力量表韦氏成人智力量表修订版WAIS-R 韦氏儿童智力测验修订版 WISC-R 韦氏学前和小学儿童智力量表修订版（WPPSI-R）

韦氏智力量表的中国修订本 WAIS-RC

韦氏成人智力量表修订版WAIS-R

该量表共 11 个分测验，保留了 WAIS80% 的项目。施测交替使用言语和操作分测验，其中有 6 个言语量表(Verbal Scale): 常识、数字广度、词汇、算术、领悟、相似性； 5 个操作量表 (Performance Scale) ：填图、图片排列、积木图案、物体拼凑、数字符号。每个测验的项目均从易到难排列，完成全部测验的时间大约为 75分钟。被试在每个测验中的得分需转换成以 10为平均数， 3 为标准差的量表分数。所有 11 个分测验分数合并成全量表分数。并可以分别求得三个智力商数：言语智商 (VIQ) 、操作智商 (PIQ) 和总智商( 不 FIQ) 。

韦氏成人智力量表修订版WAIS-R WAIS-R总分可以通过只施测其中的一些分测

验来估计。如 Silverstein(1982) 认为只施测词汇、算术、图片排列昨积木图案就可以了。这一简式最早由 Doppelt(1956) 提出，因此又称为 Doppelt 简式。尽管简式不能替代 WAIS-R ，但有时这种简式可以用来对 IQ做粗略的估计。精神病院中通常都使用 Doppelt 简式，从而节省大量时间，而且可以决定病人是否存在智力问题。

韦氏成人智力量表修订版WAIS-R WAIS-R 的标准化经历了长达四年的时间。被试从 16 岁到 74 岁，分为 9 年年龄组，每个年龄组均按美国人口普查资料，在性别、地域、种族、教育水平和职业上分层取样。 WAIS-R的相当好，所有年龄组的分半信度和重油信度都在 0.90 以年。对 FIQ 来说 , 在 95% 的概率水平上，误差为 + 5分。其效度也很好，无论是与智力测验的相关还是与学业成绩的相关都符合要求。

韦氏儿童智力测验修订版 (WISC-R) WISC-R 适用于 6-16 岁儿童，其编制原理与特点类似于 WISC 。它由五个言语分测验 (常识、相似性、算术、词汇、领悟 ) 和五个操作分测验 (填图、图片排列、积木图案、物体拼凑、译码 ) 组成。此外还有 2 个补充分测验 ( 数字广度和迷津 ) ，当某个分测验由于特殊原因不能施测时，可以用它们进行补充。 WISC-R 的施测程序也是言语分测验与操作分测验交替进行，以维持儿童的兴趣，避免疲劳和厌倦。整个测验完成约需 1 个小时。分别计算 VIQ ， PIQ 和总智商 FIQ 。 WISC-R 的标准化是将 6.5 岁到 16.5 岁的儿童分成 11 个年龄组，每组取 100 名男孩和 100 名女孩，根据性别、种族、区域、家长职业、城市或乡村等因素分层抽样。标准化样本限于正常儿童。其信度与 WAISISC-R 一样，均在 0.90 以上。效度方面 WISC-R 与其它智力测验、成就测验相关很高。可是由于常模资料是在 70 年代早期惧的，有些过时了。 WISC- Ⅲ 在 1991年秋季的出版提供了一个更适于现代儿童的标准化测验。

韦克斯勒学前和小学儿童智力量表修订版WPPSI-R

WPPSI-R 与 WPPSI 极为相似，只是年龄范围从原来的 4到 6.5 岁儿童扩展到 3 到 7 岁。言语分测验有常识、领悟、算术、词汇、相似性；操作分测验有物体拼凑、几何图形、积木图案、迷津、填图。其他两个分测验 -----句子和动物房为补充测验。 WPPSI-R 的信度比WISC-R略低一些，但仍很高。在效度方面被认为具有同时效度与预测效度。由于发展障碍的早期发现十分重要，因此WPPSI-R把年龄范围扩展到 3 岁是很受欢迎的。并且 WPPSI-R 的常模 IQ最低为 41分，差不多是平均分数以下 3.9 个标准差。与适应行为量表一起， WPPSI-R 在从轻度到管理方式智力缺损的诊断中是基本工具。而在另一端，对高知商儿童的测量上 IQ常模可以满足大多数学校环境的要求。这使得WPPSI-R 将在学校心理学和早期发展专家中十分受欢迎。

韦克斯勒智力量表的中国修订本 WAIS-RC

1979 年，由龚耀先主持开始修订工作。到 1982 年出版了 WAIS-RC 。这次修订在测验内容上变化不大，主要是删改部分项目以及计分标准。比较大的变化是根据我国城乡差别较大的情况分别建立了城市和乡村两套常模。城市取样 2029 人，农村 992 人，根据长沙市郊人口悇取样。从测验手册报告的材料看，其重测信度达 0.90 以上，分半信度在 0.30 到 0.80 之间， 73% 在 0.50 以上。效度方面发现 IQ 与学习成绩有关。对 WAIS-RC 的批评主要集中在常模的代表性上。与此同时，我国林传鼎教授和龚耀先教授还分别修订了 WISC 和 WPPSI 。

Examples of the Types of Items on the Wechsler Intelligence Scale for Children (WISC–III)

斯坦福－比内智力量表斯坦福 -比内智力量表的发展斯坦福 -比内智力量表第四版

斯坦福 -比内智力量表的发展自 Binet(1905) 发表比内 -西蒙量表以来，有三种英文版修订本。

一是 H. Goddard修订本，此为最早引入美国的修订本；一是明尼苏达大学、 E. Coolman修订本；三是斯坦福大学 L. M. Terman 修订的斯坦福 -比内智力量表 (Stanford-Binet Intelligence Scale ，SB) 。 SB 量表至今已修订了四次，下面先回顾前三版的情况。 1916 年量表：该量表对比内量表作了许多修改，增加了近三分之

一的新题，修改了总分项目，改变了总分项目的年龄水平。首先彩了智商这一概念，即被试的智力水平由他的心理年龄与实际年龄的比值来表示。心理年龄由被试正确回答的项目数决定，年龄的单位是月。智商计算公式为： IQ=MA/CA×100

这一次标准化所抽样本仅有 1000 名儿童与 100 名成人，显然按照现代标准来看是很槽糕的标准化。

斯坦福 -比内智力量表的发展 cont. 1937 年量表：年龄范围从 1916 年量表的 3-13 岁扩展为 2-

18 岁，并且编制了测验复本，分别为 L 型和 M 型。 1937年量表的项目选择包括三个标准：每个项目所测的都是智力行为；通过某个年龄水平项目的大多数儿童，实际年龄与项目代表的年龄相符；通过某项目的应比没有通过该题儿童的平均智力年龄要显著地高。项目在 2-5 岁上按半岁间距为一个水平，在 6-14 岁上按 1 岁间距为一个水平，还有普通成人水平以及三级超常水平。

1937 年量表为分层抽样，从 1 岁半到 5 岁半，每半岁间隔取 100 名儿童；从 6 岁到 14 岁，每 1 岁取 200 名；15 到 18 岁，每隔 1 岁取 100 名。共取 11 个州 17 个地区数量相同的男孩和女孩。不过样本局限于白人，且信笺社会经济地位较高家庭的儿童。

斯坦福 -比内智力量表的发展 cont. 1960 年量表：由 1937 年量表的 L 型、 M 型

中挑选出最佳项目编制而成，适用测量 2 岁儿童到成人的智力。测验材料包括一盒标准玩具、两册图画卡片、一本测验手册和一个很分记录本。实施程序与 1917 年量表相似。正式引入了离差智商的概念。由于传统的比率智商很难保持年龄单位相等，而且对成人而言，实际年龄定为多少比较合适，一直急诊不休。因此 1960 年量表采用了离差智商，数为 100分，标准差为 16分。

斯坦福 -比内智力量表第四版 (1986)

斯坦福 -比内智力量表第四版 (SB ： FE) 的最大改变在于采用智力层次模型来划分和构建分测验。在前三版中，只能得到一个总体 IQ 。虽然对、错回答的模式可以进行分析，但并不能对整个量表的子成分进行量的分析。 SB ： FE 的出现克服了这一局限，我们可以得到 15 个分测验的分数，四个领域的分数和一个总分数 ( 不再称为智商 IQ) 。 SB ： FE 的智力模型 SB ： FE 的分测验 SB ： FE 的标准化 SB ： FE 的施测与计分

SB ： FE 的智力模型 SB ： FE 的编制者用一个三层次的认知能力结构模型作为编制量

表的框架。这一模型的最高层是一般智力 g 因子， Thurstone(1986) 将其定义为个体在组织解决问题策略时的认知和控制过程：第二层采用了改良过的 Cattell-Horn 智力观。分成晶体能力、流体能力，在此之外又增加了短时记忆能力。这里我们可以看出 SB ： FE比其他任何总体智力测验更为强调记忆。在晶体能力 (Cystallized abilities) 之下又分为言语推理 ( 包括词汇、领悟、找错、语词关系四个分测验 ) 和数理推理 ( 包括数量、数系列、建方程三个分测验 ) 。流体分析能力 (Fluid-analytic abilities)又称为抽象 /视觉推理(Abstract/Visual reasoning) ，包括模式分析、复制、矩阵、折纸和切纸四个分测验。短时记忆能力包括珠子记忆、数字记忆和物体记忆四个分测验。这一共 15 个分测验又可以产生四个领域分数：言语推理 (VR)分数，数量推理 (QR)分数、抽象 /视觉推理 (A/SR)分数，短时记忆分数。

SB ： FE 的智力模型 (图示 )

G 因素G 因素

晶体能力晶体能力流体能力流体能力

短时记忆能力短时记忆

能力言语推理能力言语推理

能力数量推理

能力数量推理

能力抽象 /视觉推理抽象 /视觉推理

珠子记忆、数字记忆、物体记忆、

珠子记忆、数字记忆、物体记忆、

词汇、领悟、找错、语词关系词汇、领悟、找

错、语词关系数量、数系列、建方程

数量、数系列、建方程

模式分析、复制、

矩阵、折纸和切纸

模式分析、复制、

矩阵、折纸和切纸

一共一共 1515 个分测验分为四个领域个分测验分为四个领域一共一共 1515 个分测验分为四个领域个分测验分为四个领域

SB ： FE 的分测验 SB ： FE 由 15 个分测验组成，但并非每个组都做所

有分测验。如语词关系和建方程对年幼儿童来说太难了，通常只施测于 8岁及以上者；而找错和复制分测验对年长被试来说过于容易，所以一般只用于 10岁以下的被试。有六个分测验是所有年龄组的被试都要完成的，它们是词汇领悟、数量、模式分析、珠子记忆和记忆。在 SB ： FE 中有九个分测验是基于 SB-Ⅲ改编而成的，相类似的题目归入分测验，这是 SB第一次使用分测验的形式。其余六个分测验是新编的，目的在于平衡 SB- Ⅲ对言语能力的过分强调。新的分测验很好地代表了数量、空间和短时记忆任务。

SB ： FE 的标准化 SB ： FE 产生了 2岁 0 个月到 23岁 11 个月的常模。由于 SB ： FE

适用于任何年龄被试，因此产生 24岁及以上年龄个体的常模仅是一个时间问题。

SB ： FE 的标准样本是 5013 个被试，年龄从 2岁 0 个月到 23岁 11个月。按照 1980年美国人口普查的数据，根据地区，社区大小、种族、年龄、性别五个因素按比例取样。社会阶层忚惧了，由于来自较高社会经济地位的儿童过多，为了高速样本就使每个这样的儿童只代表 0.28 人。从总体来看， SB ： FE 的样本有很好的代表性。

SB ： FE 的分测验信度是好的，内部一致性系数几乎所有的年龄组都在 0.80 和 0.90 以上，只有物体记忆分测验在 0.70 到 0.75之间，四个领域分数都在 0.95 以上，而总分数尤其高，在 0.95 到 0.99之间。对5岁、 8岁两组被试的 16周重油信度表明总分信度在 0.90 以上，而领域分数和分测验分数变异较大，因此施测者在解释分测验分数时不应过分。在效标关联效度方面， SB ： FE 与其他个体智力测验相关很高，但对 SB ： FE 的四个领域划分的效度证明方面却有不少争论。

SB ： FE 的施测与计分 SB ： FE 中，词汇分测验总是第一个分测验，它的功能是作为唤起测验 (rousing test) 。唤起测验是为了减少施测的项目娄，根据词汇分测验上从哪一个水平开始。施测其他分测验时，主试还需为每个分测验决定基准水平 (Basal level) 和最高水平 (ceiling level) 。基准水平就是在 SB ： FE 分测验中，低于此水平被试基本都能正确回答的项目水平。如果连续两个水平的四道题全答对了，则基准水平就确定了。有时施测者要从进入水平下降，直到找到蕨水平。而最高水平，就是在此以上，被试几乎都不能正确回答的项目水平。如果被试连续在三道题以上答错了，则最高水平就确定了。测验也就终止了。

在词汇、领悟、找错、复制和语词关系这五个分测验上，由于需要自由作答而不是选择题，计分方法有所不同。 SB ： FE 为这些分测验提供计分判断标准。由于 SB ： FE 的并没有提供评分者间信度，根据经验我们可以认为主试对计分标准的解释差异将是测量误差的来源一。

考夫曼儿童成套评估测验 (K-ABC) Kaufman Assessment Battery for Children, K-ABC 是智力和成就的综合测验。其支持者认为它比 SB 和韦氏测验更有助于心理教育计划。被公认为至今为止最具创新的智力测验 (1) 从相同样本得出智力和成就常模； (2) 包括了现代智力理论 ( 序列 -同时加工过程 )； (3) 项目选择上采用了令人感兴趣的、创新的测验项目。

K-ABC 以神经心理学和认知心理学研究为基础，由 A. S. Kaufman & N. L. Kaufman(1983) 编制的儿童智力测验。它以“个体问题解决和信息加工模式”定义智力，测量了 2岁 6 个月到 12岁5 个月儿童的同时心理加工和系列心理加工的问题解决能力，还包括了测量阅读和算术技能的成就测验。 K-ABC 能提供四个方面的分数 (1)系列加工 ( 由手部运动、数字记忆、词序有一个分测验组成 )； (2)同时加工 ( 由魔术窗、面孔识别、定形命名、三角拼板、矩阵类比、空间记忆和照片排列共七个分测验组成 )；(3) 综合心理加工 ( 包括 (1) 和 (2))； (4) 成就测验 ( 由词汇表达、人物面孔和地点、算术猜谜、阅读解码和阅读理解共六个分测验组成 ) 。

考夫曼儿童成套评估测验 (K-ABC) 16 个分测验共需 30 到 50 分钟时间。标准化样本为种族取样，包括异常儿童的代表性样本，全部根据 1980年美国人品普查资料。 K-ABC 分别提供不同种族、不同社会经济地位儿童的百分位常模。特别适于测量学前儿童、少数民族、异常儿童的心理能力。 K-ABC 在学前儿童中，内部一致性系数在 0.72 到 0.88之间；在学龄儿童中，系数在 0.71 到 0.85之间。而量表分及总分信度则更高。 K-ABC 的构思效度，聚合效度和预测效度较高。

麦卡锡儿童能力量表麦卡锡儿童能力量表 (MSCA)(MSCA)

McCarthy Scales of Children’s Abilities, MSCA 是由 D. McCarthy(1972) 编制的，适用于 2.5岁到 8.5岁的儿童。该量表可以评估儿童一个不同方面的功能 (1)言语：由图象记忆、语词知识、语词记忆、语词流利、反向类比一个分测验组成； (2) 知觉操作：由搭积木、图象重建、敲击顺序、左右知识、几何图形、画儿童、概念分类七个分测验组成； (3)数量：由数字问题、数字记忆、数数和分组三个分测验组成； (4)记忆：由图象记忆敲击顺序、语词记数字记四个分测验组成； (5) 运动：由腿协调、手协调、模仿动作、画几何图、画儿童五个分测验组成。这样， MSCA共有 18 个不同的分测验。

麦卡锡儿童能力量表麦卡锡儿童能力量表 (MSCA)(MSCA)

MSCA 的成绩表示为一般认知指数 (General Cognitive Index, GCI), GCI 为标准分数，平均数为 100 ，标准差为 15 。

MSCA 的标准化样本区 1032名儿童，从 2.5 到 5.5岁是每半岁取 100 人，从 5.5岁到 8.5岁是每一岁取 100人。根据 1980年美国人口普查的资料，在性别、种族、地区、父亲职业、城市 -农村各变量上分层取样。在信度方面， GCI很好，分半信度和重测信度都在 0.90 以上。而分测验则信度相对低得多，这就使测者注意不要过于强调分测验模式。效度方面， GCI 与主流智力测量相比，典型地低。其结构效度也存在疑问。

能力区分量表 (DAS) Differential Ability Scale (DAS), 是 Elliott(1990) 编制的新的个

体智力测验。 DAS 适用于 2岁 6 个月到 17岁 11 个月的儿童。由 17 个认知分测验和五个成就分测验 (基本数字技术、拼写、语词阅读 ) 。儿童的年龄和能力决定了施测的分测验，一般施测4 到 10 个分测验。

DAS 分成学龄前和学龄两套。学龄前施测命名词汇、语词理解、时期数字概念、图象相似性、模式构建、复制、搭积木、匹配、数字回忆、图象再认。学龄施测词汇定义、相似性、矩阵、序列和数量推理、模式构建、图形回忆、数字回忆、物体回忆、信息加工速度、基本数字技术、拼写、语词阅读。其中模式构建和数字回忆两个分测验是两套共有的。 DAS 的总分称为一般概念能力 (General Conceptual Abilities), 它在学龄前施测中基于前 7 个分测验，学龄则基于前六个分测验。具体讲，这些分测验在第一个未旋转的主因素上具有最高的花生。 DAS 也可计算不同的领域分数。对学龄前儿童领域分数包括言语能力和非言语能力，学龄儿童则包括言语能力、非言语推理能力、空间能力。

能力区分量表 (DAS)

Elliott (1990) 指出 DAS 的目标就是提供内容同质、高信度的分测验，使施测者可以得到可信的、可解释的认知能力剖面图。初步研究表明， DAS 分测验和领域的分数有很好的具体说明作用。因而， DAS 是一个极有应用前景的、对学习无能儿童学业、认知能力强弱进行分析的测量工具。

团体能力测验团体智力测验的产生与特点多维能力倾向成套测验文化公平智力测验瑞文渐进测验认知能力测验

团体智力测验的产生与特点团体智力测验的起源

团体智力测验的产生受到 19 世纪欧洲心理学家工作的影响。 Ebinghaus(1896) 提出了填空的方法。他的测验由几篇文章组成，文章中省去了一些词汇，学生的任务就是在固定时间内尽可能多地进行填空。这一测验可由教师施测整班学生，并用正确填空的数目来比较学生的智力。本世纪初 Binet 量表产生并迅速传入美国。当 Terman教授在斯坦福大学开设斯坦福—比内量表课时，他的一个学生 A. S. Otis 提出了将斯坦福 - 比内量表改成纸笔测验形式的设想。些后，在 R. M. Yerkes 领导下，美国心理学编制了第一个团体智力测验 ----陆军甲种测验 (Army a Test) 。此后又编制了适用于母语非英语的被试和文盲被试的陆军乙种测验 (Army B test) 。这两个测验在第一次世界大战中曾施测了近 200万美国新兵。同时，在学校系统内，教师们需要一种有效的方法来测验学生并为学生能力排队。而填空、开放式问题严重限制了评估的效率。因此团体测验在教育领域也迅速发展了。

团体智力测验的产生与特点团体测验与个体测验的差异

团体测验采用多项选择，而个体测验多采用开放式问题。多项选择测验形式的出现历史性地改变了测验的方式，使测验成为更加可靠的评估工具。

团体测验多采用客观的计算机计分，而个体测验一般为施测者计分。多项选择使计算机计分成为可能，这样就节省了大量时间。计算机计分不仅能降低错误及消除个体测验计分中的光环效应，而且研究者们可以通过计算机立即进行项目和库分析。计算机计分极大地促进了团体测验的发展。

团体测验为团体施测，个体测验为个体施测。在团体测验中，主试起念指导语和控制时间的作用，这就避免了个体施测时出现的人际交往干扰现象。团体施测时每个被试都按同样的顺序回答同样的问题，而在个体施测时，主试要决定被试的进入水平和终止水平。

团体测验多用于筛选，而个体测验多用于诊断及弥补工作。团体测验在军队中可以筛除心理缺陷者，在企业中可以筛选出适于某种工作的人，在学校中可以筛选学习困难儿童，从而帮助他们。而个体测验则用于精确诊断及为弥补、改良程序提供信息。

团体测验标准化样本极大，一般在几十万左右，而个体测验一般只用几千名精心挑选的被试。当然两者都要考虑样本代表性问题。

团体智力测验的产生与特点团体测验的优缺点

团体测验大大地节省时间，在某些比较研究中必须运用团体测验。

但团体测验同样存在着两个相互有联系的危险 (1)由于动机问题或不能看懂指导语，某些被试的成绩会大大低于实际水平； (2)某些被试会给出无效记分。现在并没有很好的解决这些问题的方法，它们是团体测验效率的代价。可是如果我们对在团体测验上得分极低者再运用个体测验，则可以大大降低出错的可能。

多维能力倾向成套测验 Multidimentional Aptitude Battery, (MA

B) 是 WAIS-R 的团体测验翻版，由 Jackson(1984) 编制。 MAB 适用于 16 到 74岁的人。 MAB 概述 MAB 的标准化

MAB 概述 MAB 采用了计算机计分的多项选择形式，并设计了与 WAIS-R

相似的分测验和因素，共有 10 个分测验，包括言语部分 ( 由常识、领悟、算术、相似性、词汇五个分测验组成 ) 和操作部分( 由数字符号、填图、空间、图象排列、物体排列五个分测验组成 ) 。 MAB 中没有数字广度分测验，原因是不可能运用纸笔测验的形式来进行类似测量，而且 WAIS-R 中，数字广空间分测验与总 IQ 相关最低。在 WAIS-R基础上， MAB 最大的改变就是由空间分测验取代了积木图。在空间分测验中，被试要进行图形的心理空间旋转，并从五个旋转图形选项中进行选择。一个正确答案，虽然只要求心理旋转，有些项目的难度确实很大。

MAB 的 10 个分测验内的项目都是自易而难排列。 MAB 不象WAIS-R ，它的所有分测验均有时间限制，鼓励被试猜测，猜错不扣分。测验者在每个分测验上均有 7 分钟时间。包括指导语在内。 MAB 的言语部分与操作部分各需 50 分钟。

MAB 只需一个受过简单训练的施测者，就能同时对百个被试同时测验。施测结果可以得到 10 个分测验得分，言语部分得分、操作部分得分和总 IQ 得分。 MAB 适用天 16 到 74岁的人。

MAB 的标准化 MAB 的标准化彩了将 WAIS-R 作为锚测验的策略，把 MAB 分数转换成 WAIS-R 分数。为了产生线性换算言和，同时向被试施测 WAIS-R 和 MAB 。结果得到两者相关在 VIQ 、 PIQ 、 FIQ 上分别为。 0.82 、 0.65 、 0.91 。

MAB 的内部一致性系数和重测信度都与 WAIS-R 类似。对 MAB 的因素分析有力地支持了其结构效度，因果分析在 g 因子之后产生了两个下次因子，明显地可以定义为言语能力和操作能力。所以可以独立运用 MAB 的言语部分和操作部分。 MAB 与 WAIS-R 相关超过了 WAIS-R 与 WAIS 的相关。

目前学者也提出了一些 MAB 可能存在的问题 (1) 项目及指导语的可读性； (2) 用年轻被试的数据作为年老被试分数换算的常模，但MAB 的所有测验都是速度和能力并测，因此年龄可能影响MAB 成绩。但现在对 MAB 正进行传统标准化，标准的样本为 2000 人。总的来看， MAB 在研究、职业咨询、人事选择方面均可作为理想的筛选工具。

文化公平智力测验 Culture Fair Intelligence Test (CFIT) 是一个非言语流体智力测量，最

早由 R. B. Cattell(1940) 发表在《教育心理学》期刊上，其目标是测量流体智力，避免文化因素的干扰，最早它称为 Culture Free Intelligence Test ，后来发现完全消除文化因素不可能，才改称文化公平测验。CFIT 经过数次修订，现在的形式是 1961年修订的结果。

CFIT 包括三个量表，量表 1 适用于 4 到 8岁的儿童和智力落后的成人；量表 2 适用于 8 到 14岁的儿童和中等智力的成人；量表 3 适用大学生、政府官员和其他高于平均智力水平的被试。量表 1 实际上是个体测验，只有量表 2 与量表 3才是完全的团体测验。每个量表包括两个独立的部分，各自由系列、分类、矩阵、条件四个分测验组成。 CFIT 是有较高速度要求的量表。量表 1需要 40 到 60 分钟，而量表 2和量表 3 只需要 25 到 30 分钟。

CFIT 的原始分数可以转换成常模化的 IQ 分，平均娄是 100 ，标准差是 16 。至于 CFIT 的信度和效度研究都支持了它是一个有用且有效的智力测验工具。但是由于它修订于 60年代，实在是过于老化因而需要重新修订。

瑞文渐进测验 (RPM) Raven Progressive Matrices (RPM) 是由 J. C. Raven

(1938) 编制的智力测验。既可以个别施测也可以团体施测。 RPM 最早是用来测量 Spearman 的 g 因子的。它采用了一种特殊的形式，来测量 Spearman 定义中提到的“相关的引出”。它要求被试根据隐藏在一系列抽象符号和图案中的规律，将某个图形放入合适的位置上， RPM 实际上是三个不同的测验。尽管它们在形式上相似，但之间存在着差别，不应该认为它们产生同样的结果。瑞文儿童彩色渐进测验瑞文标准渐进测验瑞文高级渐进测验

瑞文儿童彩色渐进测验这是针对 5 到 11岁儿童及智力落后成人

的 36 个项目测验，测验中引入彩色是为了让年幼儿童保持注意力。该测验分成三个系列。

瑞文标准渐进测验

适用于 6岁以上个体，尽管约大多数项目一般来说是针对成年人的。该测验由60 个项目，分成一个系列。

瑞文高级渐进测验

类似于瑞文儿童标准渐进测验，但项目难度更大，由第一套 12 个问题和第二套36 个问题组成。尤其适合于高智力成人。

瑞文渐进测验的评价 RPM 对存在听力、语言、躯体残疾的儿童或成从被磨工期价值，而且由于 RPM 不包括任何语言，它不太受文化因素的影响。 RPM 不限时间。样本为英国学校儿童，以百分位常模表示。 1986 年 RPM 发表了美国大样本常模，但在成人常模上仍存在局限。

我国由北京师范大学张厚粲教授主持，从 1985 年起对瑞文测验进行修订。根据 1982 年中国人国普查资料选取常模样本，共 30 个年龄组，每组 200 人左右。据报告其重测信度为 0.82左右，同时效度的证明显示RPM 与 WISC-RC 相关为 0.71 。

认知能力测验认知能力测验 (Cognitive Abilities Test, CogAT) 是在 Lorge-Tho

rndike 智力测验 ( 早期广泛使用的学校团体测验 )基础上发展而来的。它包括针对从幼儿园前 3年级儿童的初级型 (Primary Battery) 和针对从 3年级到 12年级儿童的多水平型 (Multilevel battery) 。 1986年最近一次修订的 CogAT 是现在广泛使用的最好的学校成套测验之一。

CogAT 多水平型可以分成三套试题： (1)言语：由语词分类、句子完成、语词类比组成； (2)数量：由数量关系、数系列、建方程组成； (3)非言语：由图形分类、图形类比、图形分析组成。这样一共有分测验。除了图形分析分测验彩是否回答之外，蓁均采用多项选择的形式。各分测验严格限制时间，从 7 到 12 分钟不等。每套测验可在一小时内完成。手册建议对年幼儿童连续三天每天做一套，而对年长儿童可以第一天做二套，第二天做剩下的一套。

认知能力测验 cont. CogAT 的言语和数量测验极类似于 SB ： FE 。原因是它们都是

Thorndike & Hagen 编制的。 CogAT 的原始分数可以转换成以年龄为常模的标准分，平均分为 100 ，标准差为 16 。也有按年龄组和年级水平的百分位等级和标准九分数。

CogAT 的标准化样本为 20万名学生，在 1980年美国人口普查资料基础上，根据地区、社区经济水平、学区招生人数三个变量进行分层抽样。种族组成也类似于人口普查比例。 CogAT 信度很高。在教育方面， CogAT 与成就测验相关在 0.70 和 0.80 以上。在预测学业成绩方面相关亦达到 0.30 到 0.60 。 CogAT 与SB ： FE 的相关为 0.65 到 0.75之间。因此， CogAT 是一个可信而有效的学校测验。

特殊群体的智力测验前面介绍的个体及团体智力测验都是适用于语言、听觉、视觉、运动和一般智力方面正常或接近正常的人。但对于年龄大小、躯体障碍、智力减退、语言障碍的人及少数民族等特殊群体就不太合适。从 50年代开始，随着对躯体和心理障碍病人的重视，针对特殊群体的智力测验开始发展起来。

特殊群体测验的类型特殊群体测验的类型

非阅读性测验或非运动性测验 (非阅读性测验主要用于能理解英语，但不能阅读和收发室的被试；非运动性测验主要针对大脑麻痹之类运动机能受损害的个体。只要求最低限度的运动反应。如被试只需把手放在所选的答案上就行。有些非阅读性测验 (尤其是那些使用词汇图象化形式的测验 ) 也可算是非运动性测验。 )

婴儿智力测验 (2岁半以上的儿童就可以运用标准智力测验如 SB ：FE 、 K-ABC 、 MSCA 进行测量，而从出生到 2岁半这段时间则需要有特殊的测验来测量婴儿的感觉运动和认知能力。这样的工具有利于早诊断、早治疗。 )

发展程序表和行为量表 (developmental schedule and behavior scale) 这实际上不能称为真正的测验。发展程序表是标准化了的，用来观察和评估婴儿和儿童行为发展的工具，一般包括儿童行为发展的主要内容。行为量表可以用来获得儿童或成人行为技巧的剖面图，这通常由成人填写。因此，从功能上来讲它们不过是结构化了的观察表，有助于各种训练计划的确立。

常用的特殊群体测验非语言测验

雷特尔国际操作量表古德依纳芙—哈里斯绘人测验赫斯基—内布拉斯加学习能力倾向

非阅读和非动作测验皮波迪图画词汇测验修订本可伦比亚心理成熟量表

婴儿智力量表葛赛尔发展程序表丹佛发展筛查测验贝雷婴儿发展量表新生儿行为评估量表

智力迟滞者的适应行为评定独立行为量表独立生活行为检查表

非语言测验非语言测验基本上不需要施测者与被试之间无论是局

面还是口头的语言交流。适合于对不会某种语言的人、有语言障碍的人、语言能力不强的人进行智力评估，也可以用来作为补充测验。雷特尔国际操作量表古德依纳芙—哈里斯绘人测验赫斯基—内布拉斯加学习能力倾向

雷特尔国际操作量表 Leiter International Performance Scale, (LIPS) 由 Leiter

于 1929 年设计。用来测量听力操作、言语障碍、双语或非本国语测验者的智力。 LIPS没有指导语，不要求言语反应，共有 54 个分量表。类似于 SB 量表，按年龄量表形式安排，基本任务是选择画有规格符号图形的林场并插到合适的位置上去。 LIPS没有时间限制，测量的是知觉组织和差别能力。是了近一次修订是在美国儿童、中学生、二战士兵中进行的。 LIPS 得到一个心理年龄，一个比率 IQ ，其平均数为 100 ，但标准差却随年龄的不同而变化。 LIPS 与 SB 、 WISC 、 WSIC-R均有较高相关，但在信度研究中结果却有冲突。

古德依纳芙—哈里斯绘人测验 Goodenough—Harris Drawing Test 是一个简短的非语言的智力测验。严格来讲此测验不符合非语言测验的条件，因为它要求施测者向被试解释指导语，当然指导语极为简短，只有一句话。该测验最早由明尼苏达大学 Goodenough 于 1926 年编制，现在使用的是 Harris 的修订本，于 1963 年发表，它综合了古氏以前的绘男人量表和绘女人量表及一个自我绘画的量表。被试绘出人形的计分是根据所绘体形，服饰的细节、身体各部分的比例以及其他特点来计分，并不考虑绘画的艺术水平。该测验共有 73 个可计分点，不限时间，一般约 10到 15分钟完成。该测验可以作为个体测验，也可以团体施测，一般用于 3 到 15 岁 11 个月儿童，但最好测 5 到 12 岁儿童。他们的常模分别用标准分数和百分等级表示。绘男人与绘女人的相关高达 0.91 到 0.98 ，因此它们可以作为人。该测验的标准休样本有 2975 人。Naglieri(1988) 提出了一个数量化计分系统，重新确定了常模，他的计分系统称为 DAP(The Draw A Person: A Quantitative Scoring System) ，标准化样本区 2622 人，从 5 岁到 17 岁。该测验常被用于测量语言障碍，少数民族或双语儿童的认知能力。

赫斯基 ---内布拉斯加学习能力倾向测验 Hiskey-Nebraska Test of Learning Aptitude, (H-NTLA) 是一个非语言量表，用于 3至 17岁的儿童。可以完全通过手势施测，不需要口头回答，但有言语指导语可以用于正常或轻度听力操作的儿童。 H-NTLA 由十二个分测验组成： (1)珠子模式， (2)颜色记忆 (3)确定图画 (4) 图画联想 (5) 折纸 (6) 视觉注意广度 (7) 积木模式 (8) 绘画完成 (9) 数字记忆 (10) 迷样积木 (11) 图画类比 (12) 空间推理。这些分测验的原始分数可以转换成闻差学习商 (Deviation Learning Quotient) ，平均娄为 100 ，标准差为 16 。 H-NTLA 在2 到 12年级被试中，与成就测，验相关达 0.47 ，与 WISC-R 操作IQ 相关达 0.85 。但由于 H-NTLA具有圈套的变异，因此，要避免在使用时犯误分类的错误，即当被试实际上是聪明时，把他们误归为天才，当被试是临界水平时把他们误归为迟滞，

H-NTLA标准化样本为 2岁 6 个月到 17岁 5 个月的儿童，包括 079 个聋儿， 1074 个正常听力儿童，但样本的代表性太不令人满意。 H-NTLA 对聋、言语或语言障碍、智力迟滞或双语儿童极为有用。

非阅读和非动作测验皮波迪图画词汇测验修订本 Peabody Picture Vocabulary Test-Revised,

(PPVT-R) 哥伦比亚心理成熟量表 Columbia Mental Maturity Scale, (CMMS)

皮波迪图画词汇测验修订本 Peabody Picture Vocabulary Test-Revised, (PPVT-R) 由 L. M. Dunn(195

9) 编制， 1981 年修订。由 175张图片组成。每张图片上有 4 个图形，分年龄水平按程度排列。施测者集资呈现图片，同时说一个词，要求被试指出图片上的哪一个图形最符合所说的词。 PPVT-R 适用于 2 岁半到成人。测验需时 10 到 20分钟。由于不需要语言反应，所以常用于言语障碍，大脑麻痹、阅读困难和智力落后的被试以及孤僻、注意不集中的儿童。它鋗 SB那样备有复本 (L 型和 M 型 ) ，常模以标准分数、百分、标准九分数和年龄当量表示。

PPVT-R 的儿童常模用了 4200 个 2 岁半到 18 岁的全国性儿童代表样本。根据 1970 年美国人口普查资料，以地区、父母职业、社区大小、种族团体上分层取样。成人常模用了 828 个被试，分成 19-24 、 25-29 、30-34 、 35-40共四个年龄组，根据性别、年龄、职业取样。 PPVT-R的分半信度年幼儿童较低，成人较高，从 0.67 到 0.88 不等。而效度研究证明它具有较好的内容效度、预测效度和效标关联效度。

哥伦比亚心理成熟量表 Columbia Mental Maturity Scale, (CMMS) 是由 B. B. Burgemeiste

r 等人编制的不限时间的推理能力测验。现在用的是 1972年修订的第三版。 CMMS 要求被试在一组图形和线条中挑选出不属于这类的图形。测验共 92 个项目，按 8 个相互重迭的水平排列，第 51题到第 65题是针对特殊被试施测的。 CMMS 适用于 3岁半到 9岁 11 个月的儿童，需时约 15 到 20 分钟。 CMMS标准化样本是2500 个儿童，常模以年龄差异分数和成熟指数表示，信度和同时效度较好。

CMMS 比较容易实施和计分，但也存在严重的局限性，尤其在测试年幼儿童时，常常导致随机猜测，而由于 CMMS 采用的是多重选择形式，因此使分数往往高于被试的真正心理能力，因此， CMMS 对年龄太小儿童不适宜。不过 CMMS 有助于对残疾人，尤其是具有感觉、运动和言语障碍的解决问题。事实上， CMMS 的最初目的就是测量大脑麻痹儿童的智能。

婴儿智力量表测量 2岁半以下儿童的智力是比较困难的，他们注意广度狭窄，极易产生疲劳和厌倦，对完成任务缺乏动机，所评估的往往不是稳定特征。婴儿测验并不能有效地预测今后的智力发展，与以后的智力测验得分相关很低，多在 0.50 以下。这种低相关的原因可能是两种测验测量的内容不同，婴儿测验基本上是感觉运动发展状况的测验，而以后的测验多强调言语和。但是，婴儿测验对智力迟滞和脑功能障碍的早期发现极为有用。下面是几种这一领域最著名的测验。葛赛尔发展程序表丹佛发展筛查测验贝雷婴儿发展量表新生儿行为评估量表

葛赛尔发展程序表 Gesell Developmental Schedules 是婴幼儿智力测量的创始人美国耶鲁大学的 A. Gesell 最早编制于 1925年的第一个婴儿智力量表。几乎所有婴儿测验都借用了此量表的项目。该量表为观察与评估婴儿的行为发展提供了标准化程序。测量包括五个领域： (1) 大运动 (2) 精细运动 (3) 语言发展 (4) 适应行为 (5) 个体 - 社会行为。大多数项目是观察性的，直接观察婴儿对玩具和标准情况的反应。主试参照不同年龄的行为标准作出评估。这种行为标准包括坐、走、跑、爬、说话，抓握物体、平衡。该量表适用于 4周到 5 岁的儿童，尽管最早是用于 4周到 36 个月的儿童。

葛赛尔测验多是在自然情况下对儿童进行观察，材料来自观察儿童对标准玩具和其他刺激物所作的反应，有时家长的信息也有用。虽然测验处于自然环境中，但受过训练的观察者的评分者信度高达 0.95 。

这一量表主要用于临床筛查和诊断， Gesell 本人从来不认为这是一个智力测验。尽管如此， Knobloch等 (1987) 为量表的领域分和总分计算提供了一个称这为发展商 (Developmental Quotient) 的公式：

DQ= 成熟年龄 / 实际年龄 ×100

丹佛发展筛查测验 Denver Developmental Screening Test (DDST) 是美国最

有名和研究最多的儿科筛查工具。主要用于筛查智力发展的大致范围。它评定了以下四个行为领域： (1) 个人 -社会行为 (2) 精细动作适应行为 (3) 语言 (4) 大运动

DDST 由 105 个项目组成，按发展顺序排列。不象其他筛查工具， DDST 并不提供一个发展商或分数，而是每个年龄的 23 到 30 个项目可以产生一个分数，根据分数可以确定正常、可疑、异常、不可测。一般地，建议 DDST在 3-6 个月、 9-12 个月、 18-24 个月以及其后每年测定一次，直至 5岁。

我国 1987年就开始了 DDST 中国版的工作，其中以“智能迟缓、智能测验科研协作组” ( 由北京儿童保健所负责 ) 的工作最为知名。标准样本包括了 6886名初生到 6岁的儿童，基本保留了 DDST 的原有项目。

贝雷婴儿发展量表 Bayley Scales of Infant Development 初版于 1933年，再版于 19

69年。其基础为柏克利发展研究的结果，前身是加州一岁婴儿智力量表 (California First Year Mental Scale) 。贝雷量表由三总分组成： (1) 智能量表：由 163 个项目组成，主要测量适应性行为、语言、探究活动； (2) 运动量表：由 81 个项目组成，主要测量大运动和精细运动； (3) 婴儿行为记录：这一部分极少使用。贝雷量表适用于已到 20 个月的儿童，一般需 45 分钟。 1969年的标准化样本为 1262名儿童，按照年龄、性别、种族、城市或乡村、家长教育水平等变量分层取样。贝雷量表的成绩以标准分数形式表示，计算出智能发展指数 (Mental Developmental Index) 和心理运动发展指数 (Psychomotor Developmental Index) 。平均数为 100 ，标准差为 16 。无论从编制技术还是从标准化过程来看，贝雷量表都被认为是最好的婴儿测验。

新生儿行为评估量 Neonatal Behavioral Assessment Scale (NB

AS), 由 T. B. Brazelton 于 1937 年编制 ,是迄今为止年龄最小的儿童发展量表。适用于出生 3天到 4周的新生儿。 NBAS 有 26 个行为项目和 20 个诱发反应，包括神经系统、行为、社会功能等测验。题目包括眼 -口协调、感觉刺激的习惯化、惊奇反应、放松、应激反应、运动成熟和拥抱等。其信度和效度均不是很高。

智力迟滞者的适应行为评定智力迟滞 (Mental Retardation, MR) 的评估是一件复杂的工作。

有许多专著专门讨论这一问题。最早用来评估适应行为的标准化测验是文兰德社会成熟量表 (Vi

neland Social Maturity Scale) 。它是 Doll 在 1935年编制成的。包括 117 个项，按年龄进行排列，结果可以用社会年龄来表示，有助于 MR诊断。如果用现代标准来看，这是一个简陋而粗糙的测验。几经修订后，现在用的是 Sparrow等 (1984)修订的文兰德适应行为量表 (Vineland Adaptive Behavior Scales) 。

从第一个文兰德测验问世以来，已经出版了上百个适应行为量表。这些量表在结构、目的、目标群体上都存在很大不同，但在总体上，我们可以把这些测验分成两类： (1)常模参照量表，主要用来诊断和分类； (2) 效标参照量表：主要用来帮助训练和恢复。独立行为量表 (常模参照量表 ) 独立生活行为检查表 ( 效标参照量表 )

独立行为量表 Scale of Independent Behavior (SIB), 由 Bruinink 等于 1984年

编制。是用于测量适应行为的多维量表。包括 14 个分测验，组成四个领域： (1) 运动技巧：由大运动和精细运动分测验组成；(2) 社会和沟通技巧：由社会交往、语言理解和语言表达分测验组成； (3) 个人生活技巧：由做饭和进食、盥洗、穿衣、个人自理、家务技巧分测验组成； (4) 社区生活技巧：由时间与准时、钱与价值、工作技巧、家 - 社区方位分测验组成。每个分测验 4至 18 个项目不等，每个项目从 0 分 (没有完成任务 ) 到 3 分 (很好完成任务 )计分。 SIB 可以得到分测验分、领域分及总分。常模分数包括年龄分数、百分等级、标准分数、标准九分数和常模曲线等。被试在家长、教师等帮助下完成测验。 SIB 的特点之一就是施测者只需很少的训练和经验。当然，如果要对结果进行分析，决定治疗和训练方案则需要专家。

独立行为量表 cont. SIB 的标准化做得很好。常模样本为 1800 人，从美

国各地 40 个社区中随机选出。根据 1980年美国人口普查资料，在社区大小、地区、种族、性别、社会经济地位等变量上分层取样，年龄从婴儿到 40岁以上成人。另一个样本是 1000 多个智力迟滞、学习困难、行为障碍和听力损伤的被试。 SIB 的信度，分测验为0.80左右，领域分数为 0.90左右，而总分达到 0.96以上。 SIB800 效度研究结果也很理想，尤其针对障碍者。 SIB或类似的测验是美国在对 MR 进行诊断和评估时个体智力测验之处的法定的补充测验。

独立生活行为检查表 Independent Living Behavior Checklist (ILBC) , 包括 343 个独立生活的技巧，被分成六大类： (1) 运动； (2) 自理； (3) 家居和安全； (4) 食物； (5) 社交和沟通； (6) 学业。 ILBC 的项目从易到难排列。对每个技巧，指定一个条件，一个行为和一个标准，这三部分都定义得十分明确，观察者能知道得很清楚怎么样才算已经掌握了一种技巧，事实上，重测和评分者信度在 0.90到 1 之间。

ILBC注重测验者能做什么，而不是与别人相比他做得多好。 ILBC 能什么技巧已经掌握，什么技巧还需进一步训练的信息。 ILBC 的目的是促进对个体的训练、使之获得独立生活所必需的技巧，基于这一目的，效标参照测验就比 ILBC 这样的常模参照测验更为有用。

智力测验中的争论问题儿童智力研究中存在的问题

婴幼儿期的智力婴儿与学前儿童测验的预测效度婴幼儿智力的本质

儿童智力的纵向研究智商的稳定性智商的不稳定性

遗传和环境对智力的影响遗传对智力的影响环境对智力的影响

智力中的年龄变化早期横断研究纵向研究与横断 -纵向研究成人的后形式运算

儿童智力研究中存在的问题婴幼儿期的智力

婴儿与学前儿童测验的预测效度婴幼儿还未接受正规的学校教育，他们的生活经历很不相同，因此对这

些个体的测验结果难以解释。有研究发现： (1) 一岁以下的测验没有长期的预测效度； (2) 婴儿期所做的测验在预测 3 到 4岁儿童的 IQ 上有一些效度，但对于预测学龄儿童 IQ则效度很低； (3) 测验在 18 个月之后更具稳定性。儿童年龄越大其测验越具有预测效度。

对婴儿测验预测效度的理解： (1) 有临床工作者认为婴儿测验有助于对以后发展的预测，但只有依据临床的为解释； (2) 有的研究者认为婴儿测验对异常獐更具预测效度。对于 IQ 在 80 以下者，预测效度可达 0.60到 0.70 。婴儿测验对于诊断由遗传或或环境产生的机体病变最有用。假如儿童并没有生理上病变则其日后的智力发展主要取决于环境和教育，这是测验所不能预测的。

事实上，研究者发现父母的教育职业比婴儿测验分数对以后智商水平具有更好的预测能力。一般儿童在早年都正常发展，个体差异不大，以后这种差异则逐步扩大，环境的作用日益明显。

婴幼儿智力的本质婴儿智力的本质

有一些研究者提出，当缺乏预测效度时，正说明测验是儿童认知能力的有效指标。困为智力随着年龄发展而改变，婴儿的智力与以后的智力有质的差异。 McCall等曾对 2岁前的儿童，每半年了解其智力的特征及改变，结果发现在不同年龄，重要行为有质的改变。把婴儿对葛赛尔发展程序表的反应用因素分析进行研究发现，不同年龄层次主要因素基本相似，但组成这些因素的行为则不相同。也就是说，不同年龄层的心理能力有其独有的特征。

儿童智力的纵向研究智商的稳定性

许多研究资料表明：个体从小学到中学再到大学，其智力测验的分数有相当的稳定性。瑞典心理学家对 4500 名青少年在 13 岁和 18 岁分别施没同样智力测验，结果相关达 0.78 。一般而言，重测间隔时间越短，相关越高，年龄较大者重油相关更高。

智商的稳定性随年龄增加而增加。 Anderson(1940) 认为，个休在成长过程中不会丧失其原有的智能。除此原因，还有其他两种可能： (1) 环境的稳定性；(2) 以前的学习能力对以后的学习会有影响，因此学习能力越佳者以后智力越高，保持稳定性，学习能力差者亦然。

智商的不稳定性研究显示，在儿童生活中环境的变化能极大地影响智商。一般而言，生活在优良环境中的儿童智力会升高，而生活在不利文化环境中的儿童智力会降低。

Honzik 等曾 222 名儿童进行长期追踪，发现从 6 岁篱测到 28 岁再测，IQ 的相关颇高，但有 59% 的儿童 IQ改变在 15 以上， 37% 的儿童改变在 20 以上， 9% 的儿童改变在 30 以上。家庭气氛、父母对子女教育成就的关心程度以及个体的人格特征、环境因素，都会影响智商的发展变化。

遗传和环境对智力的影响遗传对智力的影响

领养研究、家谱研究、双生子研究证明了保值对智力有重要影响。遗传对智力的影响在研究中一般用遗传指数 (heritability index)

来表示。遗传指数在 0至 1 之间。为 0时说明遗传对智力不起作用。遗传指数独立于测量样本，测量时间、测量方式和测量工具。它是一个总体的统计指数，并不是一个个体分数。大多娄研究发现，智力的遗传指数在 0.50左右，也就是说 IQ分数 50% 的变异可由遗传来解释。有一些研究则发现遗传指数高达 0.72 (Plomin,1990).

明尼苏达分开抚养双生子研究发现，分开抚养的同卵双生子的 IQ 相关，几乎与一起抚养的的同卵双生子一样高。尽管分开抚养的同卵双生子面临的是极为不同的环境。此研究的遗传指数 0.70 。

遗传对智力影响很大。这种影响是间接的，遗传是通过脑和神经系统的基因表现来决定智力的。而基因的表现型随环境的变化而千差万别。有研究得到环境对智力的影响在 20IQ分数以上。

环境对智力的影响早期的许多研究得出，生长于极度限制和剥夺条件儿

童，当他们转入正常环境之后， IQ 能上升 30 到 50分 (Vernon ， 1979) 。当然这些研究都有不足。

Jenson(1977) 的研究和 Scarr & Weinberg(1983) 的研究分别从两方面证明了环境缺陷累积说。 Jenson 测量了乔治州东南部一个农村小镇上的 653 名白人

儿童和 826 名黑人儿童。其研究的假设是年纪大的黑人儿童应该比他们的弟妹 IQ 更低，因为在不户环境中生长的时间越长， IQ 越低。这种假设得到了证实。

Scarr & Weinberg 研究了 130 名黑人和混血儿童，他们被中上阶级白人家庭领养后， BF 或 WISC 上的 FIQ 平均为 106 ，早一年被领养的儿童，则 FIQ 为 110 ，这一研究显示，环境大约能使 IQ分数提高 20分。

智力中的年龄变化是不是随年龄的增大，智力就下降？早期的横断研究

早期研究者用 WAIS 之类的测验进行横断研究 (Cross-sectional research) ，结果典型地得到在 15 或 20 岁以后，智力渐渐下降，而在 60 岁之后迅速下降。

这些横断研究忽略了一个重要的事实，就是这种方法把年龄与教育水平及其他年龄组之间的差别混淆了。比如，在这类研究中，无疑是年轻的被试受到的教育更好，因此，至少部分智力差别来自所受教育的差别。

纵向研究与横断—纵向研究纵向研究与横断—纵向研究

在心理学家认识到横断法的局限之后，开始运用纵向研究。利用基本心理能力测验 (Primary Mental Abilities Test) 的工具，得到了智力变化更为乐观的模式；直到至少 60 岁以前，大多数智能变化很小。同时，许多研究者运用流体 -晶体智力的区分，发现晶体智力直至个体死亡之前一直处于上升状态，而流体智力则迅速下降。纵向研究 (Longitudinal design) 可以排除个体差异，但它本身

也存在严重的缺陷： (1) 测量时间是最严重的问题。因为重要历史事件可能影响整整一代人的智力和心理发展，因此纵向研究得出的变化可能只是反映了测量年代对智力的影响，而没有反映出年龄的作用； (2) 补试的。尤其是那些低能力被试最有可能流失，人为地提高了重测分数； (3) 练习效应。毫无疑问，多次重复测验会提高分数； (4) 回忆效应。尤其当被试是由于其极端分数而被迁入样本时，重复测试会导致统计回归效应。

横断 -纵向研究 (Cross-sequential design)

横断 -纵向研究 (Cross-sequential design) 这种研究模式是：开始是一个横断研究；数年之后重测这些被试，从而得出许多不同年龄组的纵向研究，同时开始第二个横断研究，这样与第一个横断研究形成了横断系列。这个过程可以不断重复，例如每过 5 年或 104 年重复一次。

Schaie (1956) 在西雅图纵向研究 (Seattle Longitudinal Study) 中开始了至今最全面的横断 -纵向研究。他的最初横向研究样本为 500 人，使用 Thurstone 的基本心理能力测验中的 5 个基本能力：语言意义、窨、推理、数量和语词流利性。他在 1963 、1970 、 1977 年分别重油和开始测新的系列。其研究得出三个结论： (1) 每个横断研究显示出随年龄心理能力的下降，某些能力开始于 35 岁，另一些在 50 岁以后； (2) 横断系列的数据显示年轻一代的被试总是显示出显著的优势，晚测的总比早测的得分高。但不同心理能力上这种差异不同，语词意义、推理、空间能力上最明显； (3) 与横断研究相反，纵向研究显示，直至 60 或 70 岁，心理能力平均分持续上升或保持稳定。

成人的后形式运算最近，一些心理学家提出成人的智力有质的不同，用 Piaget 的术语来说可称为后形式运算 (Postformal reasoning) 。他们认为开式运算可能并不是最好的和最高水平的思维形式，因为： (1) 形式运算者过于关注观念、规则和绝对的东西，而对生活中可能遇到的复杂问题视而不见；(2) 形式运算适用于闭合系统 (Closed system) 问题，但绝大多数现实生活总是是开放系统 (Open system) 的； (3) 形式运算强调问题解决，而不重视发现问题。正是认识到了形式运算的这些弱点，一些理论家在认知发展上提出了另一

个阶段，针对中老年成人，称之为后形式运算 (Arlin, 1984; Kramer,1983) 或或辩证法思想 (Bassches, 1984;; Pascual-Leone, 1983) 或智慧 (Dittman-Kohli & Baltes, 1986).他们认为后形式思维有如下特征： (1) 认识到知识是相对的和暂的，并非绝对和永恒的； (2) 把矛盾作为现实的基本特点；(3) 综合相互冲突的思想、情绪和经验的能力； (4) 强调智力和知识实用的一面。

后形式思维在中老年的产生就使得我们注意到向他们施测传统智力测验是否存在生态效度问题。 WAIS-R 、 RPM之类的测验测量的是琖思维，而这种智力可能并不是成年人所面临的开放系统问题解决所必须的。因此，年长者的智力也许与青年人的并不同，它们之间有性质上的差异。

智力测量

Documents

Transcript of 智力测量