Statistik - Produktionsekonomi | Produktionsekonomi · 2014-02-13 · Statistik...
Transcript of Statistik - Produktionsekonomi | Produktionsekonomi · 2014-02-13 · Statistik...
MIO 035
Statistik Nationalencyklopedin • Kort http://www.ne.se/kort/statistik statistik, uppgifter om omvärlden i siffermässig form, vanligen presenterade i tabeller och diagram. Statistik är även vetenskapen om hur data med inslag av slumpmässig variation eller osäkerhet ska insamlas, utvärderas och presenteras, t.ex. väder-, löne-, sjukdoms-, idrotts- eller opinionsstatistik. Datorrevolutionen har kraftigt påverkat statistikproduktionen. Statistik i betydelsen insamling och tolkning av data kan uppfattas som en urgammal vetenskap. Självständigt ämne blev statistik dock först efter år 1900. Astronomen P.W. Wargentin brukar kallas den svenska statistikens fader.
MION 20
MIO 035
Analys av kvalitativa samband – Chi-2 metoden När man vill studera hur starkt sambandet är mellan kvalitativa (kategoriska) egenskaper görs det ofta med med hjälp av Chi-2 metoden. Denna metod används också för att jämföra en observerad fördelning med en förväntad fördelning
Regressionsanalys (RA): Syftet är att prediktera förändringar i en responsvariabel som svar på förändringar i en eller flera oberoende (förklarande) variabler. Som skattningsmetod används vanligen minsta-kvadrat teknik. Anses vara en av de mest etablerade statistiska teknikerna. Denna analysmetod kan också användas för att utreda vilken/vilka av de förklarande variabler som är av stor betydelse för responsvaribeln.
MION 20
MIO 035
Diskriminantanalys (DA): Syftet är att prediktera grupptillhörighet (responsvariabel) med hjälp av en eller flera oberoende (förklarande) variabler. Responsvariabeln är kvalitativ (kategorisk), dvs den kan anta två eller flera nivåer (grupper). Det primära syftet är att uppskatta sannolikheten för grupptillhörighet baserat på observationsvärdena på de förklarande variablerna. Man kan också använda metoden för att utreda vilken eller vilka förklarande variabler som har stor betydelse för responsvariablen. Ex . • Med ledning av olika flera olika egenskaper kan man avgöra om bilköpare är märkestrogna eller märkesbytare • En läkare vill kunna ge rätt diagnos med ledning av patientens anamnes, aktuella symptom, provvärden etc
MION 20
MIO 035
Klusteranalys (CA): Är en analytisk teknik för att skapa meningsfulla subgrupper (sektorer) för ett antal individer (objekter). Tekniken bygger på att mäta likheten (olikheten) mellan objekt för att därigenom skapa ömsesidigt uteslutande grupper. Till skillnad från diskriminantanalys är grupperna inte på förhand kända.
Logistisk regression (LR): Är en alternativ teknik till diskriminantanalys. Syftet är att alltså prediktera grupptillhörighet (responsvariabel) med hjälp av en eller flera oberoende (förklarande) variabler, dvs precis som vid DA. Det primära syftet är att uppskatta sannolikheten för grupptillhörighet baserat på värdena på de förklarande variablerna. En viktig skillnad som gör LR mer tilltalande än DA är kravet på de oberoende (förklarande) variablerna. Ex. Med ledning av olika flera olika egenskaper (utbildning, civilstånd, anställning, antal barn, etc ) kan man avgöra soliditeten hos en låntagare i en bank
MION 20
MIO 035
Conjointanalys (CJA): Är en forskningsteknik som används för att mäta konsumentens vilja att kompromissa i valet mellan olika produkter eller service. Används också för att prediktera konsumentens val mellan olika produkter (service). Conjointanalys utgår från antagandet att en produkt kan ”brytas ner” i ett antal egenskaper. Ex. • Ett bilköp består i många val: märke, modell, pris, storlek, bränsleförbrukning, etc • Köparen av en mobiltelefon värderar ett antal egenskaper: Pris, utrustningsnivå, prestanda, design etc Vi gör antagandet att preferensen för en produkt och sannolikheten att köpa den står i direkt proportion till nyttan. Nyttoeffekten är således en viktig komponent i CJA.
MION 20
MIO 035
Faktoranalys (FA): Denna explorativa teknik syftar till att reducera antalet variabler genom att utnyttja det interna beroendet mellan de ingående variablerna. Önskemålet är att reducera antalet variabler (med hjälp av principalkomponenter) till fåtal gemensamma underliggande dimensioner (faktorer). Urspungsvariablerna kallar vi manifesta medan faktorerna kallas för latenta. Till skillnad från teknikerna ovan innehåller faktoranalys ingen responsvariabel.
Multidimensionell skalning (MDS): Är egentligen ett antal olika tekniker för att kunna identifiera nya dimensioner hos en respondent. Avsikten är att föra över en konsuments bedömning av likheter eller preferens i avstånd i ett multidimensionellt rum. Metoden kan användas för visualisera samband eller skillnader mellan t ex produkter/ varumärken. Kan användas för att • Positionera varumärken • Få någon vägledning om hur ett idealt varumärke ska positioneras
MION 20
MIO 035 MION 20
Korrespondensanalys: Teknik som är användbar för att explorativt visualisera kategoriska variabler (kön, yrke, adress mm). Metodologiskt (Hirshfeld, Bourdieu) använder man sig av något som kallas geometrisk dataanalys (GDA). Vi skiljer normalt mellan enkel och multipel korrespondensanalys. Utgångspunkten är korstabelleringar av ursprungsdata som därefter översätts i koordinater efter variablernas olika kategorier. Metoden har stora likheter med principalkomponenter (ofta använda i faktoranalysen). TURF Analysis: TURF (akronym för "Total Unduplicated Reach and Frequency“) är en statistisk metod med syfte att uppskatta marknadspotentialen för en produkt/tjänst. Ursprungligen har denna metod använts vid analys av mediakampagner men sedermera också tillämpats för analys av täckningsgraden av olika produktstrategier, t ex med vilken kombination av produkt/tjänst uppnår man bäst försäljning?
MIO 035
GAP analysis: Ett verktyg som gör det möjligt för ett företag/organisation att jämföra sin aktuella prestation med sin potentiella prestation. Syftet är att identifiera gapet mellan det nuvarande och det optimala resursutnyttjandet. På detta sätt hoppas man få kunskap om inom vilka områden som det finns möjligheter för förbättring. ”Här befinner vi oss idag, men var vill vi befinna oss i framtiden?”. I princip handlar det om att använda olika grafiska tekniker för att illustrera förhållandet.
MION 20
MIO 035
1 2 3 4 5 6 7 8
Timme inom skiftet
0
5
10
15
20
25
30
Ant
al o
lyck
still
fälle
nEx: Antal olyckor/timme under ett åttatimmars skift i ett gjuteri
Någon skillnad mellan olika tidpunkter?
MION 20
MIO 035
Timme Antal Olyckor (Oi)
Förväntat Antal (Ei)
1 19 21 2 17 21 3 15 21 4 24 21 5 20 21 6 26 21 7 22 21 8 25 21
Totalt 168 168
Antal olyckor/timme (Oi) och förväntat antal (Ei) under ett åttatimmars skift i ett gjuteri
MION 20
MIO 035
Ho: Antalet olyckor är oberoende av tidpunkten under skiftet H1: Antalet olyckor är beroende av tidpunkten
dfrmedE
EOonTestfunktii
ii )1()(:2
2 −−
=∑χ
)(05.0 snivånSignifikanraderantaletr == α
14.521
)2125(...21
)2117(21
)2119( 2222 =
−++
−+
−=χ
dfP 764.0)14.5( 2 =>χ Ho accepteras
analys−2χ(Analys av kvalitativa variabler)
Slutsats: Ingen signifikant indikation på att olycksfrekvensen förändras under skiftet (vid test på 5%-nivån)
Goodness of Fit Test
MION 20
MIO 035
Exempel med korstabellering och Chi2-analys
A1 A2 Total
B1 16 24 40 B2 23 57 80 B3 21 19 40 Total 60 100 160
Observerade frekvenser (Oi):
Frågor: • Finns det är ett samband mellan dessa två variabler A och B? • Hur starkt är sambandet? • Åt vilken håll och vilken form har sambandet? • Beror sambandet av någon mellanliggande variabel?
MION 20
MIO 035
Exempel med korstabellering och Chi2-analys
A1 A2 Total
B1 15 25 40 B2 30 50 80 B3 15 25 40 Total 60 100 160
Förväntade frekvenser (Ei):
A1 A2 Total
B1 16 24 40 B2 23 57 80 B3 21 19 40 Total 60 100 160
Observerade frekvenser (Oi):
Enligt sannolikhetsteorin är två variabler A and B oberoende om
;)()()( BPAPBAP =
160100)(ˆ
16060)(ˆ
21 == APAP16040)(ˆ
16080)(ˆ
16040)(ˆ
321 === BPBPBP
16080
16060)(ˆ)(ˆ)(ˆ
2121 == BPAPBAP 3016080
1606016012 ==E
Eftersom de enskilda sannolikheterna är okända skattas dessa från urvalet
MION 20
MIO 035
dfkrmedE
EOonTestfunktii
ii )1)(1()(:2
2 −−−
=∑χ
56.625
)2519(...25
)2524(15
)1516( 2222 =
−++
−+
−=χ
56.6)2(. 2 =χdvs p-värde=0.038
Ho: Variablerna A och B är oberoende H1: Variablerna är beroende
H0 förkastas för α=0.05 (0.038<0.05) Slutsats: Man kan påvisa att variablerna Aoch B är beroende (vid test på 5%-nivån) Exempel på Associationsmått (Measure of Association):
20.0)12(16056.6)1(´ 2 =−=−= kNsCramer χϕTolkning: approximativt 0.202=4% av variationen i variabeln B förklaras av variabeln A.
MION 20
MIO 035
Total N=160
A1 (37.5%)
A2 (62.5%)
B1 (26.7%)
B2 (38.3%)
B1 (24.0%)
B2 (57.0%)
B3 (35.0%)
B3 (19.0%)
Breakdown report
MION 20
MIO 035
Respondent Sex Familiarity Internet Usage
Attitude toward Internet
Attitude toward
Technology
Usage of Internet
Shopping
Usage of Internet Banking
1 1 7 14 7 6 1 1
2 2 2 2 3 3 2 2
3 2 3 3 4 3 1 2
4 2 3 3 7 5 1 2
5 1 7 13 7 7 1 1
28 2 4 2 3 2 2 2
29 1 4 4 5 3 1 2
30 1 3 3 7 5 1 2
Sex: 1=Male 2=Female (Nominalskala/dikotom variabel) Familiarity: 1=very unfamiliar 7= very familiar (Ordinalskala) Internet Usage: No. of hours/week (Kvotskala) Attitude: 1=very unfavourable 7= very favourable (Ordinalskala) Usage of Internet Shopping/Banking: 1=Yes 2=No (Nominalskala)
Ex: Nonprofessional Internet Usage in 30 respondents
MION 20
MIO 035
Boxplot (Box & whisker plot)
MD Q3
Q1
Min
Max Outlier
>1.5(Q3--Q1)
Using SPSS Graph
MION 20
MIO 035
Dilivery Speed
(X1)
Price Level (X2)
Price Flexibility
(x3)
Manufacturer Level (x4)
Overall Service
(X5)
Salesforce Image
(x6)
Product Quality
(X7)
Firm Size (X8)
Usage Level (X9)
Satisfaction Level (X10)
Specification Buying
X11)
Structure Of
Procurement (X12)
Industry Type (X13)
Buying Situation
(X14)
4,1 ,6 6,9 4,7 2,4 2,3 5,2 0 32,0 4,2 1 0 1 1
1,8 3,0 6,3 6,6 2,5 4,0 8,4 1 43,0 4,3 0 1 0 1
3,4 5,2 5,7 6,0 4,3 2,7 8,2 1 48,0 5,2 0 1 1 2
2,7 1,0 7,1 5,9 1,8 2,3 7,8 1 32,0 3,9 0 1 1 1
6,0 ,9 9,6 7,8 3,4 4,6 4,5 0 58,0 6,8 1 0 1 3
3,1 2,2 6,7 6,8 2,6 2,9 8,4 1 42,0 4,3 0 1 0 1
2,5 1,8 9,0 5,0 2,2 3,0 6,0 0 33,0 4,4 1 0 0 1
X1-X7: Perception of HATCO X9-X10: Purchase Outcomes X8, X11-X14: Purchaser Characteristics
MION 20
MIO 035
HATCO Dataset Documentation: Hair-Anderson-Tatham Company (HATCO) is a large industrial supplier. It represents surveys of HATCO customers that were collected though an established marketing research firm. The data consists of 100 observations on 14 separate variables and is an example of segmentation study for a B-2-B situation, specifically a survey of existing customers of HATCO. Three types of information were collected: Perception of HATCO: Variables X1-X7 are measured on a graphic rating scale, where a ten-centimeter line was drawn between the endpoints, labeled “Poor” and “Excellent”.
X1 Delivery speed Amount of time it takes to deliver the product once an order has been confirmed
X2 Price level Perceived level of price charged by product suppliers
X3 Price flexibility Perceived willingness of HATCO representatives to negotiate price on all types of purchases
X4 Manufacturer´s image Overall image of the manufacturer/supplier
X5 Service Overall service necessary for maintaining a satisfactory relationship
X6 Salesforce´s image Overall image of the manufacturer’s sales force
X7 Product quality Perceived level of quality of a particular product
MION 20
MIO 035
Purchase Outcomes: Respondent’s purchase relationships with HATCO
X9 Usage level How much (in percent) of the firm’s total product is purchased from HATCO
X10 Satisfaction level How satisfied the purchaser is with past purchases from HATCO (measured like X1- X7)
Purchase Characteristics: Five general characteristics of the responding firm
X8 Size of firm Size of firm relative to others on the market. 1=large, 0=small
X11 Specification buying Extent to which a particular purchaser evaluates each purchase separately versus the use of specification buying, which details precisely the product characteristics desired. Two categories: 1=employs total value analysis approach, 0=Use of specification buying
X12 Structure of procurement
Method of procuring products. Two categories: 1= centralized procurement, 2= decentralized procurement
X13 Type of Industry Type of industry in which the product purchaser belongs. 1=Industry A classification, 2=Other industries
X14 Type of buying situation Type of buying situation facing the purchaser 1=New task, 2=Modified rebuy, 3=Straight rebuy
MION 20
MIO 035
Using SPSS Graph
MION 20
MIO 035
Using SPSS Graph
MION 20
MIO 035
A Normal Distributed Curve fitted to the data Using SPSS Graph
MION 20
MIO 035
Using SPSS Graph
MION 20
MIO 035
Fråga: Kan dessa data analyseras på ett mer effektivt sätt där vi utnyttjar den kronologiska ordningen av variabeln ’Timme i skiftet’?
MION 20
MIO 035
Litteraturlänkar I länken nedan kan man få ännu en genomgång av teorin för X2 -testet
(hoppa över 1.1.4. Bayesian method) http://en.wikipedia.org/wiki/Pearson%27s_chi-square_test I länken nedan får man en repetition av den statistisk-matematiska bakgrunden till X2 -fördelningen http://en.wikipedia.org/wiki/Chi-square_distribution
MION 20
MIO 035
Egenskaper Exempel SPSS
Skaltyp Absolut
nollpunkt Ekvistant
Rangord-nande
Kategori-serande
Measurement level
Kvotskala JA JA JA JA Ålder, längd, vikt Scale
Intervallskala NEJ JA JA JA Temperatur mätt i C Scale
Ordinalskala NEJ NEJ JA JA Likertskala Ordinal
Nominalskala NEJ NEJ NEJ JA Kön, Yrke, civilstånd Nominal
Olika datanivåer (skaltyper)
Median (MD)=Det mittersta värdet då observationera ordnats i storleksordning. Delar materialet i två lika stora delar. Kvartilerna (Q1 , Q2 , Q3)= Delar materialet i tre lika stora delar. ---> MD=Q2
MION 20
MIO 035
Titta på dessa fem udda figurer ovan
Vad heter denne man?
Öva din iakttagelseförmåga
MION 20