Unobtrusive Social Network Data Through Email

7
UNOBTRUSIVE  SOCIAL  NETWORK  DATA  FROM  EMAIL  M A J  Ia n  McCulloh,*  MAJ  Benjamin  Ring  Network  Science  Center  United  States  Military  Academy  West  Point,  New  York  10996  Terrill  L .  Frantz,  Professor  Kathleen  M.  Carley  Center  fo r  Computational  Analysis  of  Social  an d  Organizational  Systems  Carnegie  Mellon  University  Pittsburgh,  Pennsylvania  15213  ABSTRACT  Email  rovides  ich  ource  of  longitudinal  ocial  network  at a  ha t  an  e  se d  or  pplications  anging  from  ommand  nd  ontrol,  o  military  ntelligence,  o  basic  ocial  cience  esearch.  hi s  roject  eviews  several  methods  vailable  o  xtract  mail  network  at a  an d  ompares  he m  n  erms  f  at a  uality  nd  convenience  of  collection.  n  general,  t  is  preferable  to  obtain  mail  at a  irectly  ro m  he  entral  SMTP  mail  server.  n  situations  where  this  is  no t  possible,  alternative  approaches  resented  ere  an  e  seful.  hese  techniques  fo r  analyzing  email  data  have  been  automated  in  he  Organizational  is k  Analyzer  ORA)  oftware,  which  is  freely  available  to  D oD  an d  academia.  1 INTRODUCTION  Email  as  ignificantly  hanged  ow  eople  communicate  an d  interact.  n  many  ways  communication  is  easier  an d  more  reliable  with  email,  however,  there  ar e  many  ew  hallenges  ntroduced.  Over  he  as t  ecade,  many  people  have  turned  to  email  as  th e  primary  means  to  send  nformation  nd  o  ommunicate  Ducheneaut,  Bellotti,  001).  t  as  nabled roups  o  work  ogether,  socialize  an d  collaborate  across  an y  distances  an d  outside  of  tructured  rganizational  oundaries.  he n  organizational  relationships  do  xist,  mail  traffic  among  that  group  often  mirrors  this  structure  (Diesner,  Frantz  &  Carley,  2005;  Frantz  &  Carley,  2008;  Tyler,  Wilkinson,  &  Huberman,  003).  s  esult,  tudying  nd  nalyzing  communication  patterns  of  email  traffic  ca n  provide  much  insight  nt  ot  nl y  ow  n  organization  s  tructured,  bu t  also  into  how  it  actually  operates  (Carvalho,  &  Cohen,  2007).  or  xample,  upervisor  m ay  ypically  en d  email  o  ll  is  mmediate  ubordinates  nd ,  ikewise,  those  ubordinates  will  espond.  An  ncrease  n  peer  o  peer  ollaboration  m ay  ndicate  ha t  roblems  re  being  solved  t  much  ower  evel.  ndividual  gents  ha t  connect  isconnected  roups  ight  epresent  organizational  ulnerabilities.  dentifying  hese  atterns  from  ollected  mail  at a  s  xtremely  seful  n  identifying  th e  underlying  ocial  network  behavior  of  an  organization. W e  resent  wo  eneral  methods  or  athering  nd  analyzing  mail  at a  long  with  n  nalysis  of  each  of  these  methods.  uring  he  ourse  f  hi s  tudy,  e  gathered  client-side  email  data  over  a  seven  month  period  to  reveal  th e  social  network  of  a  group  of  24  mid-career  Army  fficers.  e  ls o  mployed  entralized  at a  collection  procedure  over  ive  month  eriod  irectly  from  th e  central  Simple  Mail  Transfer  Protocol  SMTP)  email  server.  he  data  collection  schemes  ar e  compared  in  erms  of  data  uality,  as e  of  collection,  nd  ubject  cooperation.  These  mail  ollection  ethods  av e  een  automated  n  eature  alled  CEMAP  I  ontained  n  OR A  Carley,  t  al.,  008)   oftware  package  ro m  th e  enter  or  Computational  nalysis  f  ocial  nd  Organizational  ystems  CASOS)  t  arnegie  Mellon  University  (Frantz  &  Carley,  2008b).  he  ORA  software  program  is  reely  available  to  people  n  th e  D oD  nd  at  academic  institutions  at  www.casos.cs.cmu.edu .  2 CKGROUND  Gathering  mail  elated  at a  as  hown  o  dentify  actual  ocial  nd  ommunal  atterns  mong  he  mail  users  (McCulloh  et  al ,  2007;  2008).  A  collaborative  group  at  ewlett  ackard  ab s  emonstrated  ha t  imply  gathering  he  TO nd  FROM ields  ro m  arge  collection  f  mail  messages  an  roduce  ommunity  structure  when  pplied  o  raph  epresentation  Tyler,  Wilkinson,  &  Huberman,  008).  This  tudy  ocused  n  email  at a  only  at  th e  organization's  entral  mail  erver.  In  ontrast,  hemail,  isualization  which  hows  n  individual  ser's  mail  xchange  resents  isual  network  nalysis  f  ser's  mail  ontent  imply  y  analyzing  he  rchived  ai l  n  is  r  er  ersonal  computer  (Viegas,  Golder,  &  Donath,  2006).  Users  in  this  study  ere  equired  o  manually  pload  heir  ntire  Microsoft  Outlook  archive  folder  fo r  analysis.  Similar  to  this  echnique,  loor  nd  ha o  2004)  eveloped  software  tool,  TeCFlow,  which  gathers  email  data  from  a  user's  computer  ontained  in  various  mailboxes  an d  

Transcript of Unobtrusive Social Network Data Through Email

Page 1: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 1/7

Page 2: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 2/7

Report Documentation Page Form Approved 

OMB No . 0704-0188 

Public reporting burden for the collection of information is estimated to average  hour per response, including the time for reviewing instructions, searching existing data sources, gathering and 

maintaining the data needed, and completing and  reviewing the collection of information. Send comments regarding this burden estimate or any other aspect of this collection of information, 

including suggestions for reducing this burden, to Washington Headquarters Services, Directorate for Information Operations and Reports, 21 5 Jefferson Davis Highway, Suite 204, Arlington 

VA 22202-4302. Respondents should be aware that notwithstanding an y other provision of law, no person shall be subject to a penalty for failing to comply with a collection of information if it 

does not display a currently valid OMB control number. 

1. REPORT DATE 

DEC 2008 

2. REPORT TYPE 

N/A  

3. DATES COVERED 

4. TITLE AND SUBTITLE 

Unobtrusive Social Network Data From Email 

5 a CONTRACT   NUMBER 5 b GRANT  NUM ER5 c PROGRAM   ELEMENT   NUMBER 

6. AUTHOR(S)  5d. PROJECT NUMBER 

5e. TASK NUMBER 

5f. WORK UNIT NUMBER 

7. PERFORMING ORGANIZATION NAME(S) AND ADDRESS(ES) 

Network Science Center United States Military Academy West Point, 

New  York 10996  

8. PERFORMING ORGANIZATION 

REPORT NUMBER 

9. SPONSORING/MONITORING AGENCY NAME(S) AND ADDRESS(ES)  10 . SPONSOR/MONITOR'S ACRONYM(S) 

11 . SPONSOR/MONITOR'S REPORT 

NUMBER(S) 

12 . DISTRIBUTION/AVAILABILITY STATEMENT 

Approved for public release, distribution unlimited 

13 . SUPPLEMENTARY NOTES 

See also ADM002187. Proceedings of the Army Science Conference (26th) Held in Orlando, Florida on 1-4 

December 2008 

14 . ABSTRACT 

15 . SUBJECT TERMS 

16 . SECURITY CLASSIFICATION OF: 

a. REPORT 

unclassified 

b. ABSTRACT 

unclassified 

17. LIMITATION OF 

ABSTRACT 

c. THIS PAGE 

unclassified UU 

18 . NUMBER 

OF PAGES 

19a. NAME OF 

RESPONSIBLE PERSON 

Standard Form 298  Rev. 8-98) Prescribed by ANSI Std  Z39-18 

Page 3: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 3/7

outlook archived iles nd tores ha t ata nto n SQL- 

database. 

Communication via mail an e  ivided nto wo 

types f relationships: he human-computer nteraction;  

an d he omputer-computer nteraction. eople re 

usually os t amiliar ith he uman-computer 

interaction, where they sit at a computer, write an email, 

an d push  send ; or they login to their email account an d 

read messages ontained n the inbox . he omputer- 

computer nteraction, s ctually n utomated xchange between wo omputers, ften ith everal ther 

computers erving s ntermediaries n he elivery 

process. A message en t rom ne omputer s eceived 

by he arget omputer(s), n ts lectronic orm, via client oftware program that ultimately opies he mail 

message from its host server. The email message is stored 

on  esignated entral erver ntil he eceiver picks 

up he message rom he erver. hi s  rocess s he  

electronic ersion of picking p  ackage t he os t 

office. The lectronic mail an be elivered to he post office repository fo r yo u to physically pick up , or directly  

to your ersonal mail ox or ou o pick p. Once target omputer icks p he essage, he uman- computer nteraction llows he human to ead,  rint,  r 

store he lectronic essage ia heir mail lient 

software. 

There are everal different ways n which mail ca n be elivered hrough he omputer-computer nteraction  

in he  orld-wide lectronic mail rchitecture. he  

message can be delivered to the equivalent of post office lobby-box, alled n MAP erver. he mail an e 

delivered o  ersonal mailbox, alled  ost  ffice Protocol POP) erver. he mail an lso e outed through a Microsoft Exchange (MSEx) server. here are 

many echnical  ifferences between hese mail ervers, 

bu t heir purpose s he ame.  owever, he rincipal 

difference between n MAP nd  POP mail erver s 

the torage eature of the erver. An MAP erver will 

allow ou or your mail lient oftware) o ersist, or 

store, your email physically on that server. A PO P server only serves as a temporary holding station fo r a message 

that is removed once it ha s been retrieved by your email client oftware. n SEx erver s  icrosoft proprietary ystem ha t s widely se d hroughout he  

DoD. While it ha s some additional security features, it is more ifficult o xtract mail etwork ata rom his 

system ecause f he ropriety ata ormat ha t 

Microsoft institutes. n IMAP server is designed to store 

the  essage ve n fter he mail as een nitially 

retrieved. t hould be noted that the POP protocol alls 

for an email to be removed from the incoming mail bo x 

once t as een etrieved, owever om e oftware 

extensions o llow or  ead-only ccess o he POP inbox, esulting n he message emaining n he nbox 

when etrieved nd s herefore managed by he lient 

software  level.  The  popular  Yahoo  mail  service 

implements this feature fo r paying customers. 

Once a target computer receives an email, the human- computer interaction involves the computer displaying the 

message sing lient oftware. mail messages t he  computer-computer nteraction evel re os t ften 

formatted in a world-wide standard format called MBOX. MBOX llows or ifferent mail lient oftware 

programs o ccess he mail rom he erver without 

confusion. Th e MBOX ormat pecifies wo ections of the mail, he header section an d the body section. he  

header ection ncludes he rom:, o: , C: , CC:, Subject:, nd ate:, nformation. he ody ection 

contains he message ex t nd ny ttachments o he  

email. 

The MSEx erver oe s ot tore messages n he  

MBOX format. icrosoft's proprietary tandards reate 

technical nd icensing urdles n ccessing mail ata 

directly rom the erver n ny manner  ther than using Microsoft oftware. Unfortunately, he MSEx ormat s widely se d hroughout oD , aking mail ata 

extraction more difficult. here are three approaches that we have discovered for extracting email content from an  

MSEx ormat. ne pproach s  ustom lient-side  

visual asic atch McCulloh, t. l. , 007). nother 

client-side pproach nvolves  sing NetMap, which s plug-in fo r Microsoft Excel 2007 that extracts email data from  proprietary  .pst ile nto n Excel ormat. he  

data an hen e manipulated r aved o ther ile  

formats. he third approach involves parsing header data 

from  erver og ile. hese pproaches ill e 

discussed in more detail in this paper. nalysis of dyad  counts  ill e se d o ompare he erformance f client-side ata ollection ith entralized ata collection.  

3.  METHOD  This study involves monitoring the email traffic of 24 

mid-career Army officers in a one-year graduate program  

administered jointly by Columbia University an d the U.S. Military cademy USMA). ac h f he fficers 

participating ere sked o ign  onsent orm n 

accordance  ith he nstitutional eview oard IRB), 

approved y he SMA uman ubjects esearch Review oard llowing heir ata o e ollected or 

research purposes. 

As part of this study, the participants permitted us to place a custom developed program (McCulloh et al , 2007) that works in conjunction with their MSEx Outlook email 

accounts. This program llowed us o ollect mail ata 

from the sent items folder found on participants' personal 

computers. he nformation ncluded ll f he eader 

information associated with an email. W e did no t view or  

Page 4: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 4/7

include the body of th e email in the study. We were also able o ollect imilar mail header nformation  irectly 

from he og iles maintained y he Directorate Of Information Management DOIM). he ata ollected  

from the custom program is referred to as the Client-Side 

Method, while data collected from the DOIM log files is 

referred o s he entralized ethod. e id ot 

investigate NetMap s n pproach s t as dentical underlying mail ata-sourcing apabilites nd  

functionality only with a different, al beit a more elegant, 

user interface. he email data collected from all methods  was analyzed using a dynamic network analysis approach 

(Carley, 2003). 

3 1 Client Side Method A lient ide Visual Basic or Applications VBA) 

program was installed on the personal computers (PC) of all participants, n the session window of their Microsoft 

Outlook. Details of this data collection scheme to include 

the visual basic code are outlined in detail by McCulloh, et al. (2007). t is designed to overcome the difficulty in pulling information from a subject's sent mail folder in a 

proprietary Outlook Exchange system. This patch is easy 

to mplement n Visual Basic nd works harmoniously with Microsoft Outlook. The principal nvestigator could 

then compile the data from all participants into on e master 

file an d ensure anonymity of the names. 

On e of the chief advantages in managing a client-side 

patch s he ow-level ontrol n athering ata. researcher oe s ot have o btain ermissions rom network administrator to collect email data. hey merely 

need the consent of the monitored individuals, who must login o heir Outlook or he lient-side atch o e 

installed. urthermore, he  rogram esigners an pick an d choose which data to import from the local client. If,  

for example, we wanted to include message content, then 

that could have been an option. W e could have also just as  

easily gathered incoming email traffic, as opposed to only monitoring utgoing mail. hi s ould rovide urther 

insight into reas uc h as whether a user classifies mail 

as junk mail, whether they delete n ncoming message, or even if they flag a particular message as important.  

Managing he ata ollection rom he ndividual 

participant required minimal effort. Once fully developed an d nstalled, he  isual asic atch s ittle o o 

overhead on the part of the user to manage. Furthermore, 

these articipants elt more omfortable nowing ha t 

they av e om e egree f ontrol n ow he ata s 

collected. While his ould mpede he ata ollection  

process, the subjects felt more comfortable knowing what 

was actually monitoring their email. nitially, most of the 

participants' mail were en t to  ther students  r people 

affiliated with heir  raduate  rogram. ithin wo o three weeks,  the  participants began  to  email  family 

members an d friends. W e suppose that this represents an  

increased level of trust. n the beginning, participants felt 

that their email needed to appear strictly business related. 

Gradually, s he y ncrementally en t ersonal mail 

messages while they were  at work without an y negative 

consequences, they began to feel comfortable an d appear 

to av e eturned nto ormal adence f mail 

communication. os t of the participants ne w ow o remove he  atch when heir participation n he project 

ended. everal articipants aid hey el t ore 

comfortable nowing ha t he oftware ending he  principal investigator information was on their computer, 

an d that Big Brother was not pulling their information 

from somewhere else. 

3 2 Centralized Method As n lternative method, we eveloped  oftware 

application which nalyzes mail ata athered  irectly 

from a centralized mail xchange erver. This oftware 

gathered ata ve r  ive month eriod nd xtracted  those email messages which were sent an d received from the participants in this study. he server log files contain the mail eader nformation. hi s nformation as  

parsed into the same format as the client-side method. 

With this method of data collection, he participants 

were ot ware of the precise im e ha t he ollection  

process tarted. hey did provide consent in accordance  

with the RB, owever, we were ot required o nform  them f he xact ate  he n ollection  ould egin. 

There as o ignificant bservable hange n he  

participants' pattern of communication. he entralized  

method was completely unobtrusive. 

3 3  Dyad Analysis It was not clear at the beginning of this investigation 

whether mail ommunication within omogenous 

group of people would appear random, if it would remain relatively consistent from week to week, or if there were 

identifiable factors ha t would ffect changes n network 

structure. To investigate the structure of the network, we 

computed the dyad count. he dyad count, defined as the communication between tw o nodes (Wasserman, & Faust, 

1994) istinguishes hree ifferent ypes f communication:

 symmetric,

 utual, 

nd 

ull. 

n asymmetric dyad, on e node talks to another, bu t does no t 

receive a response. This type of communication could be  

an example of a group that ha s members who are sending 

ou t nformation.  mutual ya d ignifies wo odes communicating ith ach ther. his yp e f 

communication might occur n  group ha t ollaborates 

equally, r ne n which ubordinates erify or larify 

directives. inally,  ull ya d ccurs when wo odes which re art f he etwork o ot ave ny  communication ctivity. n  ya d ount, we onduct 

Page 5: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 5/7

census nd abulate he umber f ull, mutual, nd  

asymmetric yads. ith 4 embers n ur tudy 

comprising  network, here xists 76 ombinations of 

possible undirected pairs. ach of the 276  dyads could be  

either null, mutual,  r asymmetric. he dyad counts re 

compared or data collected with the lient-side method, 

centralized method, nd with  alendar f ignificant 

events. 

4.  RESULTS 

There were ignificant  ifferences n he lient-side  

an d centralized methods of data collection. he data from  

both methods as oded s  meta-network Carley, 2002). onsidering ha t he articipants re  andom 

sample f mid-career Army fficers ha t ll ulfill he  same ole f tudent n he rganization, e  ight 

hypothesize ha t he mail elationships ormed n he  network are random. Given that there are 24  nodes in the 

network, here xist 24  3 = 52 ossible yads. e can test the hypothesis: 

H0: Graph ~ Binomial(552, 0.5) 

HA: Graph  ̂  Binomial(552, 0.5), 

using the test statistic z =( / - E(/)) / Sqrt( V(/) ), where / 

is the number of directed links in the graph. hi s reduces 

to z =  / - 276  ) / 11.75, where / is the su m of the mutual 

an d asymmetric dyad counts. Under the null hypothesis, 

this number follows  standard normal distribution. he  

p-value was ignificant at the 0.05 evel fo r most weeks, 

providing vidence o eject he ypothesis ha t mail 

communication atterns re andom inomial  ith probability arameter f .5 . eek ith corresponding p-value that was no t significant at the 0.05  

level ca n be identified in Table  by the 95% confidence 

interval on the Binomial parameter/? that includes 0.5. 

A onfidence nterval n he robability f communication an e onstructed or ac h eek 

according to the expression given by , 

P±z„  PII552 

where ̂

is 

he 

maximum 

ikelihood 

stimate 

he  unknown arameter n he ssumed inomial 

distribution nd qual o  52. able  hows he  

mutual, asymmetric, an d null dyad counts recorded using 

the lient-side nd entralized methods. he ight most 

column of Table  hows the 95 % confidence interval on  the random probability of communication. confidence 

interval that spans  .5 will correspond to a significant p-  

value in the random binomial hypothesis test above. or 

each week in Table , tw o values re hown fo r each of 

the ya d ounts: Mutual,  symmetric, nd Null.  The  

numbers n the top of each cell in Table  orrespond to 

the lient-side ata ollection method. he umbers n 

the ottom f ach ell n able  orrespond o he  

centralized data collection method. he data presented in 

Table  orresponds to the time period beginning with the first week of the pring emester nd nding with he  

week efore pring reak. he tudents oo k heir 

comprehensive xa m ollowing pring reak nd he n 

began to transition to their military duties t West Point. 

Therefore, his ata epresents  easonable im e eriod  

for comparison of the client-side an d centralized methods of data collection. 

Table 1 . Recorded directed links using client-side an d 

central methods.  Week  Mutual  Asymmetric  N u l l  C o n f i d e n c e 

1 3   J a n   2 8  0 

5 4 

44  

8 9 

232 

1 3 3 

0 . 0 6 , 0 . 1 0

0 . 2 2 , 0 . 3 0

2 0   J a n   2 8  6 

2 8 

8 8 

8 3 

1 8 2  

0 . 1 4 , 0 . 2 0

0 . 5 0 , 0 . 5 9

2 7   J a n   2 8  0 

1 1 8 

7 8 

9 2  

1 9 8 

6 6  

0 . 1 1 , 0 . 1 7

0 . 3 4 , 0 . 4 2

3   Feb   2 8  8 

2 2 

1 6 2  

8 1 

1 0 6  

0 . 2 7 , 0 . 3 5

0 . 4 7 , 0 . 5 5

Feb2 8  0 

1 1 2  

1 4 8 

1 0 0 

1 2 8 

6 4 

0 . 2 3 , 0 . 3 1

0 . 3 4 , 0 . 4 2

1 7   Feb   2 8  6 

23

1 1 4 

7 9 

1 5 6  

0 . 1 8 , 0 . 2 5

0 . 5 2 , 0 . 6 0

24   Feb   2 8  26  

2 4 

1 0 8 

9 2  

1 4 2  

0 . 2 1 , 0 . 2 8

0 . 4 9 , 0 . 5 8

2   Ma r   2 8  8 4 

32

1 9 2  

5 1 

0 . 4 6 , 0 . 5 4

0 . 5 8 , 0 . 6 6

9   Ma r   2 8  26  

2 4 

1 4 3 

7 3  

1 0 7 

0 . 2 7 , 0 . 3 4

0 . 4 6 , 0 . 5 4

Client-side dyad counts are above central dyad counts. 

It ca n be 

een in the Confidence

 olumn of Table

 that here s  tatistically ignificant ifference n he  probability of communication between the client-side an d 

central ata ollection ethods or ll eeks, y 

observing ha t he 5% onfidence ntervals o ot  

overlap. n ll ases, he lient-side ethodunderestimates he probability of communication n he  

network. he general pattern of the probability parameter 

is correlated at a value of 0.69, which is low considering 

they re stimates n he am e roup f ndividuals 

during he am e week. he lient-side ata ollection 

method is therefore biased. 

The ya d ount nalysis an rovide dditional 

insight nto he rganizational ynamics f he  participants by comparing their probability of interaction  

to ignificant vents n heir cademic alendar. e 

restrict ur nvestigation o ata ollected sing he  

centralized method ince it s omplete. he entralized  

method aptures ll ata en t r eceived hrough he  

central erver. he maximum likelihood stimate of the parameter,  , n he inomial istribution f yads s 

plotted over time an d displayed in Figure 1 . 

Page 6: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 6/7

Maximum Likelihood Estimate of  inomial Parameter 

Figure 1 . ML E of parameter » using centralized method. 

Th e lowest ML E of p s hown in the irst week of 

the emester, when he participants were just eturning 

from Christmas leave. hi s was followed by an increase 

in ommunication s he  roup begins to plan or group 

academic ssignments, arpooling, nd ther 

administrative ssues. he ow points n the ML E of p 

occur uring he weeks of 27 anuary nd 0 February 

when major roup cademic rojects r resentations were ue . his s onsistent with he indings f 

McCulloh, et. l. 2007) who observed a similar decrease in mail ommunication uring imes of group ctivity. 

They hypothesized that during times of increased face-to- 

face ommunication, people ommunicate verbally nd  have es s im e nd eed or mail ommunication.  

Furthermore, uring hese imes f ncreased ubgroup 

activity, people have es s im e o write nd espond o 

emails rom ndividuals utside f heir mmediate 

subgroup. ollowing he  roup ssignments ue uring the week of 10 February, the next major academic vent 

was the comprehensive exam following Spring break. 

A similar dyad analysis or the client-side method is 

shown n igure . he haracteristic ip n mail communication orresponding o roup ctivity s ot 

clear. areful eview f the participants' cademic calendar oes ot eveal ny ctivities r vents hat 

would explain the behavior of the plot in Figure 2. hi s 

further suggests the importance of centralized email data collection.  

Maximum Likelihood Estimate of  inomial Parameter 

Figure 2. ML E of parameter » using client-side method. 

Th e  client-side method of ata  collection  is not completely without merit.  It ca n still be seen in Figure 2 

that the first week ha s the lowest ML E ofp. here is also a dip in the plot for the group assignment for the week of 

27 January. he identification of the week of 10 February 

is missed owever. hi s uggests hat ven lient-side  

data ca n provide some insight into group behavior. his 

may e n ppropriate method o se when omplete 

centralized data is unavailable. entralized data may be  

unavailable or easons of security,  rivacy, amage,  r 

other technical difficulties. n these situations, the client- 

side method may till provide valuable nformation n social network behavior. 

5 CONCLUSION We found that the primary advantage to utilizing a server- 

side method to gather data is the improved data integrity. Every user with n mail ccount must oth end nd  

receive ata rom hat ccount's ssociated mail erver. 

Therefore, o nsure that ll data s gathered t must be  

collected t ts ource.  ll ata ontained within he 

centralized server is available for collection, such as from, to, cc, bcc, subject, time of receipt at the mail server, etc. Copying data directly rom he erver llows he ocial 

network nalyst o ccurately tudy ll mail 

communications within  tudy group or those utilizing their given email address. 

Implementing erver ased pplication lso 

precludes he ubjects nvolved n he tudy rom corrupting an d inserting bias into the data. With a client- 

side application, users had the ability to turn off, remove or disrupt the xecution of the program used to monitor 

email. With a server-side collection technique, the clients 

are completely unaware or knowledgeable about when or  what s ollected. W e ound hat while t akes more 

overhead o nitiate he etrieval of email raffic rom mail erver, here s urprisingly ittle overhead n he 

part f  erver dministrator o ctually ssist he 

research ffort n athering ata. ince og iles re  

typically tored in  ommon location on the erver, the 

administrator need only make these files available. When 

operated cross  network, he/she an asily op y these log iles o  ommon ocation rom where he erver- 

based data collection program ca n import the data. 

By resenting wo ethods or athering nd  

analyzing email data, we have shown both advantages an d disadvantages or he ocial etwork nalyst. hese 

strengths an d limitations must be considered by an y social network analyst when studying email traffic. Even though 

gathering ata t ts ource oes rovide etter ata 

integrity, uch ata ollection means re ot lways 

feasible. n hese ases, mail ata ollected n decentralized manner ca n still provide insightful analysis of the underlying social network. 

Page 7: Unobtrusive Social Network Data Through Email

8/13/2019 Unobtrusive Social Network Data Through Email

http://slidepdf.com/reader/full/unobtrusive-social-network-data-through-email 7/7

We advise a practitioner to be highly sensitive to the 

privacy mplications f his rocess, specially n he 

public nd rivate ectors. eople within he military 

typically o ot maintain he xpectation f mail nd 

internet rivacy. his ay ot e rue n ther 

populations. are ust lso e xercised ith 

interpreting he esults of these ypes of social networks. 

It is important that trained social network analysts provide 

proper interpretation of the organizational behavior, while 

respecting the privacy of individual dentities. evealing 

the position an individual maintains n the social network 

of an organization may lead to an overall decrease in trust 

and dversely ffect he eadership limate within he 

organization. hen sed roperly, owever, ocial 

network nalysis an rovide  ealth f aluable 

information o he rganization. everal ommands 

within he rmy ave lready mplemented ocial 

network data collection from email. hese methods have 

been utomated n he oftware package ORA, which s 

maintained by CASOS at Carnegie Mellon University and 

can be freely downloaded by the military and academia. 

Future esearch n his rea will ikely xplore he 

impact of cellular phone communication and blackberries 

on ocial etworks within he military. his ine f 

research will urther upport he fficacy f Netcentric 

Operations within he Army. ocused esearch nto he 

usage f cell phones, lackberries, -mail, nd ace-to- 

face ommunication uring major roup ctivities will 

provide greater insight into social network data collection. 

Understanding the desired channels of communication for 

military eaders, may ignificantly ontribute o haping 

the communication echnologies hat he DoD nvests n. 

This ine of research may also provide data or real-time monitoring of organizational change. t will certainly be 

valuable in enhancing command and control systems used 

by the military. 

ACKNOWLEDGEMENTS  This research is part of  the IkeNet project in the U.S. Military Academy 

Network Science Center an d the Dynamics Networks project in CASOS 

(Center for Computational Analysis of Social an d Organizational Systems, http://www.casos.cs.cmu.edu) at Carnegie Mellon University. This work wa s supported in part by:  

• Th e Army Research Institute for th e Behavioral an d Social Sciences,  Army Project No . 611102B74F/ Grant No . CM U - W91WAW07C0063 

• Th e Army Research Labs Grant No . DAAD  19-01-2-0009 

• Th e views an d conclusions contained in this document are those of  the authors an d should not be interpreted as representing the official policies, either expressed or implied, of the National Science Foundation  or th e U.S. government.  

Carley, K.M. 2002) Smart Agents and Organizations of  the 

Future. The Handbook ofNew Media. Edited by Leah 

Lievrouw an d Sonia Livingstone, Ch . 2, pp. 206-220, 

Thousand Oaks, CA , Sage. 

Carley,  .M., olumbus,  .,  eReno, M., eminga, . nd  

Moon, I. 2008). OR A User's Guide 2008. Carnegie  Mellon 

University,   School  of  Computer   Science,   Institute or 

Software Research, 

echnical Report, CMU-ISR-08-125. 

Carvalho, V.R.,, Wu, W. & Cohen W. W., (2007). Discovering 

Leadership Roles in Email Workgroups. In Proceedings, 

CEAS 2 7  Fourth Conference  on  Email andAnti-Spam, 

Au g 2-3, 2007 Mountain View, CA , www.ceas.ee. 

Diesner, ., Frantz, T. , Carley, K. M. 2005)  Communication 

Networks rom he Enron Email Corpus t's Always About 

the  People.  Enron  is  no  Different.  Computational  and 

Mathematical Organization Theory, 1, 20 1 - 228. 

Ducheneaut, N; Bellotti, V. (2001). Email as habitat: An  

exploration of embedded personal information management.  

ACM Interactions. Sep-Oct, 30-38. 

Frantz, T. , Carley, K.M. 2008a) Transforming raw-email data 

into ocial-network nformation. n hristopher .  ang, 

Hsinchun Chen, Michael Chau, Kuiyu Chang,  heau-Dong  

Lang, Patrick  . Chen, Raymond Hsieh, Daniel Zeng, Fei- Yu e Wang, Kathleen Carley, Wenji Mao, nd ustin Zhan  

(Eds.).  Intelligence nd ecurity nformatics  Workshops, 

PAISI, PACCF and SOCO 2008 Springer, Lecture Notes in 

Computer cience, o.  5075. acific Asia Workshop n 

Intelligence an d Security Informatics (PAISI 2008). 

Frantz, T. & Carley, K.M. (2008b). CEMAPII: An Architecture 

and Specifications to Facilitate the Importing ofReal-World 

Data nto he ASOS oftware uite.  Carnegie Mellon 

University Technical Report (ISR-08-130) 

Gloor, P. & Zhao, Y. (2004). TeCFlow - A Temporal 

Communication Flow Visualizer fo r Social 

Networks Analysis. In Proceedings, ACMCSCW 

Workshop on Social Networks, N ov 6, Chicago, IL , 

McCulloh, I.A., Carley, K.M. (2008). Social Network Change 

Detection. Carnegie Mellon University, Technical Report, CMU-CS-08-116.  

McCulloh, I.A., Garcia, G, MacGibbon, J. , Tardieu, K, Dye, 

H. , Moores, K, Graham, J. (2007). IkeNet: Social Network Analysis ofe-mail Traffic in  the  Eisenhower Leadership 

Development Program. rm y Research Institute Technical 

Report 1218. 

Tyler, J. R. , Wilkinson, D. M., Huberman, B. A. (2003). mail 

as Spectroscopy: Automated Discovery of Community  

Structure within Organizations. ommunities and 

Technologies, 81-96. 

Viegas, F.B., Golder, S. , & Donath, J. (2006). Visualizing email 

content: portraying relationships from conversational 

histories. In Proceedings of the SIGCHI conference on 

Human  Factors  in  computing systems. Montreal, Quebec, 

Canada, 979-988.  

REFERENCES 

Carley, K.M. 2003). Dynamic Network Analysis. n Dynamic 

Social Network Modeling and Analysis: Workshop Summary and Papers, Ronald Breiger, Kathleen Carley, nd Philippa 

Pattison, Eds.) ommittee n uman actors, ational 

Research Council, National Research Council. Pp. 33-145.