Checklist Tape San v3

22
Checklist de Dispositivos de Fita para Ambiente SAN A ocorrência de erros de I/O tais como [90:190] Invalid format version of Data Protector medium, [90:51] Cannot write to device, [90:54] Cannot open device, na maioria das vezes não são decorrentes de problema de hardware ou do DP, mas da ação de agentes externos ao Data Protector que durante a operação de backup (escrita em midia), forçam o dispositivo a executar uma operação de rewind. Como o Data Protector não tem ciência desta operação, após o rewind, os dados continuam sendo escritos, sobreescrevendo a header da fita. Desta forma, a fita deixa de ser reconhecida e passa para um status BLANK. A mídia registrada no pool que deixou de existir por perda do header permanecerá no pool com status POOR. Pela experiência de suporte, os agentes mais comuns em ambiente SAN que causam este comportamento são: - ferramentas de monitoração de dispositivos; - ferramentas de monitoração da SAN; - outras aplicações de backup ativas na SAN (arcserver, por exemplo); - política de locking de dispositivos de fita do DP incorretamente aplicada. - reset da SAN, switches problemáticos, manutenção da SAN; - reboot de sistemas linux; - drivers de Fibre Channel e SCSI desatualizados; Pode-se claramente identificar a ocorrência deste tipo interferência, analisando o report da(s) NSR(s), localizando a string “FCP_CDB 00000000” na sessão de traces: ... 19505ms 289us Vx Date 04/24/08 Time 16:01:15 0ms 1us FrmHdr 06040b00 00050c00 08290008 00000000 0136ffff Port 0 0ms 2us FCP_LUN 00000000 00000000 FCP_CNTRL 00000000 FCP_DL 00000000 0ms 0us FCP_CDB 00000000 00000001 44000000 00000000 IOCB 80F2B5DC 0ms 20us RMI_getPortIdforRoute: routeIndex: x3, Route_Port: x0 0ms 2us fcpTrns_cleanupPersistentCommand: Leaving .... 1

Transcript of Checklist Tape San v3

Page 1: Checklist Tape San v3

Checklist de Dispositivos de Fita para Ambiente SAN

A ocorrência de erros de I/O tais como [90:190] Invalid format version of Data Protector medium, [90:51] Cannot write to device, [90:54] Cannot open device, na maioria das vezes não são decorrentes de problema de hardware ou do DP, mas da ação de agentes externos ao Data Protector que durante a operação de backup (escrita em midia), forçam o dispositivo a executar uma operação de rewind.

Como o Data Protector não tem ciência desta operação, após o rewind, os dados continuam sendo escritos, sobreescrevendo a header da fita. Desta forma, a fita deixa de ser reconhecida e passa para um status BLANK. A mídia registrada no pool que deixou de existir por perda do header permanecerá no pool com status POOR.

Pela experiência de suporte, os agentes mais comuns em ambiente SAN que causam este comportamento são:

- ferramentas de monitoração de dispositivos;- ferramentas de monitoração da SAN;- outras aplicações de backup ativas na SAN (arcserver, por exemplo);- política de locking de dispositivos de fita do DP incorretamente aplicada.- reset da SAN, switches problemáticos, manutenção da SAN;- reboot de sistemas linux;- drivers de Fibre Channel e SCSI desatualizados;

Pode-se claramente identificar a ocorrência deste tipo interferência, analisando o report da(s) NSR(s), localizando a string “FCP_CDB 00000000” na sessão de traces:

...19505ms 289us Vx Date 04/24/08 Time 16:01:15 0ms 1us FrmHdr 06040b00 00050c00 08290008 00000000 0136ffff Port 0 0ms 2us FCP_LUN 00000000 00000000 FCP_CNTRL 00000000 FCP_DL

00000000 0ms 0us FCP_CDB 00000000 00000001 44000000 00000000 IOCB

80F2B5DC 0ms 20us RMI_getPortIdforRoute: routeIndex: x3, Route_Port: x0 0ms 2us fcpTrns_cleanupPersistentCommand: Leaving ....

Como reforço, segue um excerto traduzido do Enterprise Backup Solution Design Guide, documento que deve ser utilizado quando da configuração de um ambiente de backup (http://h18000.www1.hp.com/products/storageworks/ebs/):

Rogue applications“Rogue applications” (ou aplicações trapaceiras), é uma categoria de

produtos de software frequentemente encontradas em ambientes de SAN que podem interferir no funcionamento normal de operações de backup e restore. “Rogue applications” incluem agentes de gerenciamento, softwares de monitoração e uma ampla lista de drive de fitas e utilitários de configuração de sistema. Uma lista de “rogue applications” conhecidas e os sistemas operacionais onde elas rodam pode

1

Page 2: Checklist Tape San v3

ser vista abaixo. Esta lista não pretende cobrir todas as aplicações, é somente um exemplo das mais comuns.

. Windows (all versions). SAN Surfer (HBA configuration utility). HBAnywhere/lputilnt (HBA configuration utilities). HP System Insight Manager (management agents). Removable Storage Manager. HP Library & Tape Tools (tape utilities)

. Linux (all versions). SAN Surfer. HP Library & Tape Tools. mt commands (native to OS)

. Unix. mt commands (native to OS). diagnostics

. Solaris. SUN Explorer (system configuration utility)

Essas aplicações, utilitários e comandos reconhecidamente interferem nos componentes onde os dados trafegam e quando rodados concorrentemente as operações de backup ou restore, tem o potencial de causar interrupção de jobs, corrupção de dados e emitir falsos alarmes de hardware. Por exemplo, utilitários de HBA tais como SAN Surfer e HBAnywhere tem a habilidade de de resetar portas de Fibre Channel; utilitários como HP Library and Tape Tools permitem testes completos e reset de devices e upgrade de firmware; agentes de gerenciamento e utilitários, tais como HP Systems Insight Manager and SUN Explorer fazem polling de dispositivos de fita e podem causar interrupções e/ou contenções no acesso aos mesmos.

Recomendações

Implemente uma política de acesso restritiva aos dispositivos da library, evitando que novos hosts tenham inadvertidamente acesso aos drives da library. O discovery manual e a associação de um mapa nulo inicial para um novo host do router fazem esta função.

As seguintes ações que devem ser efetivadas em todos os servidores que tenham acessos compartilhados, via SAN, aos dispositivos de fita (drives e libraries):

Manter os drivers de Fibre Channel e SCSI/SCSI-tape atualizados nos sistemas operacionais;

Manter um controle rígido de mudanças nos hosts da SAN;

IMPORTANTE:Instalação de atualizações de software ou hardware (Windows Service Pack,

Proliant Support Pack) eventualmente podem desfazer as modificações aqui

2

Page 3: Checklist Tape San v3

sugeridas, retornando à uma condição em que teremos as interferências presentes novamente no ambiente.

REVISE ESTE CHECKLIST APÓS QUALQUER ATUALIZAÇÃO DOS SERVIDORES.

3

Page 4: Checklist Tape San v3

Ambiente Windows

Desabilitar os serviços:

RSM (Removable Storage Manager)

Start > Run > dcomcnfg, ao acessar o MMC - Component Services > Computers > My Computer > Dcom Config > Removable Storage Manager, selecionar e clicar com o botão direito do mouse e em seguida clicar em properties

4

Page 5: Checklist Tape San v3

Na aba location verificar se a apção "Run Applcation on this computer" está desabilitada.

Desabilitar também o serviço em “Services” do painel de controle – ferramentas administrativas

5

Page 6: Checklist Tape San v3

TUR (Test Unit Ready)

Tomar as ações recomendadas em

http://support.microsoft.com/default.aspx?scid=kb;en-us;842411

Ou

http://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?lang=en&cc=us&objectID=c00718488&jumpid=reg_R1002_USEN

Manually edit the system registry using RegEdit. Logged into the system as a user with Administrative privileges, run RegEdit and navigate to the following registry key:

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\hplto.

To disable RSM polling, edit the AutoRun value found in this key. A value of 0 (zero) indicates that polling is disabled; a value of 1 indicates that polling is enabled.

If this key does no exist, create it:

 

Value: AutoRun Type: REG_DWORD Data: 0 is disabled 

After completion of these steps, the affected system should be rebooted.

IMPORTANT: Adding or removing tape drives from the system may cause an older driver inf file to be re-read, which in turn can re-enable RSM polling. If drives are added or removed, the registry should be checked for proper configuration and, if necessary, repeat step 2 above.

6

Page 7: Checklist Tape San v3

HP Management Agents - Storage Agents

Start > Control Panel > HP Management Agents.

Na barra de título pode ser identificada a versão do HP Management Agents instalada

7

Page 8: Checklist Tape San v3

Na aba de Process Monitor, localizar “cqmgstor” e clicar na opção “Stop”. Clicar em Ok.

8

Page 9: Checklist Tape San v3

Start > Run > service.msc

9

Page 10: Checklist Tape San v3

HP Management Agents - Fibre Agent Tape Support

Start > Control Panel > HP Management Agents.

Na barra de título pode ser identificada a versão do HP Management Agents instalada

Uma vez identificada a versão dos agents, siga as instruções abaixo para desabilitar o tape device polling.

10

Page 11: Checklist Tape San v3

Agentes na Versão 7.30 e Superiores

Clique na aba Storage e marque a checkbox Disable Fibre Agent Tape Support.

Agentes na Versão 7.20

Clique na aba Storage e marque a checkbox Disable Fibre Agent Tape Support.

11

Page 12: Checklist Tape San v3

Agentes nas versões 7.10 e 7.00

Para desabilitar o Fibre Array Tape Support, aplique o SoftPaq SP25792 disponível em: ftp://ftp.compaq.com/pub/softpaq/sp25501-26000/SP25792.EXE.

A documentação deste SoftPaq está disponível em: ftp://ftp.compaq.com/pub/softpaq/sp25501-26000/sp25792.txt

Para confirmar, checar o registry:[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\CqMgStor\CPQFCA]"DisplayName"="Fibre Array Information""Timeout"=dword:0001d4c0"DisableFlags"=dword:00000001

12

Page 13: Checklist Tape San v3

HBA’s de Fibra

Emulex:

If you are using Emulex HBA, the Emulex HBA driver has to be updated and resetTPRLO has to be set to 2 as per HP guide lines. This can be done directly in the System Registry or using Lputil Utility. This utility will be there along with the Emulex device drivers.Servers with Emulex adapters using Storport:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\elxstor\Parameters\Device"DriverParameters"="NodeTimeOut=10;LinkTimeOut=40;QueueTarget=1;EmulexOption=0;ResetTPRLO=2;"

QLogic:

5. If you are using QLogic HBA, from the "Configuration settings" menu in FastUTIL, select "Advanced Adapter Settings" and set the "Enable Target Reset" to NO, the default is 'Yes'.(If installed, you can also use the SANSurfer CLI or the SANSurfer GUI, check the manual of the HBA for details).

For Qlogics FC-Adapter: Go into the registry and change this parametersHKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device"DriverParameters"="UseSameNN=0;"To"DriverParameters"="UseSameNN=0;rstbus=2;tapereset=0"

!! Some configuration need the SCSI reset to be enable (like clusters configuration) to work correctly, check with customer if these settings can be made in his configuration.

13

Page 14: Checklist Tape San v3

Outras ferramentas de backup

Verificar a existência de outras ferramentas de backup instaladas, tais como NTBackup ou ArcServer e desabilitá-las.

...e qualquer outro serviço de monitoração de dispositivos de fita.

14

Page 15: Checklist Tape San v3

Ambiente Linux:

Desabilitar o serviço HP Linux Storage Agent para sistemas Prolianthttp://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?objectID=c00715023

/opt/compaq/storage/etc/cmascsid stop vi /opt/compaq/storage/etc/cmascsid Comentar a linha . $CMAINCLUDE

SUsE:http://support.novell.com/techcenter/psdb/f3f70d4088fdc8473c2b7d44afa82b30.html

 

Desabilitar devices com rewind no RedHat:1 – Renomeie os devices com rewind:

edite-> /etc/udev/rules.d/50-udev.rulesadicione-> KERNEL="st[0-9]*", BUS="scsi", NAME="xst%n"

2 – Mude os parâmetros default dos devices com rewind:edite-> /etc/udev/permissions.d/50-udev.permissionsmodifique a linha de permissões do st para-> xst*:root:disk:0000

3 - Reboot o servidor.

15

Page 16: Checklist Tape San v3

Ambiente HP-UX (pré 11.31):

verificar os parâmetros de kernel:st_san_safe = 1st_ats_enable = 0

o st_san_safe

This feature prevents that another HP-UX host is able to open a tapedevice with the automatic rewind at close functionality. It does notprevent another host from doing all other kind of things with the tapedrive. One could for example issue a different tape position commandwith mt. A tape drive is a non tagged queuing scsi device, that meansonly one command to a tape drive can be outstanding. That limits thepossibility that a host that is not using the drive for a backup willinterfere with the currently ongoing backup, but it can not guaranteethat another host interferes.

o st_ats_enabled

This parameter enables a feature that the scsi command set offers. It isa reserve and release mechanism. A host can reserve a drive so that onlythis host can access this drive. Any other host which tries to accessthis drive will receive a check condition "reservation conflict" and notbe able to do anything with this drive. The host that holds thereservation needs to explicitly release the drive again when it doesn'tuse the drive anymore. The biggest problem arises when the host does notrelease the drive, then all other hosts are not able to access the driveas well as they can not break the reservation conflict. The onlypossibility is to reset the tape drive or the original host will do therelease. The above kernel tunable enables the (s)tape driver to reservethe drive when one opens the tape device and do a automatic release whenthe device is closed.

It is important to understand that only st_ats_enabled can assure thatno other host can access a tape drive while another one is using it.This is a type of mandatory locking. Due to the mentioned problems tobreak the reservation should a host have "forgotten" to release thereservation, Omniback and other backup solutions do not use thismechanism anymore. They favor the first mechanism, that only preventsthe rewind of the tape through other hosts, but it is important tounderstand that this is not a real locking meachanism that can preventothers from doing wrong things with the tape drive. Omniback and otherbackup solutions try to coordinate the tape access by some cell servers,but they can not prevent that a system admin accidently accesses a tapedevice file with mt or another command.

16

Page 17: Checklist Tape San v3

Verificar se o EMS está na versão A.29.00 0112 December 2001 ou superior, a qual já deve conter a cfg abaixo:

Set the POLL_INTERVAL value in the file /var/stm/config/tools/monitor/dm_stape.cfg to zero to stop the monitor from polling and uncomment it (remove the leading #). The dm_stape.cfg config file will be reread within 60 minutes if polling was disabled, otherwise within one current polling cycle (no reboot is necessary). IMPORTANT NOTE: The diaglogd process must be running when you set the POLL_INTERVAL value to zero. Otherwise, the monitor will fill the api.log file with error messages (until the hard disk space is used up) and consume most of the CPU time. Under no circumstances should diaglogd or the STM diagnostics be shut down!

Ambiente HP-UX (B.11.31)

Instalar o último patch de SO 11.31 estape cumulative patch (atualmente é o PHKL_39593) e suas dependências.

On previous versions of HP-UX the client had to issue the following command: # kctune st_san_safe=1 . With HP-UX B.11.31, the command needed to get the same functionality is: # scsimgr set_attr -d estape -a norewind_close_disabled=1 . To preserve the change across reboots, the user must also run: # scsimgr save_attr -d estape -a norewind_close_disabled=1 . To confirm your desired settings, run: # scsimgr -d estape get_attr .         DRIVER estape GLOBAL ATTRIBUTES: . name = version current = 0.1 default = saved = . name = norewind_close_disabled current = 1  <--- Here is the set_attr change default = 0 saved = 1    <--- The save_attr will save the setting across reboots . name = st_ats_enable current = 0 default = 0 saved = . For more information, read the scsimgr(1M) and scsimgr_estape(7) man pages or refer to the I/O subsystem section of the release notes for HP-UX 11iv3.

17

Page 18: Checklist Tape San v3

STM Info Tool:

root cause:

The info tool is sending TUR (Test Unit Ready) commands, which cause running

backups to abort and tapes to rewind if they are using rewind device files.

Up to hpux system running 11.23 and using the cstm info tool we are using

inquiries only but on hpux running 11.31, the cstm info tool is sending a TUR in

addition to the inquiry.

 

Solution:

Install online Diagnostic Sept 2009.

In this bundle the tape driver for online diags is fixed.

WORKAROUND:

 

as long online Diagnostic Sept 2009 is not available, install the binaries (PA or IA)

as follows:

-rw-r--r--   1 root       sys         159364 Mar  9 14:29 tlscsidev.sl_IA

-rw-r--r--   1 root       sys          61440 Mar 9 14:28 tlscsidev.sl_PA

Procedure to use these binary:

1)     Binary to be replaced in the target system is /usr/sbin/stm/uut/lib/tlscsidev.sl

2)     Take a backup of the existing binary at location /usr/sbin/stm/uut/lib using

the command: mv tlscsidev.sl tlscsidev.sl_backup

3)     Replace the corresponding (IA/PA) binary in the target system.

4)     Change the permission for the binary file as: chmod 555 tlscsidev.sl

5)     Change the owner: chown bin:bin tlscsidev.sl

6)     Issue the info command for tape.

tlscsidev.sl_IA tlscsidev.sl_PA

18

Page 19: Checklist Tape San v3

No ambiente DP:

Após a configuração de um ambiente de SAN, poderão existir múltiplos drives lógicos representando um mesmo drive físico. O Data Protector usa um mecanismo de locking que evita que um backup que utilize um determinado drive lógico venha a sofrer interferência de outro backup que utilize um device lógico que mapeie o mesmo drive físico. Este mecanismo é chamado “Lock Name” e consiste na utilização de um mesmo lockname para todos os drives lógicos que mapeiem o mesmo drive físico.

A configuração automática de devices do DP é a forma recomendada para evitar erros de configuração, pois cria os lock names e ajusta os drive index/SCSI paths automaticamente.

Levantamento do escopo do problema

Para verificar se há corrupção de headers, pode-se procurar nas mensagens das sessões de backup do DP em que tape drives o problema já ocorreu:

cd /var/opt/omni/server/db40/msg/2007/06for i in `grep -l 90:190 *`doecho $igrep -e BMA -e 90:190 $idone

Uma vez sabidos os drives em que o problema ocorre, é possível levantar os sistemas que os acessam via NSR para investigar somente os envolvidos com o problema.

19

Page 20: Checklist Tape San v3

CONFIGURAÇÃO DE LOCK

20

Page 21: Checklist Tape San v3

21