Ucs correctable ecc policy change tac forum (28.apr.2016 - hoon jo - tac)

14
UCS Correctable ECC 정책 변경 조훈 과장 시스코 TAC 2016428

Transcript of Ucs correctable ecc policy change tac forum (28.apr.2016 - hoon jo - tac)

UCS Correctable

ECC 정책 변경

조훈 과장

시스코 TAC 팀

2016년 4월 28일

© 2016 Cisco and/or its affiliates. All rights reserved.

(관심을 가져야 할) 영향 받는 제품 군

기존 Correctable ECC 처리 절차

시스코의 의문점

변경 Correctable ECC 처리 절차

결론 및 추천 사항

© 2016 Cisco and/or its affiliates. All rights reserved.

영향 받는 제품

UCS로 운영되는 제품

전통적인 UCS

© 2016 Cisco and/or its affiliates. All rights reserved.

기존 Correctable ECC 처리 절차

© 2016 Cisco and/or its affiliates. All rights reserved.

기존 Correctable ECC 처리 절차

© 2016 Cisco and/or its affiliates. All rights reserved.

시스코의 의문점

Correctable ECC? 이걸 꼭 교체해야

하나?

© 2016 Cisco and/or its affiliates. All rights reserved.

시스코의 의문점

내용

기간 10주 이상

수량 서버 8,322

메모리 163,850

결과 CECC 주마다 5백 90만건이 발생

UECC (신규로) 단 한건도 UECC는 발생하지 않음

Correctable ECC는 Un-correctable로 바뀌는가?

Managing Correctable Memory Errors on Cisco UCS Servers - http://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.pdf

© 2016 Cisco and/or its affiliates. All rights reserved.

변경 Correctable ECC 처리 절차

어떤 변경이 이루어 지나요? UCSM 3.1(1) or CIMC 2.0(9) 이후로는 thresholds가 발생해도 시스템이 다운되지 않습니다. 즉, 메모리는 더이상 CECC thresholds로 인해서는 "Inoperable" or "Degraded"되지 않습니다.

고객이 당장 업그레이드를 하기 어렵다면? 임시적으로 메모리 카운트를 리셋할 수 있습니다. 하지만 또 발생할 가능성이 있기 때문에 권고하진 않습니다.

© 2016 Cisco and/or its affiliates. All rights reserved.

결론 및 추천 사항

Correctable ECC? 이걸 꼭 교체해야 하나?

© 2016 Cisco and/or its affiliates. All rights reserved.

결론 및 추천 사항

Correctable ECC? 이걸 꼭 교체해야 하나?

아니요 더이상 교체 할 필요가 없습니다.

© 2016 Cisco and/or its affiliates. All rights reserved.

질문 시간

UECC와 CECC의 차이가 이해가 되시나요? 바뀐 정책에 대한 의견을 부탁드립니다. 그 외에 질문도 좋습니다

© 2016 Cisco and/or its affiliates. All rights reserved.

참고 자료

What is ECC? ECC (which stands for Error Correction Code) RAM is very popular in servers or other systems with high-value data as it protects against data corruption by automatically detecting and correcting memory errors. Standard RAM uses banks of eight memory chips in which data is stored and provided to the CPU on demand. ECC RAM is different as it has an additional memory chip which acts as both error detection and correction for the other eight RAM chip

© 2016 Cisco and/or its affiliates. All rights reserved.

참고 자료

ECC Failure Rate Analysis ECC RAM is theoretically more stable and reliable than standard RAM, but many times theory does not match up with fact. To see if ECC RAM really is more reliable, we looked up our failure rates for ECC and non-ECC RAM over the past 3 years.

https://www.pugetsystems.com/labs/articles/Advantages-of-ECC-Memory-520/