乾貨|電機控制器出現的一種偶發故障排查與分析

電子產品故障類別中,偶發故障由於故障現象的不可重複性,通常查詢原因較為困難。本文針對一種電機控制器產品出現的通訊偶發故障現象,透過認真細緻的分析輔以器件硬體檢查結果,最終確定故障原因是塑封積體電路內部分層。對於此類問題及隱患,可以從器件選型、篩選、儲存、工藝等方面進行控制,採取相應措施,避免故障的發生,提高產品可靠性。

1 引 言

隨著技術的發展,人們對電子產品質量的要求越來越高,在一些特殊的使用場合,如醫療、軍工等領域,可靠性是一項重要指標。對生產企業來說,產品可靠性代表責任、信譽和效益。因此產品研製過程出現故障時,要求快速、準確地定位故障原因,並採取有效措施避免故障再次發生。

在工程實際中,電子產品的故障表現形式多種多樣,從故障現象是否容易復現的角度,將其分為兩類,對於能夠輕易復現的故障,透過實驗對比的方法,查詢原因較為簡單。而另一類故障很難復現,往往只出現一次或幾次,極難捕獲,原因也較為隱蔽,因而容易被忽視,但它同樣會使產品乃至系統失效,導致嚴重後果。

我公司研製的一款永磁電機控制器產品序列通訊功能在現場執行時曾出現過此類故障,經過耐心細緻的分析及測試,我們對各種情況逐一排查,最終查清原因,排除了隱患。以下做具體分析。

2 控制器功能及序列通訊故障現象概述

2.1 永磁電機控制器工作狀況

永磁電機是總體系統若干執行機構中的一個,控制器用於驅動電機,根據檢測到的電機轉子位置訊號發出驅動訊號,透過功率開關依次向電機三相繞組供電,驅動電機轉動。該控制器同時具有通訊和鍵盤控制方式。

與上位總控系統之間透過RS422序列通訊方式傳輸資訊,控制器接收總控系統發出的電機啟動和轉速指令,同時向總控系統反饋電機的工作狀態,包括電壓、電流、轉速、轉向等資訊。通訊介面硬體原理見圖1。

圖1 通訊介面硬體原理

圖中SCI_RXD、SCI_RXD訊號與處理器串列埠連線, U7為RS422收發器件,U6為通訊隔離器件,採用隔離電源為通訊介面電路供電。全雙工工作模式,實現同時接收控制指令和反饋狀態資訊。其工作特徵是,控制器上電覆位後,自動定時向總控系統傳送狀態資訊。

2.2 控制器通訊故障現象

該控制器已在總體系統中穩定執行數月,在某次例行檢查測試中,控制器突然出現通訊連線故障,具體現象為:上位總控系統向電機控制器發出1280rpm轉速指令,電機啟動,上傳指令顯示控制器狀態正常;上位總控系統再發出200rpm變速指令時,發現控制器無響應,電機未減速,狀態資訊不上傳,上位總控系統再發出停機和復位指令,控制器均不響應,顯示通訊發生故障,無法傳輸指令和資訊,此時,鍵盤顯示正常。

故障狀態一直保持,其間有2次可以正常上傳資訊,後又進入故障狀態。約20分鐘後,通訊恢復正常,重複進行上述測試,一切正常。

2.3 故障發生後補充測試

控制器出現通訊故障後又進行了幾百次重複測試,測試時用示波器同時監檢視1中U6前後、U7之後的上傳訊號及RS422通訊電源電壓共4個點的訊號,結果故障現象未能復現,4個測試點觀測到的訊號完全正常。

3 通訊故障原因分析與確認

上述故障現象和補充測試表明,該控制器發生的通訊故障具有偶發性,只出現一次,之後進行的目的為復現故障的測試中,未能再次捕獲到通訊中斷現象,這使得排查故障原因變得相當困難。但該款產品可靠性要求很高,通訊功能一旦失靈,作為執行機構的永磁無刷電機將不受控,導致總體系統失效。

只要故障現象出現一次,就證明了隱患的存在。我們詳細瞭解了故障發生時刻相關資訊,包括操作方法、環境條件、供電情況等,分析了控制器通訊部分的工作原理,按照故障樹自上而下的全系統分析方法,將可能導致通訊中斷的原因分為三大類:硬體原因、軟體原因和電磁干擾。具體做出故障樹,按照故障樹對引起通訊中斷的原因進行逐一分析。

乾貨|電機控制器出現的一種偶發故障排查與分析

圖2 故障樹

3.1 控制器軟體檢查測試

電機控制器採用DSP作為處理器,組合語言程式設計,程式中利用一個定時器實現控制器定時向總控系統上傳狀態資訊;接收指令設計為中斷方式,一旦收到總控系統發出的啟動或停機指令,程式立即響應中斷跳入指令處理段。

透過對通訊相關程式進行測試和分析,認為控制邏輯簡單清晰、控制合理,程式設計方面也無漏洞,不會引起通訊故障。另一方面,假如通訊故障由軟體引起,故障現象不會持續20分鐘左右自行恢復,而且同批產品中也不可能只有一臺出現通訊故障,因此排除軟體出錯的可能。

3.2 電磁干擾原因分析

電磁干擾是導致電子產品故障發生的一個外在電應力,對產品的影響可能是永久的,也可能是暫時的,引發的故障具有偶發特徵,這點與控制器通訊故障在一定程度上吻合。但從產品設計方面,已經採取了相應的遮蔽、隔離、濾波去藕、地線處理等電磁相容措施,控制器產品本身抗干擾能力較強;同時,瞭解到故障發生時,現場電磁環境無變化,同在現場的同批次控制器均未出現異常情況,可以排除電磁干擾的可能性。

3.3 控制器硬體檢查

從硬體角度考慮,器件的管腳虛焊、線纜虛接和有關器件本身質量缺陷可能引起偶發故障,具體到本案,可以分為以下幾種情況分析。

3.3.1控制器內部及外接通訊線纜虛接

RS422通訊方式共4根線與上位總控系統進行上行和下行資料通訊,整個通道上使用了2個航空插頭進行連線,根據經驗,航空插頭焊杯與線纜的焊接處是焊接的薄弱環節,容易發生虛焊、虛接。為此,我們做了2項檢查:

(1) 由總控系統發出指令啟動電機執行,再發送不同的轉速指令,用示波器監視上傳資料訊號波形,同時用絕緣棒輕輕晃動航空插頭焊杯處線纜,觀測上傳資料波形的變化。試驗結果顯示,通訊訊號波形正常(圖3),晃動線纜時,未出現通訊中斷現象。

乾貨|電機控制器出現的一種偶發故障排查與分析

圖3 通訊上行通道訊號波形

(2) 停機後仔細檢查2個航空插頭焊杯處的焊接情況,焊接較好,未發現焊接線纜連線不牢靠問題。因此排除通訊線纜虛接的可能性。

3.3.2控制器印製板上通訊相關管腳虛焊

控制器印製板上幾乎都是表貼器件,有些是大規模積體電路,管腳細小密集,如果與通訊有關的個別管腳存在虛焊,也會導致偶發的通訊故障。將該控制器全部器件焊點置於光學放大鏡下做詳細檢查,重點檢查DSP、RS422收發器件管腳焊點情況,檢查結果顯示器件焊接狀況良好,沒有發現虛焊和短路。詳見圖4、圖5。

乾貨|電機控制器出現的一種偶發故障排查與分析

圖4 PCB板上積體電路焊接形貌1

乾貨|電機控制器出現的一種偶發故障排查與分析

圖5 PCB板上積體電路焊點形貌2

3.3.3通訊隔離電源工作狀態檢查

為保證控制器通訊不被幹擾,可靠工作,產品設計時將通訊電路做隔離處理,專門設計了一路5V隔離電源給收發器供電。

若該電源電壓質量差或掉電,必然導致通訊中斷。用示波器觀測通訊隔離電源在電機執行與停機狀態的波形,結果顯示通訊電源電壓波形較好,質量穩定;而且,通訊電源與處理器電源電壓出自同一開關電源,故障發生時刻處理器電源電壓正常,通訊電源並未掉電。

因此排除通訊隔離電源異常導致通訊故障的可能性。

3.3.4通訊相關器件質量檢查

控制電路中與通訊有關的整合晶片包括處理器、隔離器件、收發器,都屬於塑膠封裝半導體積體電路。將控制器拿到專業的實驗室,對這三種器件進行了聲學掃描顯微鏡檢查。

檢查結果顯示:DSP處理器、通訊隔離器2種積體電路內部引線架與塑封料介面、半導體基板與塑封料介面均連線良好,未出現分層(詳見圖6 圖7 圖8);RS422通訊收發器積體電路內部引線架與塑封料介面出現分層(詳見圖9),圖9中黃色圈住的區域內部顯示紅色的點,表示內部積體電路引線與管腳連線處出現分離,這種現象與器件管腳虛焊情況類似,表明連線不可靠,有可能導致通訊故障。

乾貨|電機控制器出現的一種偶發故障排查與分析

圖6 控制板上DSP積體電路聲學掃描形貌

乾貨|電機控制器出現的一種偶發故障排查與分析

圖7 通訊隔離器積體電路聲學掃描形貌1

乾貨|電機控制器出現的一種偶發故障排查與分析

圖8 通訊隔離器積體電路聲學掃描形貌2

乾貨|電機控制器出現的一種偶發故障排查與分析

圖9 RS422收發器積體電路聲學掃描形貌

綜上所述,偶發的通訊故障極有可能是由通訊收發器積體電路內部分層引起,為進一步確認故障原因,我們對控制器進行了3個迴圈的溫度衝擊試驗,高溫60℃、低溫-40℃,之後立即進行通訊功能測試,結果出現通訊故障,更換收發器件後,再次測試通訊情況,一切正常。這就證實了偶發的通訊故障確由收發器內部分層引起。進一步的機理分析見圖10。

乾貨|電機控制器出現的一種偶發故障排查與分析

圖10 積體電路內部結構連線示意圖

其中各介面表示含義是:A為晶片與塑封料介面;B為引線架與塑封料介面;C為引線架與塑封料介面;D為基板邊緣與塑封料介面;E為基板與塑封料介面。

各介面若產生分層,表示內部電路佈線連線狀態異常,很可能發生虛接,直接影響其工作可靠性。如果產生分層的器件再受到溫度應力變化的影響,就會使隱性的故障因素顯性化,故障現象由偶發變為確定。

塑封半導體器件產生分層的原因在於器件內部殘留少量水分,在溫度應力作用下,內部產生微小形變,致使半導體內部不同材料連線處分離。

4 預防改進措施

針對塑封半導體器件由於分層引起電子產品偶發故障的問題,應從幾方面採取措施加以解決和防範:

(1)在可靠性要求高的使用場合,關鍵電子器件的選型要慎用塑封器件;

(2)器件入廠檢驗時對塑封器件質量要重點檢查,剔除有明顯缺陷的器件;

(3)將塑封器件儲存在乾燥恆溫的環境中;

(4)焊接工藝上應控制好塑封器件的焊接溫度和時間。

(5)產品出廠前,要嚴格按照標準進行老練試驗,以發現早期失效器件。

5 結論

電子產品的偶發故障不易捕獲,特別是器件本身存在缺陷時,對於產品設計者而言不易查清根源,本文分析了電機控制器通訊故障發生的原因,進一步探究了由於塑封半導體器件分層引發故障的機理。只要從器件選型、檢驗、儲存、工藝等環節採取相應措施,這一類偶發故障就可以得到控制,產品可靠度得以提高。

END