Jump to content
Hlorofos

Ремонт: Bitmain Antminer s7, s9, l3+

Hlorofos

Все полезные ссылки и FAQ можно найти в первом сообщении. Прежде чем задать вопрос, посмотрите там.

Message added by Hlorofos

Recommended Posts

Ребята  всем привет. Просьба помочь. С меня магарыч. 

Проблема: на одной из плат температура стало показывать 15 градусов и частота упала до 900-1000.  Хотя показывает, что все чипы на месте. В чем может быть проблема?  Скрин и логи прилагаю.

 

 

kernel_log.txt

Скриншот 2018-04-11 20.58.18.png

Edited by Flashikyo

Share this post


Link to post
Share on other sites
40 минут назад, Flashikyo сказал:

Ребята  всем привет. Просьба помочь. С меня магарыч. 

Проблема: на одной из плат температура стало показывать 15 градусов и частота упала до 900-1000.  Хотя показывает, что все чипы на месте. В чем может быть проблема?  Скрин и логи прилагаю.

kernel_log.txt

 Чем помочь? там надо плату ремонтировать. 

Edited by vladiksam

Share this post


Link to post
Share on other sites

@Flashikyo

В 11.04.2018 в 23:04, yaroslav1980@mail.ru сказал:

В сервисе поменяли контрольку и все завелось .... оказалось дело в ней ((Можно ли починить старую ? Или сразу покупать другую а эту выкинуть ? Она ведь стартует и даже че то показывает ... есть у кого нибудь опыт перепрошивки быть может ?

@yaroslav1980@mail.ru Отремонтировать все можно.

Edited by profipc

Share this post


Link to post
Share on other sites

@Антон Коваленко  вы другой БП пробовали? 

Share this post


Link to post
Share on other sites
8 минут назад, profipc сказал:

@Антон Коваленко  вы другой БП пробовали? 

 

У нас они одинаковые, hp-хи по 1200.

Попробую завтра другие.

3 часа назад, Splinter сказал:

@Антон Коваленко Странные логи у вас. В них разные платы в разъеме J6? У них разные таблицы плохих чипов и частот. В первом логе вообще все чипы на этой плате помечены как плохие, при этом частоты стоят самые высокие. Первый лог обрезан? Там не хватает части с тестированием хэширования. Во втором нормально отрабатывает только средняя плата, с двух других после пробного хеширования  не читается температура и RT hashrate. Такое ощущение, что платы отваливаются после прогрева.  В последнем случае, если оставить одну среднюю плату, то она должна работать. Блок питания используете заведомо исправный?

В логах полная каша, тестируйте каждую плату по отдельности - так легче будет разобраться.

Большое спасибо за ответ. Платы собраны с разных асиков, так как на некоторых они вышли из строя, и в пустые слоты закинули с других. Асики брались все одной партией, и должны быть одинаковыми. 

Share this post


Link to post
Share on other sites
3 минуты назад, Антон Коваленко сказал:

 

У нас они одинаковые, hp-хи по 1200.

Попробую завтра другие.

Запаса по мощности вовсе нет. Маловато. S9 1350вт надо. Из-за этого могут быть эти проблемы. 

Edited by profipc

Share this post


Link to post
Share on other sites
1 минуту назад, profipc сказал:

Запаса по мощности вовсе нет. Маловато. S9 1350вт надо. Из-за этого могут быть эти проблемы.

 

Хорошо, проверим! Большое спасибо за ответ.

Share this post


Link to post
Share on other sites

 @profipcЯ заметил, что в таких логах, как например у @Flashikyo , там где показывает много не открывающихся ядер, и часто не читается температура идет таблица частот на этой плате с завышением относительно других плат в этом майнере. Странно, что бы 2 платы (нормально работающие) были на одну частоту, а именно сбойная на другую и всегда выше. На прошлой неделе общался с Челябинскими коллегами. Так вот у них на плате родной PIC был поменян на PIC, в котором были завышены частоты - лог совершенно такой-же как у пострадавших, куча не открывающихся ядер. Им нечем было шить память PIC и они махнули PIC еще раз, поставив, кажется, от L3+. В последнем не оказалось таблицы частот вообще, и контролька выставила частоту по дефолту 550 Мгц. И о чудо! все ядра открываются на 100%, только хэшрейт низкий. Это навивает на мысли, а не искажаются каим-либо образом данные в памяти PIC. Может какой-то баг в прошивке и контролька начинает в каком-то случае менять таблицу частот?

Есть какие либо мысли или практические данные по этому вопросу?

У кого есть подобные платы в ремонте, может попробуете понизить частоты в таблице в памяти PIC?

Share this post


Link to post
Share on other sites

Пересмотрел сейчас логи исправных майнеров. Так вот там даже на 14TH моделях частота не выше 662 Мгц. А у  @Flashikyo  и остальных со схожими симптомами аж 687 Мгц, при том, что на соседних платах у них 631 МГц и это явно не модели на 14TH. Это объясняет то, почему при конфигурировании ASIC'и отвечают (при старте они работают на какой-то низкой частоте и обмен по интерфейсу идет на скорости 115 200 б/c), а при шэшировании отваливаются и перестает считываться температура (частота из таблицы частот устанавливается непосредственно перед началом хэширования, скорость по интерфейсу выставляется 1 600 000 б/с, температура читается через 61-й ASIC).

Share this post


Link to post
Share on other sites
6 минут назад, Splinter сказал:

Пересмотрел сейчас логи исправных майнеров. Так вот там даже на 14TH моделях частота не выше 662 Мгц. А у  @Flashikyo  и остальных со схожими симптомами аж 687 Мгц, при том, что на соседних платах у них 631 МГц и это явно не модели на 14TH. Это объясняет то, почему при конфигурировании ASIC'и отвечают (при старте они работают на какой-то низкой частоте и обмен по интерфейсу идет на скорости 115 200 б/c), а при шэшировании отваливаются и перестает считываться температура (частота из таблицы частот устанавливается непосредственно перед началом хэширования, скорость по интерфейсу выставляется 1 600 000 б/с, температура читается через 61-й ASIC).

 

По симптомам у меня было так. Сначала упала температура на 15 градусов, хеш был в норме 4 500. Поработал так примерно 2 недели и после хеш упал до 1 000.

Share this post


Link to post
Share on other sites

@Flashikyo 15 градусов это дефолтная температура, не читается датчик температуры.

При скорости 4500 у вас получается модель на 13,5TH. Вы через скрытые меню в веб-интерфейсе частоты не меняли?

Share this post


Link to post
Share on other sites
1 минуту назад, Splinter сказал:

@Flashikyo 15 градусов это дефолтная температура, не читается датчик температуры.

При скорости 4500 у вас получается модель на 13,5TH. Вы через скрытые меню в веб-интерфейсе частоты не меняли?

Да у меня на 13.5. Но выдавал по факту 13.7. Частоты не менял.

Share this post


Link to post
Share on other sites

@Flashikyo Тогда попробуйте поменять частоту (естественно на меньше). Для вашей модели частота явно завышена. Ваша - 631 МГц. Правдо не уверен, что при наличии таблицы частот в памяти PIC, смена частоты в конфиге возымеет эффект.

Edited by Splinter

Share this post


Link to post
Share on other sites

А есть где нибудь инструкция как поменять частоты?

Share this post


Link to post
Share on other sites

@Flashikyo Не мучайтесь ставьте прошивку с фиксированной частотой 600. Тот же результат будет.

@Splinter Тоже заметил, что сбойные платы на прошивке с автовыбором частоты, чаще всего, легко начинают запускаться и работать на прошивке с фиксированной частотой. Симптомы с завышением частот наблюдаю - вы правы.

Edited by profipc

Share this post


Link to post
Share on other sites

@Splinter давайте попробуем изменить частоты у первой платы. Асик работает - цепляется минут  15. ошибок полно. Подскажите где у нас частоты - я с этим не разбирался.

 

myasic.txt

 

Share this post


Link to post
Share on other sites

Вот для 637 МГц

Скрытый текст

000F80    2350    0000    0000    000F    0030    0001    0011    0000
000F88    0010    0003    0011    0021    0000    0002    0021    0001
000F90    0012    0011    0011    0011    0010    0000    0020    0001
000F98    0001    0000    0010    0000    0012    0000    0000    0000
000FA0    007D    0048    0048    0448    0848    0048    0348    0348
000FA8    0348    0348    0348    0348    0348    0348    0348    0348
000FB0    0348    0348    0548    0748    2348    0048    0048    0048
000FB8    0048    0048    0048    0048    0048    0048    0048    0048
000FC0    0048    0048    0048    0048    0048    0048    0048    0048
000FC8    0048    0048    0048    0048    0048    0048    0048    0048
000FD0    0048    0048    0048    0048    0048    0048    0048    0048
000FD8    0048    0048    0048    0048    0048    0048    0048    0048
000FE0    3F5B    3E00    0000    0000    231C    3FFF    3FFF    3FFF
000FE8    3FFF    3FFF    3FFF    3FFF    3FFF    3FFF    3FFF    3FFF
000FF0    3F08    3F75    3F0A    3F18    3F57    3F3C    3FBC    3FB8
000FF8    3FD5    3F01    3F52    3F4B    3FFF    3FFF    3FFF    3FFF

 

Share this post


Link to post
Share on other sites

@Splinter я пробовал так делать и 43 также поставлял (не на этом на другом асике с проблемами) - я только почему то решил что это напряжения. Изменений не было. Повторю с утра.

Edited by profipc

Share this post


Link to post
Share on other sites

Я уже давал полную расшифровку, продублирую еще раз. Можете сами выбрать нужную частоту. Кроме частот на каждый чип, нужно так же не забыть сменить частоту в параметре base_freq_index. Смещения в квадратных скобках даны относительно адреса 0x0FA0 и исчисляются в байтах (а не в словах как в реальной памяти PIC). Таблица freq_index записана в десятичной сиcтеме, т.е. , например, частота 550 = 58 = 0x3A,  600 = 66 = 0x42.

Скрытый текст

 

PIC_FLASH_POINTER_FREQ_START_ADDRESS   0x0FA0
PIC_FLASH_POINTER_FREQ_END_ADDRESS     0x0fDF
[0] = freq_gap;
[1] = FREQ_MAGIC = 0x7D;
[2] = старшие 4 бита temp_offset; // temp offset is not used now, set 0
[4] = младшие 4 бита temp_offset;
[6] = старшие 4 бита base_freq_index;
[8] = младшие 4 бита base_freq_index;
[10] = chain_vol_added;
[12] = старшие 4 бита minerMAC[0];
[14] = младшие 4 бита minerMAC[0]);
[16] = старшие 4 бита minerMAC[1];
[18] = младшие 4 бита minerMAC[1]);
[20] = старшие 4 бита minerMAC[2];
[22] = младшие 4 бита minerMAC[2]);
[24] = старшие 4 бита minerMAC[3];
[26] = младшие 4 бита minerMAC[3]);
[28] = старшие 4 бита minerMAC[4];
[30] = младшие 4 бита minerMAC[4]);
[32] = старшие 4 бита minerMAC[5];
[34] = младшие 4 бита minerMAC[5]);
[36] = старшие 4 бита chain_vol_value/10;
[38] = младшие 4 бита chain_vol_value/10;
[40] = magic_number = 0x23;
неиспользуемые четные адреса должны быть равны 0
нечетные адреса = freq_index
freq_index = 
[00]  "100" "125" "150" "175" "200" "225" "250" "275" "300" "325"
[10]  "350" "375" "400" "404" "406" "408" "412" "416" "418" "420"
[20]  "425" "429" "431" "433" "437" "441" "443" "445" "450" "454"
[30]  "456" "458" "462" "466" "468" "470" "475" "479" "481" "483"
[40]  "487" "491" "493" "495" "500" "504" "506" "508" "512" "516"
[50]  "518" "520" "525" "529" "531" "533" "537" "543" "550" "556"
[60]  "562" "568" "575" "581" "587" "593" "600" "606" "612" "618"
[70]  "625" "631" "637" "643" "650" "656" "662" "668" "675" "681"
[80]  "687" "693" "700" "706" "712" "718" "725" "731" "737" "743"
[90]  "750" "756" "762" "768" "775" "781" "787" "793" "800" "825"
[100] "850" "875" "900" "925" "950" "975"

PIC_voltage = 1608.420446 - 170.423497*vol_value/100.0; // vol_value = 940 означает 9,4В
vol_value = ((1608.420446 - PIC_voltage) *100.0)/170.423497 отбрасывается дробная часть и обнуляется крайнее правое значение.

 


 

Share this post


Link to post
Share on other sites

Есть плата с9 которая переодически доводит до истерики.изначально видела 26 чипов либо показывала в интерфейсе все чипы хэшрейт ноль и температуру 15 гр.разумеется в силу ожидания абсолютной халявы был заменён 27 чип и плата прекрасно таки завелась  (ибо была прогрета.ну а дальше цирк с конями.хэшрейт появляется либо когда асик на улице при минусовой почти температуре.либо когда плата вынута из корпуса и сама себя прогревает.по логике вещей это отвал одного из чипов?или pic с ума сходит по показаниям температуры?от этого железа можно ждать чего угодно ,так что лучше сто раз прочитать и 10 раз переспросить.Можно ли для проверки с л3+ кинуть pic как писалось выше?)))логи обязательно скину вечером как доберусь до аппарата.

Share this post


Link to post
Share on other sites

А не попробовали 62 чипос махнуть или пропаять?

Share this post


Link to post
Share on other sites

Крутится такая мысль.датчик температуры как я понял прицеплен последовательно за 62 чипом?то есть если между 26 и 62 чипом что то в отвале то показания температуры будут такие же.плюс маловероятно что сам чип целиком в отвале,скорее всего бга внутри чипа.датчик кстати менял

Share this post


Link to post
Share on other sites
1 час назад, tetra3420 сказал:

или pic с ума сходит по показаниям температуры?....Можно ли для проверки с л3+ кинуть pic как писалось выше?

PIC с температурой напрямую никак не связан. Он управляет питанием и хранит в себе настройки платы (частоты, рабочее напряжение, плохие чипы, калибровки датчика температуры и т.п.), плюс в нем вотчдог (в терминах китайцев heart beat). 

Про замену PIC c L3+ писалось в контексте завышения рабочих частот. Если у вас частоты соответствую заявленному хэшрейту, то смысла в такой замене нет. Если хотите понизить частоту для проверки стабильности работы, то попробуйте сначала программные методы: прошивка с фиксированной частотой или ручная установка частоты с помощью скрытых меню в веб-интерфейсе или через конфиги по ssh.

1 час назад, tetra3420 сказал:

датчик температуры как я понял прицеплен последовательно за 62 чипом?то есть если между 26 и 62 чипом что то в отвале то показания температуры будут такие же.плюс маловероятно что сам чип целиком в отвале,скорее всего бга внутри чипа.датчик кстати менял

Я конечно сам точно не разобрался, но по одной простой причине датчик температуры не может быть последовательно подключен за 62-м чипом: асики опрашиваются по UART, а датчик температуры по I2C. Там схема примерно такая: в качестве внешнего датчика для tmp451 используется встроенный в 62 асик термодатчик, а опрос tmp451 ведется через встроенный в 61 (а может и в 62) асик i2c интерфейс ну и дальше гонится по uart по цепочке к 1-му асику и в контрольку.

Поправьте меня если в чемто ошибся.

Так что если вы уже поменяли tmp451, то пропаяйте 61 и 62 асики, не поможет - меняйте их.

Share this post


Link to post
Share on other sites

@Splinter  датчик висит на  15 и 16 контакте(по разводке платы это хорошо видно) среднего чипа, последней тройки чипов. Сами считайте - вроде 62. в остальном все верно.

Edited by profipc

Share this post


Link to post
Share on other sites

@profipc 15 и 16 выводы это как раз встроенный полупроводниковый датчик температуры, к нему и подключается tmp451 как к датчику (вы правы, именно к 62 асик). А вот по i2c tmp451 должна подключаться к 17 и 18 ногам асик, а вот какого 61 или 62 точно не скажу.

Schematic.GIF

Edited by Splinter

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

  • Recently Browsing   0 members

    No registered users viewing this page.

  • Similar Topics

    • Ремонт: Antminer s17/t17

      Кто-нибудь ремонтировал хэшплаты Antminer T17 или S17? Долго ли они работают после ремонта? У меня вот такой опыт: Antminer T17 После почти что года работы на стандартной прошивке сдохла одна хэшплата. При инициализации определялись только 24 чипа из 30. Асик стоял на балконе в шумопоглощающем ящике, что продают на Авито. От ящика до балконного окна с антикомариной сеткой были проложены 2 алюминиевые гофры чтобы горячий воздух выдувался за борт. Зимой при морозах асик тоже о

      in ASIC/FPGA майнеры

    • Сторонняя прошивка для Antminer L3+ от blissz

      Внимание! Эта прошивка (возможно) лишает ваш майнер гарантии!   Прошивка от blissz Оригинальная тема https://bitcointalk.org/index.php?topic=2694602.0 (здесь перевод). Информация актуализирована по состоянию на 15/01/2018.     v1.02 :: 14/01/2018 :: L3+ рекомендуемое обновление   Файл прошивки:  https://mega.nz/#!mkRWFKpB!J4pJLNgTheED1UkMLDHy8LiLMmsoKizkABCd_MbFslw   Примечание модератора: были сообщения, что ссылка не работает. Благ

      in Прошивки

    • Antminer L3, L3+

      Доброй ночи! пожалуйста помогите кто знает с antminer l3+  работает 1.5 недели, все было хорошо.  В один момент вижу, что он выключен пришел его перезагрузил и началось   Вообщем выдает ошибку socket connect failed. connection refused то иногда включается и показывает на второй плате 21 чип место 71  много раз перезагружал, перекинул с другого асика блок питания он все равно так   не майнит уходит в ошибку   что делать подскажите пожалуйста, асику всего полторы недели скрины приложил

      in ASIC/FPGA майнеры

    • Bitmain Antminer s9, s9k, s9j - 13,5-14,0 Th/s

      Частенько натыкаюсь на китайских поставщиков Antminer S9, предлагающих б/у машинки. Предложения самые разные, ну и размышления по этому поводу соответственно тоже. Интересно мнение форумчан - опыт таких покупок, ну и насколько это рискованно и оправдано.  

      in ASIC/FPGA майнеры

    • Bitmain t17, t17e

      Привет, друзья. Я вернулся 🙂 есть хешборд t17. мой клиент сказал после того, как он почистил хэшборд, не запустился. поэтому я проверил это и обнаружил, что некоторые части, такие как 5-контактная микросхема и 1 резистор и 1 конденсатор, не находятся там. резистор и конденсатор не проблема. проблема в том, что 5 пин ic. я не могу найти номер детали. Кто-нибудь может мне помочь, пожалуйста?  

      in ASIC/FPGA майнеры

×
×
  • Create New...