Перейти к содержанию

Antminer S17, S17pro, S17+, S17e, T17, T17e, T17+


Hlorofos

Рекомендуемые сообщения

Добрый день, подскажите как продиагностировать и локализовать проблему, плата не читает ни один сенсор температуры в асике T17, на тестере хэш плат , все нормально, напряжение ставлю на тестере 17в.

До этого плата была неисправна  0-асиков (такая досталась историю не знаю), нашел отпавший чип, перекатал, на тестере норма, в асике пишет что не может прочиталь i2c ни один, датчик , чипы подключенные к температурным датчикам перекатывал , eeprom перешивал с другой платы , PIC не прошивал, пока не нашел как ? тупо перекатывать плату неохото, да и может не в отвале чипа дело, может чип какой-то глючит, но как найти, осциллограф есть.

Спасибо.

Вот кусок лога :

[2023/08/21 20:06:17] INFO: Power ON
[2023/08/21 20:06:19] INFO: Starting FPGA queue
[2023/08/21 20:06:19] INFO: Initializing hash boards
[2023/08/21 20:06:19] INFO: chain[0] - Initializing
[2023/08/21 20:06:38] INFO: chain[0] - 30 chips detected
[2023/08/21 20:06:42] ERROR: src/chip139x.c:1126 chain[0] chip[21] - Failed to read I2C command response
[2023/08/21 20:06:42] ERROR: src/temp.c:121 chain[0] sen[2] - Failed to read temp sensor type
[2023/08/21 20:06:42] ERROR: src/temp.c:217 chain[0] sen[2] - Lost, no updates for 10 sec
[2023/08/21 20:06:44] INFO: Start-up temperature is 0 C (min -15 C)
[2023/08/21 20:06:44] INFO: Switching to manual fan control (100 %)
[2023/08/21 20:06:44] INFO: Changing voltage from 17000 to 16100 mV gradually
[2023/08/21 20:06:51] ERROR: src/temp.c:217 chain[0] sen[0] - Lost, no updates for 10 sec
[2023/08/21 20:06:52] ERROR: src/temp.c:217 chain[0] sen[1] - Lost, no updates for 10 sec
[2023/08/21 20:06:53] ERROR: src/temp.c:217 chain[0] sen[3] - Lost, no updates for 10 sec
[2023/08/21 20:06:53] ERROR: driver-btm-chain.c:967 chain[0] - Failed to read temp from all sensors!
[2023/08/21 20:06:53] INFO: chain[0] - Shutting down the chain
[2023/08/21 20:06:56] WARN: No working chains
[2023/08/21 20:06:56] INFO: Shutting down the miner
[2023/08/21 20:06:59] INFO: Stopping FPGA queue
[2023/08/21 20:06:59] INFO: chain[0] - Shutting down the chain
[2023/08/21 20:06:59] INFO: Power OFF

 

PS PIC перепрошил, ка и ожидал не помогло, но если поставить в конфиге галочку отключить защиту от разрыва цепи (ВНИШ 2.0.4) то начинает хэшить, все температуры видит, куда смотреть ?

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 423
  • Создана
  • Последний ответ

Топ авторов темы

@777Evgeny777 осциллограф и смотреть в основном ri, где сигнал кривой там и виновник, тестер какой? (предположу что утм)

Ссылка на комментарий
Поделиться на другие сайты

3 часа назад, Kowex сказал:

@777Evgeny777 осциллограф и смотреть в основном ri, где сигнал кривой там и виновник, тестер какой? (предположу что утм)

Да, утм, есть с ним проблемы? Что именно смотреть в   RI, форму, длительность, наличие артефактов, амплитуду?

 

Ссылка на комментарий
Поделиться на другие сайты

@777Evgeny777 а то что вы описали это не проблема? Смотреть на шумы посторонние в сигнале.

Вроде как в последней прошивке есть определение "мусор в автобусе"

Ссылка на комментарий
Поделиться на другие сайты

@777Evgeny777 перекатайте, день работы. под радиаторами и чипами все артефакты...:) так будет быстрее, чем если вы осциллографом будете рыться. 

Ссылка на комментарий
Поделиться на другие сайты

В 22.08.2023 в 12:32, alex59 сказал:

@777Evgeny777 перекатайте, день работы. под радиаторами и чипами все артефакты...:) так будет быстрее, чем если вы осциллографом будете рыться. 

Спастбо, совет дельный, но я хочу разобраться, как все работает, для этого надо уметь диагностировать, вот начал учится, до этого только свой парк С9 чинил в основном.

 

Подскажите пожалуйста, если в момент определения количества чипов тестером, напряжения на первых двух доменах падает с 1.5 до 1 вольта, это значит в доменах неисправные чипы или что-то еще может быть, если просто подать питание на домены то напряжение в принципе терпимое.

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

  • 3 недели спустя...

Добрый день, периодически на плате T17 во время работы отваливается PIC, вроде уже все пропаял (рзисторы связи I2C,питание), прошивать пока не стал, т.к. думаю не в прошивке дело, думается где-то контакт от температуры отходит, может уже кто-то по эти граблям ходил, подскажет что еще посмотреть можно, платы местами пока не менял (что-бы откинуть контрольку). Как часто сам pIc виноват (неисправен) ?

И еще вопрос иногда отваливаются последние два температурных датчика, чипы пропаивал, правильно ли я понимаю, что дело может быть не в самих чипах, на которых стоят датчики, а в чипах до них , если они ленивые ? но опять же с статусе стоит 30 чипов, на всех чипах есть хэшрейт ?

В силу малого опыта ремонта 17 смущает ситуация что отваливаются одновременно два последних датчика (2 и3) 0 и 1 работают, ситуация , что после 9 и до 22 чипа находится ленивый чип (который не учитывается , а после находится который задваивает я пока не рассматриваю т.к. на мой взгляд она маловероятна (хотя кто знает), т.к. чипов то 30 определяет не 29 и не 31. ЧИпы пропаивались уже несколько раз, и менялись (от донора).Сами термометры 451 ,тоже пропаивались вместе с обвязкой.

Не пойму ,где искать проблему.

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

@777Evgeny777 а в логе что пишет? есть сообщения на стоковой прошивке что он в процессе опроса видит не все асики?

что то типа

Цитата

2022-06-17 04:30:23:thread.c:1166:asic_status_monitor_thread: ERROR: chain 0 get hashrate_reg_counter 75, require 78, failed times 1: oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooxxx

 

Ссылка на комментарий
Поделиться на другие сайты

1 час назад, alex59 сказал:

@777Evgeny777 а в логе что пишет? есть сообщения на стоковой прошивке что он в процессе опроса видит не все асики?

что то типа

 

Я этого не знал, у меня на машинах вниш, выделю отдельно под стоковую попробую,Стоковую любую последнюю ? Спасибо.

Хотя есть подозрение, что увидет при старте все, а в процессе работы отвалиться что-то. Т.к. когда стартует, температуры все в норме.

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

у Вас 30 чипов, а датчиков 4, так что...

такие проблемы решаются перекаткой всей платы, 100% есть лысые наверняка из оставшихся 26шт...:)

Ссылка на комментарий
Поделиться на другие сайты

31 минуту назад, alex59 сказал:

у Вас 30 чипов, а датчиков 4, так что...

такие проблемы решаются перекаткой всей платы, 100% есть лысые наверняка из оставшихся 26шт...:)

У меня возникают подозрения , что происходит что-то с доменом т.к. датчики 2 и 3 в одном домене, возможно напряженеи питания меняется, TMP 451 получают питание с домена (вроде в S9 они брали питание 1.8 с домена) или отдельно ? Чипы то работают, а вот либо ТМP 451 перестают из-за нехватки питания, либо от них к чипам данные не идут по и2ц (опять же с обоих сразу), либо сдвиг нумерации и обращение идет к чипам у которых нет ТMР 451, при отвале температуру платы тоже не показывает.

Лысых чипов , вроде как не должно быть, я радиаторы сразу снимаю перепаиваю, чипы без особых на них жалоб не перекатываю, просто под флюсом прогреваю и по периметру прижимаю, если перекатываю то свинцом, пока так.

Ксати флюсом пользуюсь RUSFLUX NR-255, зеленый такой, написано ROL0, но отзывов про него при ремонте майнеров не встречал.Контрольки и хэшки от S9 раньше только им и паял нареканий не было, но они не термонагружены так как хэшки 17.

Да и еще мне не понятен один факт, если на S9 можно было измерить сопротивление контрольных точек относительно локальной земли и достаточно точно понять что отвалилось вход этго чипа или выход предыдущего т.к. все соответствующие точки одного сигнала имели +- одинаковое сопротивление (за исключение границ домена, то почемуто в 17 у меня один и тот же сигнал может на одном чипе иметь 600 ом +- на другом чипе тот же сигнал 1200-1400 ом, причем плата работает, не пойму почему так.

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

у Вас во время циклического отпроса платы рвется цепочка где-то....поэтому чипы не читаются. нумер в чип записан (ему присвоен) при инициализации платы, они пронумерованы после инициализации, и потом просто адресация идет по логическому номеру чипа...неможет там быть никаких сдвигов в процессе работы. контролька спрашивает чип номер ХХ - дай регистры с таким адресом и все, если чип отпал то он просто не отвечает.

Ссылка на комментарий
Поделиться на другие сайты

17 минут назад, alex59 сказал:

у Вас во время циклического отпроса платы рвется цепочка где-то....поэтому чипы не читаются. нумер в чип записан (ему присвоен) при инициализации платы, они пронумерованы после инициализации, и потом просто адресация идет по логическому номеру чипа...неможет там быть никаких сдвигов в процессе работы. контролька спрашивает чип номер ХХ - дай регистры с таким адресом и все, если чип отпал то он просто не отвечает.

Спасибо, буду осознавать прочитанное и думать как с этим бороться.

А почему хэшрейт у чипа показывает, есть если он отпал ?

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

так хешрейт - величина вычисленная, и усредненная, а у Вас не каждый цикл опроса отвал происходит. точно так же как и величина потребляемой мощности - точно так же вычисленная, я не видел на хэшке, датчиков тока, чтобы вниш мог измерить потребляемую мощность...:) 

Ссылка на комментарий
Поделиться на другие сайты

21 минуту назад, alex59 сказал:

так хешрейт - величина вычисленная, и усредненная, а у Вас не каждый цикл опроса отвал происходит. точно так же как и величина потребляемой мощности - точно так же вычисленная, я не видел на хэшке, датчиков тока, чтобы вниш мог измерить потребляемую мощность...:) 

Я имею ввиду хэшрейт чипа, я понимаю так, если чип отпал, то хэш у него должен быть ноль, ну тут конечно еще зависит от прошивки как она его считает, но все равно какая-то коррелляция должна быть между работоспособносью чипа и показометром прошивки относительно данного чипа, я не утверждаю я пытаюсь понять , на что я могу опираться в своих наблюдениях.У меня вниш показывает , что датчики 2 и 3 по нолям (и чип и плата), а чипы 22 и 24 хэшрейт норма +-

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

2 минуты назад, 777Evgeny777 сказал:

если чип отпал, то хэш у него должен быть ноль

скажем так, например, 95 раз из 100 он отвечает, а остальные 5 нет, усреднение покажет Вам небольшой провал в 5% по вычисленному хешрейту, возможно Вам повезет, и вы постоянно быстро обновляя страничку, можете поймать "кресты", в тот момент когда он не ответил...:)

а возможно, программа, просто отбросит этот цикл опроса из расчетов потому, что там нет достаточного количества регистров. (ошибка)

там ведь не один чип отпал а несколько.....   

 

Ссылка на комментарий
Поделиться на другие сайты

эти "неответы", могут возникать раз в сутки, а могут 100раз в секунду, и выбраковка платы контролькой происходит после, по моему, 30 "неответов" не только по датчику температуры, а вообще, по регистрам, накопит 30 "неответов" (не подряд а вообще за секунду или за сутки или за месяц), плату остановит. для этого во внише кстати есть опция "игнорировать рваную цепочку", чего нет на стоке

Изменено пользователем alex59
Ссылка на комментарий
Поделиться на другие сайты

Цитата

2022-06-17 04:30:23:thread.c:1166:asic_status_monitor_thread: ERROR: chain 0 get hashrate_reg_counter 75, require 78, failed times 1: oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooooo oooxxx

возвращаясь к своему посту, резюмирую:

17 серия это такая серия....

в данном случае, в цитате, логично предположить, что между 75 и 76 чипом обрыв., однако на практике, сбоить может любой чип от первого до последнего, например плохой контакт по цепям питания 1,8, 0,8Вольт в любом месте, например в первом домене, даже если стабильно все 30 раз показывает 75 чипов, пофиг, это может быть в любом месте, пропадание например 1,8 вольт в первом домене, ложит в ноль тактовую на всей плате. а для контрольки опрос закончился на 75 чипе....можно до посинения менять 75, 76 чипы, картина будет слабо меняться, надо перекатывать всю плату...проходил я это....поэтому перекат всей платы и думать тут нечего.

Ссылка на комментарий
Поделиться на другие сайты

Не буду спорить, это радикальный и действенный метод, наверняка самый быстрый и наименее трудозатратный если взять все возможные дальнейшие приключения с этой платой, сейчас у меня задача понять и научиться перекатывать не убивая чипы, а то тут попробовал с рабочей платы снял чипы , перекатал и треть пришлось выкинуть т к КЗ. По части ошибок температуры, да Вы все правильно описали, прошивка при обнаружении неадекватного датчика просто его отключает и не включает больше, поэтому я хэшрейт вижу, а температуру уже нет , пока не перезапустишь плату.Вся соль в том почему два датчика в раз, был бы один я бы понял что сбоит чип, а два одновременно, несколько настораживает. Спасибо за ликбез, плюсы в карму пока не могу ставить.

Ссылка на комментарий
Поделиться на другие сайты

Вы осмыслите, то что я написал, там содержится ответ "почему оба".

попробую еще раз - не датчики отпали не чипы к которым они прицеплены а сам транспорт рушится (цепочка передачи данных) в любом месте может возникнуть "обрыв", обрыв надо понимать в широком смысле - это не способность передать сигнал по цепи, а причиной этого может быть что угодно, от физического обрыва до пропадания питания причем в любом месте. потому что отвал любого чипа влияет с одной стороны ближе к первому на пропадание тактовой или CI/CO и остальных сигналов, а ближе к последнему - пропадание RI/RO (в том числе из за пропадания тактовой - во как все закручено...:)))).  если бы RI не с последнего чипа выставлялся, было бы наверное проще точно определить где рвется - по симптомам.

Ссылка на комментарий
Поделиться на другие сайты

насчет убивания чипов - держать температуру не выше 265гр. вроде бы.

для E аппаратов не выше 165. точно

Ссылка на комментарий
Поделиться на другие сайты

К меня снизу фен греет 230 в нижний радиатор, сверху отпаиваю и сажу 260-270 феном, много?

Отпаиваю радиатор 300 без нижнего подогрева, залуживаю крышку чипа паяльник 270 .

Про датчики осознал, но пока не понял как доступно локализовать место разрыва.буду думать. Насчёт сопротивлений тестпоинтов, не подскажите, нормально это что в два раза отличается на разных чипах или это аномалии? Например на первом чипе РСТ 600 , а на втором 1200?

Изменено пользователем 777Evgeny777
Ссылка на комментарий
Поделиться на другие сайты

залуживаю крышку чипа паяльник 270  - вот тут и  приходит ему трындец....:)

паяльник то поди еще в бустерном режиме? не 270 там..... лудите чипы на нижнем подогреве, ватной палочкой, при температуре не выше 200.

и не бросайте чип на разогретый подогрев а положите на радиатор от хэшки, а через 2-5 мин уже ложите его на сам подогрев. ибо термоудара избежать как то.

Изменено пользователем alex59
Ссылка на комментарий
Поделиться на другие сайты

1 минуту назад, alex59 сказал:

залуживаю крышку чипа паяльник 270  - вот тут и  приходит ему трындец....:)

паяльник то поди еще в бустерном режиме? не 270 там..... лудите чипы на нижнем подогреве, ватной палочкой, при температуре не выше 200.

Спасибо, буду пробовать 200, ваткой потренируюсь

Ссылка на комментарий
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
  • Similar Topics

    • Разблокировка SSH на Antminer S19

      Добрый день! Подскажите, пожалуйста, как разблокировать SSH на 19-й серии Antminer. Знаю, есть способы, но никто не признаётся. И в интернете информации ноль. Очень нужно

      в Общие вопросы по майнингу

    • Ремонт: Bitmain Antminer s7, s9, l3+

      Официальный сайт | Antminer. Все модели. Вопросы, помощь, обсуждение.   В теме действуют все Правила форума! Перед тем как задать вопрос, посмотрите НОВИЧКИ Bits.Media, все сюда Уважайте своё и чужое время. Для обсуждения и поиска программ/драйверов пользуйтесь разделом Файлы.   Статьи на bits.media:   Полезное:   (!) FAQ (часто задаваемые вопросы)   -Как найти в продаже разъемы питания, какая маркировка

      в ASIC/FPGA майнеры

    • блок питания Antminer T21

      Нужен ваш совет . Есть ли какой то способ подключить Bitcoin Miner T21 190T Power supply AC Input voltage  380~415 3610W к одной фазной сети 200 - 230 вольт !? Векторный преобразователь частоты 220 > 380В сможет !? Например - https://spc.com.ua/ru/products/nietz-splc-nz2200-15gs2-vector-frequency-inverter-15kw-ip20-1phase-220v-to-3phase-380v

      в Блоки питания, ИБП, силовая часть

    • Antminer L3, L3+

      Доброй ночи! пожалуйста помогите кто знает с antminer l3+  работает 1.5 недели, все было хорошо.  В один момент вижу, что он выключен пришел его перезагрузил и началось   Вообщем выдает ошибку socket connect failed. connection refused то иногда включается и показывает на второй плате 21 чип место 71  много раз перезагружал, перекинул с другого асика блок питания он все равно так   не майнит уходит в ошибку   что делать подскажите пожалуйста, асику всего полторы недели скрины приложил

      в ASIC/FPGA майнеры

    • Antminer S19,-pro, S19j,-pro, S19a, S19i, S19 Hyd, S19pro Hyd, S19pro+ Hyd, T19 Hyd

      Официальный сайт | Manual | Прошивка (официальный сайт) | Прошивка (bits.media)   В теме действуют все Правила форума! Перед тем как задать вопрос, посмотрите НОВИЧКИ Bits.Media, все сюда,  F.A.Q по майнингу. Уважайте своё и чужое время. Для обсуждения и поиска программ/драйверов пользуйтесь разделом Файлы. Сообщения, не относящиеся к теме обсуждения (оффтоп), удаляются без предупреждения.   Технические характеристики:   Статьи на Bits.me

      в ASIC/FPGA майнеры

×
×
  • Создать...