iRybin 4 731 29 окт 2018, 07:53 (изменено) Коллеги, хочу поделиться печальной новостью - которая, возможно, поможет спасти ваши аналогичные карты. Летом того года была собрана монстроидальная система на 11 таких картах и серверной двухксеонной матери (те, кто тогда этой темой "больше 6-8 карт на мать" интересовался - могут помнить), с тех пор оно верой и правдой не отключаясь молотило, обдуваемое большим полупромышленным напольным вентилятором - и лето пережило, и зиму. Тут на днях машина теряет все карты. Прихожу - карты все офф (у них отдельный от сервера блок питания). Тыр - не стартует. Методом перебора нахожу "труп" - следы прогара с нижней части платы... Убираю его, пашет на 10 картах. Проходит наверное недели две - и вижу что карт уже 9... собственно второй труп, симптомы те же, но в этот раз коротыша видимо нет - пашет остальное дальше. И вот тут на днях совершенно случайно замечаю на 1 карте 80 градусов! Это при том, что сейчас осень и они стоят на неотапливаемой веранде - на остальных не выше 50 градусов. Несусь туда и наблюдаю отказ кулера - он "делает вид", что крутится - тыр-пыр и встаёт. При этом в nvidia-smi карта упорно репортует выставленные 100% оборотов. Естественно раскалённая в том месте, где умерли две предшественницы. Отключаю - руками кулер крутится нормально. Дальше не проверял что именно с ним не так - но стала ясна кончина первых двух. Вот такая печаль. Резюме - если ваши Катаны молотили год - морально готовьтесь и следите. Рад, что не стал собирать на них фермы в большом количестве... Да - карты стояли на 120 ватт (а летом и вовсе на 100) - но кулеры с первого дня на 100%. Есть серьёзное подозрение, что тупо отработали ресурс и теперь по одной помирают в зависимости от процентов погрешности качества изготовления. Консоль на него теперь постоянно открыта. Изменено 29 окт 2018, 07:54 пользователем iRybin 4 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
KlopS5 598 Опубликовано: 29 окт 2018, 22:37 (изменено) 1 ошибку ты допустил и 1 улучшение страховочное 1-е ты не настроил temp limit, чтоб карта начинала сбрасывать частоту по достижению определенной температуры - есть как в мси афтебернер так и нвидиа инспектор (то что карта показывала 100% оборотов не удивительно, на 1-м вентиляторе тахометр😀) улучшение - программа спидфан, которая позволяет регулировать обороты внешним обдувом в зависимости от температуры другого датчика (видеокарты в данном случае) У меня настроено так на зеленные - 70 градусов темп лимит - выше не будет даже если все вентиля станут - она тупо сбросит частоту, обдув -серверные вентиляторы в обычном режиме 20-65 гр работают на 20%, с 65гр по кривой до сотки. Бонусом - автоуправление обдувом в зависимости от окружающей температуры (лето/зима/день/ночь) Изменено 29 окт 2018, 22:43 пользователем KlopS5 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Lexis77 9 297 Опубликовано: 29 окт 2018, 22:45 @iRybin ничего криминального не вижу. Кондеры говно и стали "бумкать" от срока. Судя по картинкам, даже есть шансы на восстановить. Но стОит запомнить стишок - "ГэТэиКс катана слот - умирают через год"! 1 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 30 окт 2018, 03:40 У меня с десяток таких карт, работают уже больше года, если быть точным с 08.17, но у меня вторая ревизия которые бэкплэйтом прикрыты, да и странно почему карты даже при отказе куллера, не сбрасывались, и в защиту не ушли🤔 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 30 окт 2018, 04:48 (изменено) 10 часов назад, KlopS5 сказал: 1-е ты не настроил temp limit, чтоб карта начинала сбрасывать частоту по достижению определенной температуры - есть как в мси афтебернер так и нвидиа инспектор (то что карта показывала 100% оборотов не удивительно, на 1-м вентиляторе тахометр😀) было там всё - и стояло на 70+ - после чего и майнер сбавлял интенсивность, и сами они тротлить начинали... умер не чип - а обвес... И тротлинг чипа как показала практика не очень помог обвесу... И там Linux - хотя дописать скрипт на программный даунклок наверное да - теперь стоит. 10 часов назад, KlopS5 сказал: У меня настроено так на зеленные - 70 градусов темп лимит - выше не будет даже если все вентиля станут - она тупо сбросит частоту, обдув -серверные вентиляторы в обычном режиме 20-65 гр работают на 20%, с 65гр по кривой до сотки. Бонусом - автоуправление обдувом в зависимости от окружающей температуры (лето/зима/день/ночь) в теории оно должно было пойти в закрытый серверный кейс с могучим продувом... но руки не дошли по ряду причин... 5 часов назад, noname21051989 сказал: У меня с десяток таких карт, работают уже больше года, если быть точным с 08.17, но у меня вторая ревизия которые бэкплэйтом прикрыты, да и странно почему карты даже при отказе куллера, не сбрасывались, и в защиту не ушли🤔 не - у меня без всяких бекплейтов... есть подозрение, что вот это самое программное управление майнером - когда он отключал карту от перегрева - их в итоге и добивает... было бы лето - тупо ушли в висняк по железной защите и больше майнером не включались, а тут, по ходу дела, внешнего охлада и временного отключения хватало чипу, чтобы остыть - но не хватало всему остальному (прогары на плате уже ПОСЛЕ чипа - то есть этой бедной части доставался весь жар ещё и с чипа). А можно фотку этой второй ревизии? - ни разу не видел если честно Изменено 30 окт 2018, 08:49 пользователем iRybin 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 30 окт 2018, 08:51 10 часов назад, Lexis77 сказал: Судя по картинкам, даже есть шансы на восстановить. если есть интерес - могу отправить двух этих трупов... можно, конечно, взять все 3 и пойти в магазин - типа кулер того и вот они сдохли - но, боюсь, пошлют нахрен со словами "да задолбали такиерастакие майнеры"... 2 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
YoshCat 981 Опубликовано: 30 окт 2018, 16:35 (изменено) 7 часов назад, iRybin сказал: ... можно, конечно, взять все 3 и пойти в магазин - типа кулер того и вот они сдохли - но, боюсь, пошлют нахрен со словами "да задолбали такиерастакие майнеры"... Никуда они тебя не пошлют, могут попытаться, в итоге - примут,могут отправить производителю на экспертизу ( или в АСЦ). Пободаться стоит. Недавно, вон возвращал филип уан-блейд-про (оказалось - дерьмо устройство по многим параметрам). Тоже выделывались, тянули время, даже акт с местного сц предоставили, мол работает (предмет личной гигиены же). Потребовал проведения повторной экспертизы в своем присутствии (!) ... деньги вернули через несколько дней. А на эксперименты - всегда отдать успеешь. Изменено 30 окт 2018, 16:35 пользователем YoshCat 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Lexis77 9 297 Опубликовано: 30 окт 2018, 17:54 @iRybin попробовать можно, но может сначала стоит потрахать мозги магазину? 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Chingizzz 395 Опубликовано: 30 окт 2018, 18:19 Однозначно надо сходить в магаз. С одной штукой естессно для начала 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 30 окт 2018, 18:22 (изменено) Разбирать ферму небуду, но вот такие они! Ну и справедливости ради, обратите внимание что бэкплэйт контачит с местами ваших порогаров! Изменено 30 окт 2018, 18:25 пользователем noname21051989 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 30 окт 2018, 20:18 @noname21051989 спасибо! Видимо ребята таки сделали работу над ошибками. @YoshCat @Lexis77 @Chingizzz было бы ещё на это время... с одной подтопленной матерью (от той самой бакогрейки) я полгода до Регарда ехал - так она, зараза, отлежалась за это время и там у них завелась )))) 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Lexis77 9 297 Опубликовано: 30 окт 2018, 20:21 2 минуты назад, iRybin сказал: было бы ещё на это время... Ну тада шли. Будет скучно - поковыряю. Если важны сроки - не шли. 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 30 окт 2018, 23:39 2 часа назад, iRybin сказал: @noname21051989 спасибо! Видимо ребята таки сделали работу над ошибками. Я все мечатю эти карты в благое дело пустить, и заказать на них водоблоки, и на теплый пол поставить))) 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 2 ноя 2018, 12:11 31.10.2018 в 02:39, noname21051989 сказал: Я все мечатю эти карты в благое дело пустить, и заказать на них водоблоки, и на теплый пол поставить))) по моему опыту - хреновая идея - не тянет бытовуха такие температуры... две 1080 валяются как раз с отопительной (ГВС) водянки - текут они на 60-70 градусах теплоносителя.... тут нужен кондовый фуллметалл без всякого акрилового говна 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 3 ноя 2018, 06:15 17 часов назад, iRybin сказал: по моему опыту - хреновая идея - не тянет бытовуха такие температуры... две 1080 валяются как раз с отопительной (ГВС) водянки - текут они на 60-70 градусах теплоносителя.... тут нужен кондовый фуллметалл без всякого акрилового говна Ну мечтать то не вредно😉 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 12 ноя 2018, 14:50 погулял по сети - проблема у Katana массовая - ещё на одном форуме точно такие же повреждения, там народ ходил до сервисов - сервисы требуют переписку-согласие от производителя на ремонт-замену... 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 12 ноя 2018, 20:24 4 часа назад, iRybin сказал: погулял по сети - проблема у Katana массовая - ещё на одном форуме точно такие же повреждения, там народ ходил до сервисов - сервисы требуют переписку-согласие от производителя на ремонт-замену... Я непомйму, вот ну карта сдохла, сдохла по причине перегрева, причем страшенного! Ну а вы что хотели? Я уверен что и производитель, и сервис вас пошлют, ну это логично, бытовые нагрузки немогут такое натворить, карта, бп - хоть чтото данный момент предостережет, если и есть данная болячка у катан, то это собственно не майнинговые решения), хотя сугубо мне нравится данная связка, ибо я собирал 12шт в одну систему и в сибири зимой это дело занимало пол метра на балконе)) 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 12 ноя 2018, 23:43 @noname21051989 то, что у меня с 10-к карт AMD 7900-ой серии - и что они тока не переживали - и живы до сих пор. Это откровенный косяк и брак при производстве (установка бэкплейта на второй ревизии тому доказательство)! Немного не в тему - но ещё имею "огрызки" от Гигабайта (ITX Edition) - у них тоже спустя полтора года кулеры в утиль! - так вот это чудо нагрелось до 93 градусов! Внимание, вопрос - где аппаратная защита??? 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 13 ноя 2018, 16:24 Нууу, защита это конечно вопрос, я бы сказал вопрос конкретно к твоей системе может быть? 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Meisner 482 Опубликовано: 13 ноя 2018, 17:52 18 часов назад, iRybin сказал: Немного не в тему - но ещё имею "огрызки" от Гигабайта (ITX Edition) - у них тоже спустя полтора года кулеры в утиль! - так вот это чудо нагрелось до 93 градусов! Внимание, вопрос - где аппаратная защита??? после 100 градусов на старых картах срабатывало, на гефорсах хз по сабжу просто корявый катях, ничего более. говно и палки во всей красе, так сказать 2 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
YoshCat 981 Опубликовано: 13 ноя 2018, 18:46 (изменено) 2 часа назад, noname21051989 сказал: Нууу, защита это конечно вопрос, я бы сказал вопрос конкретно к твоей системе может быть? Разницу между аппаратной защитой и программной (настройками ПО) не улавливаем? Изменено 13 ноя 2018, 18:56 пользователем YoshCat 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 13 ноя 2018, 22:15 4 часа назад, Meisner сказал: по сабжу просто корявый катях, ничего более. говно и палки во всей красе, так сказать типатого... хорошо, что так и не стал масштабировать это решение. Теперь смотрю в сторону Manli "промышленных" с могучим продольным продувом... хотя глядя на курсы всё больше и больше сомневаюсь в актуальности 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
noname21051989 22 Опубликовано: 8 дек 2018, 14:46 (изменено) У меня одной здохла вертушка, незнаю когда правда, щас захожу чере тимвьюер, оборотов 0, темпиратура 92 градуса, но работало😂 чем теперь эту вертушку заменить ваще незнаю, где ее взять? Одним словом подтверждаю опасения, у меня на текущий момент вышло из строя 2 карты, вернее вышли из строя вертушки, карты живы живехкньки, работают как часы, все дело что у меня стоят серверные, на выдув, и видимо им хватило чтоб выжить, а если кому интересно проблема заключается в их охлаждении в турбинке есть пружинка, видимо со временем, она ослабевает и перестает придавливать турбинку, в свою очередь тахометр перестает видить обороты, лечится довольно легко, прыжинка натягивается, и вуаля работает все как новое, главное заметить вовремя, и не убить какрты, поскольку подтверждаю, карты не уходят в защиту, а пашут до талого, с неработающим куллером, никаких защит от перегрева, и это непонятно! Изменено 11 дек 2018, 09:16 пользователем noname21051989 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iRybin 4 731 Опубликовано: 8 фев 2019, 00:03 (изменено) Самое интересное, что на одном из этих трупов кулер живой и уехал на карту, у которой сдохла турбинка (третья). Пока оставшиеся 9 «Катан» живы. надо будет серийники глянуть - там 9 брались в Х-Коме, две - в Олди... Изменено 8 фев 2019, 00:04 пользователем iRybin 0 Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах