Перейти к содержанию

Настройка gtx 1060 под Linux


iBaaX

Рекомендуемые сообщения

Реализовано? Если да, то...  УЧИТЕЛЬ! СКАЖИ, ЧТО ЧИТАТЬ? Проблема: инитрамфс стартует, сквошфс через нфс монтируется, но не вгружается. Вываливаюсь в рекавери консоль. Лог каспера... недоступен, потому что в рекавери не нашел чем показывать страницу за страницей.

 

(или может изначально посыл был неверен, и правда совсем рядом, навроде: "каспер не нужен, делай рсинк-чрут, инит-скрипт переключить в нфс и все")

pxe реализовано.

я не заморачивался со сквошем, я тупо экспортировал с "сервера" директорию с рутом и указал это в настройках загрузки. вот так:

 

pxelinux.cfg/default:

PROMPT 0
TIMEOUT 30
 
PATH bios
DEFAULT menu.c32
 
LABEL linux-miner
MENU LABEL Miner
KERNEL net-boot/vmlinuz-4.9.0-3-amd64 
APPEND root=/dev/nfs initrd=net-boot/initrd.img-4.9.0-3-amd64 nfsroot=192.168.41.254:/overlay/opt/nfsroot ip=dhcp rw
для настройки директории с рутом

debootstrap stable /opt/nfsroot

chroot /otp/nfsroot

passwd

adduser xxx

adduser xxx video

apt-get install mc aptitude sudo openssh-server linux-image-amd64 linux-headers dkms nvidia-smi nvidia-settings nvidia-driver lightdm и далее по вкусу

/tmp настроить на tmpfs

еще можно логи тоже на tmpfs кинуть

 

после этого я рсинкнул все это с локального компа на роутер с openwrt  где это хозяйство пока живет (на флешке).

из минусов -- c флешки (у меня на роутере usb 2.0) скорость чтения не очень большая. запись еще меньше.

поэтому что-то глобальное устанавливать или что-то собираться будет долго. но оно и не для этого.

 

 

не забудь поменять имя в /etc/hostname и /etc/hosts или настроить получение имени по dhcp

Изменено пользователем _eugene_
Ссылка на комментарий
Поделиться на другие сайты

А на фига смотреть за процессом работы вотчдога? ))) Для этого лог есть потом......

У меня запущено в screen - захожу иногда смотрю)

 

Код:

#!/bin/bash
 
export DISPLAY=:0
 
THRESHOLD=85
numtest='^[0-9]+$'
GPU_COUNT=$(nvidia-smi --query-gpu=count --format=csv,noheader,nounits | tail -1)
 
# Creating a log file 
LOG_FILE="/home/prospector/watchdog.log"
if [ -e "$LOG_FILE" ] ; then
  #Limit the logfile, just keep the last 2K
  LASTLOG=$(tail -n 2K $LOG_FILE)
  echo $LASTLOG
  echo ""
fi
 
# Waiting miner....
echo "$(date) - waiting 60 seconds before going 'on watch'" 
sleep 60
 
while true
do

echo "      GPU_COUNT: " $GPU_COUNT
 
  CURRENT_GPU=0
  UTILIZATIONS=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)
echo "GPU UTILIZATION: " $UTILIZATIONS
echo ""
  for UTIL in $UTILIZATIONS
  do
    # Not numeric - lost a GPU
    if ! [[ $UTIL =~ $numtest ]]
    then
        echo "$(date) - Lost GPU:" $CURRENT_GPU | tee -a ${LOG_FILE}
        echo "Utilizations:" | tee -a ${LOG_FILE}
echo $UTILIZATIONS | tee -a ${LOG_FILE}
echo "" | tee -a ${LOG_FILE}
echo "$(date) - Watchdog - fault GPU!: REBOOT!"
#        echo "Watchdog - fault GPU!" `hostname` | mail -s "Watchdog - fault GPU `hostname`" info@example.com
sleep 10
        sudo reboot
    fi
 
    # If utilization is lower than threshold count:
    if [ $UTIL -lt $THRESHOLD ]
    then
      echo "$(date) - GPU under threshold found:" $CURRENT_GPU | tee -a ${LOG_FILE}
      echo "Utilizations:" | tee -a ${LOG_FILE}
      echo $UTILIZATIONS | tee -a ${LOG_FILE}
      echo "" | tee -a ${LOG_FILE}
echo "$(date) - Watchdog - under threshold!: REBOOT!"
#      echo "Watchdog - under threshold!" `hostname` | mail -s "Watchdog - under threshold `hostname`" info@example.com
      sleep 10
      sudo reboot
    fi
    # If utilization is lower than threshold count:
    if [ $UTIL -lt $THRESHOLD ]
    then
      echo "$(date) - GPU under threshold found:" $CURRENT_GPU | tee -a ${LOG_FILE}
      echo "Utilizations:" | tee -a ${LOG_FILE}
      echo $UTILIZATIONS | tee -a ${LOG_FILE}
      echo "" | tee -a ${LOG_FILE}
echo "$(date) - Watchdog - under threshold!: REBOOT!"
#      echo "Watchdog - under threshold!" `hostname` | mail -s "Watchdog - under threshold `hostname`" info@example.com
      sleep 10
      sudo reboot
    fi
    CURRENT_GPU=$(($CURRENT_GPU + 1))
  done
 
  sleep 20 
echo "$(date)" 
 
done

Единственное что - в лог пишет 2 строки, типо:

Thu Aug 31 12:13:34 EEST 2017 - GPU under threshold found: 0
Utilizations:
83 89 83 90 79 100 91 82 90 90

Thu Aug 31 12:19:07 EEST 2017 - GPU under threshold found: 2
Utilizations:
83 89 83 90 79 100 91 82 90 90

Граница=85%

Ссылка на комментарий
Поделиться на другие сайты


Единственное что - в лог пишет 2 строки, типо:

Thu Aug 31 12:13:34 EEST 2017 - GPU under threshold found: 0
Utilizations:
83 89 83 90 79 100 91 82 90 90

Thu Aug 31 12:19:07 EEST 2017 - GPU under threshold found: 2
Utilizations:
83 89 83 90 79 100 91 82 90 90

Граница=85%

Правильно, он как только нашел первое же значение ниже границы - сразу написал, если следом еще одно - тоже записал. И вообще, это был первый вариант ватчдога. Он по трешлохду постоянно срабатывает, ибо майнер при сдаче шар на мгновение разгружает ГПУ, которое сдает. Сейчас сделал второй вариант. Там ввел условие - 5 раз подряд совпадение падения хешрейта на одном и том же ГПУ. Пока в процессе тестирования он не ребутит риг по хешрейту, а шлет уведомление в почту. Погоняю недельку и выложу

Ссылка на комментарий
Поделиться на другие сайты

Привет участникам!

Вопрос такой. Поставил я линух, который с usb (prospector)

Так вот, во всем разобрался. Для старта классная штука. Все на флешке.

1. Обновил майнер - стал побыстрее майнить (скорость увеличилась при разгоне)

2. Разобрался как разгонять все карты.

3. Но есть ньанс, если карты перегонишь (переразгонишь), они уходять в дежурный режим, скорость у всех падает с 15,5 стандартных до 11. Кто знает, что это и как победить?

Например, запускаю скрипт разгона, 5-10 минут все ок, потом скорость падает до како-то резервной чтоли? 

Помогает ребут и поиск оптимального разгона, но эти скорости далеки от идеала. 

 

По наблюдением отваливается одна карта. Может в этом проблема?

Изменено пользователем y3k3000
Ссылка на комментарий
Поделиться на другие сайты

Правильно, он как только нашел первое же значение ниже границы - сразу написал, если следом еще одно - тоже записал. И вообще, это был первый вариант ватчдога. Он по трешлохду постоянно срабатывает, ибо майнер при сдаче шар на мгновение разгружает ГПУ, которое сдает. Сейчас сделал второй вариант. Там ввел условие - 5 раз подряд совпадение падения хешрейта на одном и том же ГПУ. Пока в процессе тестирования он не ребутит риг по хешрейту, а шлет уведомление в почту. Погоняю недельку и выложу

идея клевая. а как он будет реагировать на пропадание интернета? ребутить риг по-кругу пока не появится интернет?
Ссылка на комментарий
Поделиться на другие сайты

идея клевая. а как он будет реагировать на пропадание интернета? ребутить риг по-кругу пока не появится интернет?

Спасибо за напоминание. Проверку инета добавлю.

#!/bin/bash
 
export DISPLAY=:0
 
THRESHOLD=80
TRESHCOUNT=5   #количество падений одной и той же ГПУ
TRESHGPU=99    #номер упавшей ГПУ
numtest='^[0-9]+$'
GPU_COUNT=$(nvidia-smi --query-gpu=count --format=csv,noheader,nounits | tail -1)
 
# Creating a log file 
LOG_FILE="/home/klondike163ld/watchdog.log"
 
# Waiting miner....
sleep 600
 
while true
do
 
 
  CURRENT_GPU=0
  UTILIZATIONS=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)
  for UTIL in $UTILIZATIONS
  do
    # Not numeric - lost a GPU
    if ! [[ $UTIL =~ $numtest ]]
    then
        echo "$(date) - Lost GPU:" $CURRENT_GPU | tee -a /home/klondike163ld/watchdog.log
        echo "Utilizations:" | tee -a /home/klondike163ld/watchdog.log
echo $UTILIZATIONS | tee -a /home/klondike163ld/watchdog.log
echo "" | tee -a /home/klondike163ld/watchdog.log
        echo -e "Watchdog - fault GPU $CURRENT_GPU `hostname` \nUtilization: \n$UTILIZATIONS" `hostname` | mail -s "Watchdog - fault GPU $CURRENT_GPU `hostname`" ............@gmail.com
sleep 10
        reboot
    fi
 
    # If utilization is lower than threshold count:
    if [ $UTIL -lt $THRESHOLD ]
    then
      if [ $TRESHGPU -eq $CURRENT_GPU ] #проверяем, соответствует ли текущая упавшая ГПУ предыдущей упавшей ГПУ
      then
        if [ $TRESHCOUNT -eq 0 ] #если соответствует, то проверяем - не обнулился ли счетчик падений одно и той же ГПУ
        then
          #если все сошлось, то записать в лог написать в почту и заново обнулить счетчик и номер ГПУ
          echo "$(date) - GPU under threshold found:" $CURRENT_GPU | tee -a /home/klondike163ld/watchdog.log
          echo "Utilizations:" | tee -a /home/klondike163ld/watchdog.log
          echo $UTILIZATIONS | tee -a /home/klondike163ld/watchdog.log
          echo "" | tee -a /home/klondike163ld/watchdog.log
          echo -e "Watchdog - GPU $CURRENT_GPU under threshold `hostname` \nUtilization: \n$UTILIZATIONS \nTRESHCOUNT: $TRESHCOUNT \nTRESHGPU: $TRESHGPU" | mail -s "Watchdog - GPU $CURRENT_GPU threshold! `hostname`" ............@gmail.com
          sleep 10
          TRESHCOUNT=5
          TRESHGPU=99
        else
          TRESHCOUNT=$((TRESHCOUNT - 1)) #если же счетчик еще не обнулился, то уменьшить на 1
        fi  
      else
        TRESHGPU=$CURRENT_GPU #если упала другая ГПУ, то запомнить ее номер и обнулить счетчик
        TRESHCOUNT=5
      fi                    
    fi
    CURRENT_GPU=$(($CURRENT_GPU + 1))
  done
 
  sleep 30 
 
 
done
 

Внимательно подумав, понял, что не сработает при падении хешрейта одновременно на 2 и более ГПУ ))))

Но уже знаю, как надо доработать - побитовый анализ. Не знаю, возможно ли это сделать на скриптах Bash, если нет, то просто напишу на Python.

Ссылка на комментарий
Поделиться на другие сайты

Хмм...

Предлагаю TRESHCOUNT задать переменной и объявить вначале, чтобы не прописывать в 3х местах.

 

Но, предыдущая версия мне нравится больше (простотой), не хватает только проверки интернета, но, по идее, майнер сам снимет нагрузку на картах при отсутствии интернета и риг ребутнется (разве что не напишет, что из-за отсутствия нета).

Блок проверки можно дернуть из nvOS)

 

Ребут - как по мне самое действенное и быстрое, и занимает от 1 до 5 минут (иногда до 7).

 

Случайных срабатываний у меня не наблюдалось, все только по делу.

Ссылка на комментарий
Поделиться на другие сайты

Хмм...

Предлагаю TRESHCOUNT задать переменной и объявить вначале, чтобы не прописывать в 3х местах.

TRESHCOUNT в самом начале и задается, 4-я строчка сверху. Просто периодически ее значение надо восстанавливать - когда все условия выполнены и риг оповестил о проблеме (если риг ребутить в этот момент, то тут да - можно не восстанавливать), когда обнаружилось падение хешрейта на другой ГПУ (надо восстановить значение, чтобы отсчитывать тики для новой ГПУ). И один раз есть уменьшение значения. Так что тут все нормально.

 

Ребутить риг при отсутствии инета, на мой взгляд, не комильфо.... Представим невероятный случай - инета нет весь день. Риг так и будет туда-сюда колбаситься через каждых 2 минуты?

Ссылка на комментарий
Поделиться на другие сайты

Про интернет - да, не нужно ребутить, а вот сообщение нужно, хотя как оно дойдет?)))

Изменено пользователем Skylion
Ссылка на комментарий
Поделиться на другие сайты

Про интернет - да, не нужно ребутить, а вот сообщение нужно, хотя как оно дойдет?)))

Сообщения куда? Я считаю, что только в лог. Вообще, интерактив в ватчдоге - сомнительный бантик )))))) Ну смысл в консоль что-то выдавать?

Ссылка на комментарий
Поделиться на другие сайты

Я пока для отладки оставил.

Ну и у меня в скринах все запущено - пусть показывает.

Как по другому - не знаю.

Ссылка на комментарий
Поделиться на другие сайты

В общем, в выходные лень, а в понедельник все переделаю в свете открывшихся обстоятельств )))))

Ссылка на комментарий
Поделиться на другие сайты

Я пока для отладки оставил.

Ну и у меня в скринах все запущено - пусть показывает.

Как по другому - не знаю.

В общем, принимайте третью версию ватчдога! С блэкджеком и всем остальным )))

Написан на Python 3, использует только стандартные библиотеки, так что хватит базовой установки Python 3.

Умеет писать красивые логи и отправлять почту. Почта пока настроена только на GMail, дополнительно надо в своем аккаунте включить доступ ненадежных приложений, чтобы проходила отправка почты.

 

Прошу строго не судить - мои первые попытки программирования ))) Потестите, расскажите, как оно...

 

cryptowatchdog.py

Ссылка на комментарий
Поделиться на другие сайты

Может кто сталкивался с такой проблемой. У меня Arch 6 карт gtx 1060. 3 карты не хотят потреблять больше 119 ватт, 2 карты больше 123 ватт и одна карта не более 132 ватт. Power limit стоит 140 ватт. Из-за этого плохо разгоняются. Дело точно не в райзерах - проверено. Ради эксперимента поставил Windows 10 - все в порядке, карты потребляют около 140 ватт. Такое ощущение, как-будто в linux стоит какой-то ограничитель мощности.

Ссылка на комментарий
Поделиться на другие сайты

Может кто сталкивался с такой проблемой. У меня Arch 6 карт gtx 1060. 3 карты не хотят потреблять больше 119 ватт, 2 карты больше 123 ватт и одна карта не более 132 ватт. Power limit стоит 140 ватт. Из-за этого плохо разгоняются. Дело точно не в райзерах - проверено. Ради эксперимента поставил Windows 10 - все в порядке, карты потребляют около 140 ватт. Такое ощущение, как-будто в linux стоит какой-то ограничитель мощности.

Что мешает поставить виндоус на долгосрок и не парится, если не знаете что делать с линуксом?

Ссылка на комментарий
Поделиться на другие сайты

Что мешает поставить виндоус на долгосрок и не парится, если не знаете что делать с линуксом?

Я как раз с Windows не дружу.))

А с linux слава Богу уже 20 лет.

Во здесь https://devtalk.nvidia.com/default/topic/1011633/linux/nvidia-smi-power-limit-on-gtx-1060-/ кстати, обсуждают подобную проблему только наоборот - не получается понизить power limit на gtx 1060 и такая проблема у многих.

Сейчас ковыряю dbus, может там есть какая то несовместимость с управлением питанием Nvidia.

 

P.S. Если есть у кого возможность, проверте пожалуйста на своей системе наличие проблемы с power limit связанную с удержанием мощности как с пониженным так и с повышенными значениями. Желательно указать дистрибутив.

Изменено пользователем pharux
Ссылка на комментарий
Поделиться на другие сайты

P.S. Если есть у кого возможность, проверте пожалуйста на своей системе наличие проблемы с power limit связанную с удержанием мощности как с пониженным так и с повышенными значениями. Желательно указать дистрибутив.

7 штук 1060 MSI Armor 3G - один риг

12 штук Gigabyte Mining Edition 6G - второй риг

Дистрибутив - Ubuntu 16.04.3 LTS

Везде powel limit и на повышенных, и на пониженных значениях работает как часы.

Ссылка на комментарий
Поделиться на другие сайты

7 штук 1060 MSI Armor 3G - один риг

12 штук Gigabyte Mining Edition 6G - второй риг

Дистрибутив - Ubuntu 16.04.3 LTS

Везде powel limit и на повышенных, и на пониженных значениях работает как часы.

Спасибо.

Если не затруднит, какой версии у Вас драйвер.

Провел небольшое расследование.

На одном риге у меня карты от gtx 1060 от MSI - и с power limit у них все в порядке.

На втором риге gtx 1060 Gigabyte Windforce 3g - у них с power limit проблемы как с понижением так и с повышением лимита.

На третьем риге gtx 1060 Gigabyte D5 3g - у них тоже проблема с power limit, но только с повышением лимита. Причем эти карты (Gigabyte D5 3g) имеют номинальный power limit 180w вместо 140w и максимальный power limit 200w, а работают не больше 120w.

Также у приятеля есть один риг с 8 картами gtx 1060 Gigabyte Windforce 6g - из 8 карта у двух есть проблема с понижением power limit, у одной карты с повышением, и еще у двух карт проблемы и с повышением и с понижением лимита, остальные 3 карты работают нормально.

Использую драйвер 375.82.

Изменено пользователем pharux
Ссылка на комментарий
Поделиться на другие сайты

Моя картинка:

 

10 шт windforce 6gb (5я хуникс, остальные самсунь)

PL стоит 90 ватт.

post-52653-0-57247400-1505117719_thumb.png

3 карты едят принципиально меньше.

Ссылка на комментарий
Поделиться на другие сайты

Спасибо.

Если не затруднит, какой версии у Вас драйвер.

Везде 384.69

Моя картинка:

Ну что, ватчдог потестил? У меня вроде нормально работает, 4 дня

Ссылка на комментарий
Поделиться на другие сайты

Ну что, ватчдог потестил? У меня вроде нормально работает, 4 дня

Руки не доходят) + питон покурить нужно.

+- неделя

 

Пока что на последней sh версии, которую выкладывал - она работает.

Есть одно но! У меня АТХ БП 2шт стоят и, если падает карта, перезагрузка идет +- 5 минут (без отвала карты +- 1 минута). Так вот поставил 2м товарищам у которых серверные БП - там уходит на перезагруз, но не стартует при отвале карты (мамы одинаковые).

Ссылка на комментарий
Поделиться на другие сайты

Руки не доходят) + питон покурить нужно.

+- неделя

 

Пока что на последней sh версии, которую выкладывал - она работает.

Есть одно но! У меня АТХ БП 2шт стоят и, если падает карта, перезагрузка идет +- 5 минут (без отвала карты +- 1 минута). Так вот поставил 2м товарищам у которых серверные БП - там уходит на перезагруз, но не стартует при отвале карты (мамы одинаковые).

Я пока убрал в новом ватчдоге перезагрузку. Там тебе особо и курить ничего не надо. Если надо - я тебе напишу, что надо добавить, чтобы была перезагрузка. У меня отвала карт не было уже месяца 4, так что в этом плане не могу его протестить пока )))) Просаживание загрузки карты - случайный вылет майнера, отвал инета и пр. ловит отлично! Сразу матюкается в почту. В следующей версии хочу добавить JSON API, чтобы можно было, допустим, связать этот ватчдог с ботом Телеграм

Ссылка на комментарий
Поделиться на другие сайты

У меня, в основном, какая-нить карта раз в сутки вылетает - видимо до предела разогнал)))

(хотя может еще и БП или райзер)

Сегодня доставлю еще 2 шт (взял майнинг эдишн) и посмотрю как долго проработают.

 

Если запущу, могу завтра и вочдог прикрутить.

Изменено пользователем Skylion
Ссылка на комментарий
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
  • Similar Topics

    • Настройка Асиков в "Соло Режим"

      Доброго времени суток товарищи. Такое дело, майнингом занимаюсь давно но никогда не пытался майнить соло. Стало интересно, и тут проблема выскочила. Хочу воткнуть в соло ROCK MINER t1.  Управляется он "BE200 Jet Stratum Miner V 5.47" через Block Erupter.  Настройки в bitcoin.conf server=1 rpcuser=123 rpcpassword=123 rpcallowip=* rpcport=3131 daemon=1 gen=0   Настройки в вебморде асика         192.168.0.101 - локальный ип сервака запущенного "сервер кошелек" 3131 порт открытыйв локалке и "из

      в ASIC/FPGA майнеры

    • Настройка USB майнера

      Народ привет! Прошу тему не удалять.   Нашёл наконец-то на просторах интернета такой мини Асик.  Поиск по фото показал, что это модель Erupter какая-то. Здесь есть древние темы, но не рискнул там писать. Скачал драйвер CP210x_Universal_Windows_Driver, Винда определила майнер. Нашел старую версию cgminer-3-1-1-zeus-windows.   Но вот где взять пул для добычи биткоина, чтобы его прописать в батнике? В старых темах пулы все мёртвые и давно на видюхах толь

      в ASIC/FPGA майнеры

    • Установка и настройка YiiMP пулов. База знаний

      Предисловие. Первоначально тема называлась так: "Домашний YiiMP пул + кошелек для соло. Нужен совет". Но в связи с тем, что информации по настройке yiimp пулов в сети катастрофически мало, в топике стали обсуждаться гораздо более широкие задачи. Надеемся, что, в конечном итоге, эта тема станет хорошей базой знаний.       Прошу помочь советом в настройке связки yiimp + кошелек.   Тема соло мне всегда была интересна, но так как метод getwok на сегодняшний день пра

      в Программы для майнинга

    • Замена вентилятора на EVGA GeForce GTX 1070 FTW

      Доброго времени суток.   Не подскажете, что и как можно сделать с картой EVGA GeForce GTX 1070 FTW? Отвалился один вентилятор. Но карта работает. Как заменить его, вентилятор, можно? И можно ли? И где его достать. Ни одной темы по этим вопросам не могу найти. Ни на форумах, ни в интернете.       Подойдут ли эти вентиляторы для замены: 1. Вентилятор - этот в итоге заказал... 2. Вентилятор - этот скорее всего не подойдёт...

      в Видеокарты

    • Настройка полного узла Lightning Network на Windows

      Не могу найти свежие статьи по запуску полной ноды  LN с помощью Bitcoin core + Eclair на Windows.  Все статьи,  что выдает поиск 2018 - 2019 года.  Есть кто это делал?  

      в Биткоин

×
×
  • Создать...