Перейти к содержанию

Настройка gtx 1060 под Linux


iBaaX

Рекомендуемые сообщения

Сoolbits cстоит 4

 

ну значит скрипт ведет себя корректно, у него физически нет возможности ничего поменять, установите coolbits 31. Рекомендую почитать про coolbits более подробно, так как без него, не только с вентилями, но и с разгоном ничего не получиться.

 

 

Стоило мне зайти в GUI включить/выключить режим вентиля и батник заработал. Только появился новый вопрос, как я понял скрипт контролирует температуру и в зависимости он ее вручную проставляет обороты для вентилятора ! Но если скрипт завершается, в настройках остается последняя величина которую скрипт успел выставить, хотелось бы это как то контролировать что бы не получилось так что карты перегреются. Я  так понимаю можно отслеживать работу скрипта и если он мертв перезапускать его, или написать второй скрипт который переходит в авто режим контроля оборотов куллера !

 

Вернуть управление карте

nvidia-settings -a [gpu:0]/GPUFanControlState=0
Изменено пользователем r9380
Ссылка на комментарий
Поделиться на другие сайты

А если мертв тот, который следит?)) Стоит положиться на автоматику тротлинга чипа и нарисовать алерты отдельным скриптом.

Неужели настолько может не повезти )) По подробнее, где можно почитать ?

Ссылка на комментарий
Поделиться на другие сайты

 

ну значит скрипт ведет себя корректно, у него физически нет возможности ничего поменять, установите coolbits 31. Рекомендую почитать про coolbits более подробно, так как без него, не только с вентилями, но и с разгоном ничего не получиться.

 

 

Вернуть управление карте

nvidia-settings -a [gpu:0]/GPUFanControlState=0

Что то про coolbits мало пишут, хотел найти ман по ним, но что то не на гуглил. Режим 31 это полный оверклокинг ? Чем он от 4-го отличается ?

Изменено пользователем Fabryan
Ссылка на комментарий
Поделиться на другие сайты

Двойной rtfm одним постом, watch in awe! ,p

 

@Fabryan, про них писать нечего, они нифига не cool. Приобщись к таинствам документации. Или ставь 28. Или 31. Или 4, whatever.

 

 

xorg сгенерировать

Приобщись к таинствам документации. Или мой вариант:

nvidia-xconfig --enable-all-gpus --allow-empty-initial-configuration --cool-bits=28 --depth=8 --mode=640x480 --no-sli
Ссылка на комментарий
Поделиться на другие сайты

Рисую рюшки. Сделал полезный в траблшуте motd.

sudo nano /etc/update-motd.d/10-help-text

Шлепните оттуда все и вставьте

#!/bin/sh
lshw -c processor | grep product
lshw -c video | grep -E 'product:|bus info:'
ip -4 addr show | grep inet
ip -0 addr show | grep link/et

 

Теперь заходя в терминал будете видеть такую красоту:

       product: AMD Phenom(tm) II X4 965 Processor
       product: GP104 [GeForce GTX 1070]
       bus info: pci@0000:01:00.0
       product: GP106 [GeForce GTX 1060 3GB]
       bus info: pci@0000:02:00.0
       product: GP106 [GeForce GTX 1060 6GB]
       bus info: pci@0000:07:00.0
       product: GP104 [GeForce GTX 1070]
       bus info: pci@0000:08:00.0
    inet 127.0.0.1/8 scope host lo
    inet 322.223.322.223/24 brd 322.223.322.255 scope global enp3s0
    link/ether бебебе brd ff:ff:ff:ff:ff:ff
Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

 

ну значит скрипт ведет себя корректно, у него физически нет возможности ничего поменять, установите coolbits 31. Рекомендую почитать про coolbits более подробно, так как без него, не только с вентилями, но и с разгоном ничего не получиться.

 

 

Вернуть управление карте

nvidia-settings -a [gpu:0]/GPUFanControlState=0

спасибо за ответы. Обнаружил что данный скрипт невозможно автоматически стартовать например через systemctl  или supervisor а хотелось бы, что бы можно было контролировать процесс в логах пишет вот такое:

 

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Service hold-off time over, scheduling restart.

Aug 24 12:55:53 M1 systemd[1]: Stopped Fan Script.

Aug 24 12:55:53 M1 systemd[1]: Started Fan Script.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Main process exited, code=exited, status=1/FAILURE

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Unit entered failed state.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Failed with result 'exit-code'.

Aug 24 12:55:53 M1 systemd[1]: Starting Daemon for power management...

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Service hold-off time over, scheduling restart.

Aug 24 12:55:53 M1 systemd[1]: Stopped Fan Script.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Start request repeated too quickly.

Aug 24 12:55:53 M1 systemd[1]: Failed to start Fan Script.

 

 

root@M1:/lib/systemd/system# sudo systemctl status fan1.service

● fan1.service - Fan Script

   Loaded: loaded (/lib/systemd/system/fan1.service; enabled; vendor preset: enabled)

   Active: failed (Result: exit-code) since Чт 2017-08-24 13:21:36 +03; 2min 24s ago

 Main PID: 3171 (code=exited, status=1/FAILURE)

 

авг 24 13:21:36 M1 systemd[1]: Started Fan Script.

авг 24 13:21:36 M1 fan2.sh[3171]: Found 5 GPU(s) : MIN 50°C - 60°C MAX : Delay 5s

авг 24 13:21:36 M1 fan2.sh[3171]: No protocol specified

авг 24 13:21:36 M1 fan2.sh[3171]: Failed to connect to Mir: Failed to connect to server socket: Н

авг 24 13:21:36 M1 fan2.sh[3171]: Unable to init server: Could not connect: В соединении отказано

авг 24 13:21:36 M1 fan2.sh[3171]: ERROR: The control display is undefined; please run `nvidia-set

авг 24 13:21:36 M1 fan2.sh[3171]:        --help` for usage information.

авг 24 13:21:36 M1 systemd[1]: fan1.service: Main process exited, code=exited, status=1/FAILURE

авг 24 13:21:36 M1 systemd[1]: fan1.service: Unit entered failed state.

авг 24 13:21:36 M1 systemd[1]: fan1.service: Failed with result 'exit-code'.

 

И постоянно идет на перезапуск

 

Служба которая лежит в systemd

 

[unit]

Description=Fan Script

After=multi-user.target

 

[service]

ExecStart=/opt/fan/fan2.sh

WatchdogSec=30s

Restart=on-failure

StartLimitInterval=3min

StartLimitBurst=4

 

 

[install]

WantedBy=multi-user.target

Изменено пользователем Fabryan
Ссылка на комментарий
Поделиться на другие сайты

спасибо за ответы. Обнаружил что данный скрипт невозможно автоматически стартовать например через systemctl  или supervisor а хотелось бы, что бы можно было контролировать процесс в логах пишет вот такое:

 

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Service hold-off time over, scheduling restart.

Aug 24 12:55:53 M1 systemd[1]: Stopped Fan Script.

Aug 24 12:55:53 M1 systemd[1]: Started Fan Script.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Main process exited, code=exited, status=1/FAILURE

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Unit entered failed state.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Failed with result 'exit-code'.

Aug 24 12:55:53 M1 systemd[1]: Starting Daemon for power management...

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Service hold-off time over, scheduling restart.

Aug 24 12:55:53 M1 systemd[1]: Stopped Fan Script.

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Start request repeated too quickly.

Aug 24 12:55:53 M1 systemd[1]: Failed to start Fan Script.

 

 

root@M1:/lib/systemd/system# sudo systemctl status fan1.service

● fan1.service - Fan Script

   Loaded: loaded (/lib/systemd/system/fan1.service; enabled; vendor preset: enabled)

   Active: failed (Result: exit-code) since Чт 2017-08-24 13:21:36 +03; 2min 24s ago

 Main PID: 3171 (code=exited, status=1/FAILURE)

 

авг 24 13:21:36 M1 systemd[1]: Started Fan Script.

авг 24 13:21:36 M1 fan2.sh[3171]: Found 5 GPU(s) : MIN 50°C - 60°C MAX : Delay 5s

авг 24 13:21:36 M1 fan2.sh[3171]: No protocol specified

авг 24 13:21:36 M1 fan2.sh[3171]: Failed to connect to Mir: Failed to connect to server socket: Н

авг 24 13:21:36 M1 fan2.sh[3171]: Unable to init server: Could not connect: В соединении отказано

авг 24 13:21:36 M1 fan2.sh[3171]: ERROR: The control display is undefined; please run `nvidia-set

авг 24 13:21:36 M1 fan2.sh[3171]:        --help` for usage information.

авг 24 13:21:36 M1 systemd[1]: fan1.service: Main process exited, code=exited, status=1/FAILURE

авг 24 13:21:36 M1 systemd[1]: fan1.service: Unit entered failed state.

авг 24 13:21:36 M1 systemd[1]: fan1.service: Failed with result 'exit-code'.

 

И постоянно идет на перезапуск

 

Служба которая лежит в systemd

 

[unit]

Description=Fan Script

After=multi-user.target

 

[service]

ExecStart=/opt/fan/fan2.sh

WatchdogSec=30s

Restart=on-failure

StartLimitInterval=3min

StartLimitBurst=4

 

 

[install]

WantedBy=multi-user.target

Отвечаю сам себе, дело было в том что данный скрипт должен запускаться от простого пользователя в итоге пусковой файл в systemd выглядит так

 

[unit]

Description=Fan Script

After=multi-user.target

 

[service]

Type=simple

ExecStart=/opt/fan/fan2.sh

Restart=always

RestartSec=1

 

User=Ваш пользователь

Group=Его группа

 

[install]

WantedBy=multi-user.target

 

Будет время я еще поиграюсь с настройками

 

WatchdogSec=30s

Restart=on-failure

StartLimitInterval=3min

StartLimitBurst=4

 

Для более точной настройки

Изменено пользователем Fabryan
Ссылка на комментарий
Поделиться на другие сайты

 

 Или ставь 28. Или 31. Или 4, whatever.

 

28=31=4?

Если не сложно - можете описать параметры?

Ссылка на комментарий
Поделиться на другие сайты

28=31=4?

Если не сложно - можете описать параметры?

Он привел ссылку  https://us.download.nvidia.com/XFree86/Linux-x86/384.47/README/xconfigoptions.html

И предложил окунуться в таинство документации )), но там не все режимы, все я так и не нашел.

Ссылка на комментарий
Поделиться на другие сайты

28=31=4?

Там есть два очень нужных, один странный и два совсем ненужных. 28 включает первые три, 31 включет все пять.

 

Ссылку дал не из-за чванства, а потому что забыл, что там что. Сам прочел, поставил 28 и выкинул из головы.

Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

Я без издевок спрашивал. Спасибо!

У самого когдато поставил 31 и забыл. Но теперь думаю, не нужно ли 28)

Ссылка на комментарий
Поделиться на другие сайты

Я без издевок спрашивал. Спасибо!

У самого когдато поставил 31 и забыл. Но теперь думаю, не нужно ли 28)

 Я себе 28 поставил !

 

Там есть два очень нужных, один странный и два совсем ненужных. 28 включает первые три, 31 включет все пять.

 

Ссылку дал не из-за чванства, а потому что забыл, что там что. Сам прочел, поставил 28 и выкинул из головы.

Ну теперь все встало на свои места !

Ссылка на комментарий
Поделиться на другие сайты

должен запускаться от простого пользователя

Ух ты, пропустил. У меня init.d для этого живет

su -l юзер -c "команда"
в итоге пусковой файл в systemd выглядит так

А что пишет systemctl status fan1.service через пару часов? Не перезапускает скрипт по тайм-ауту без видимых причин? 

 

 

Будет время я еще поиграюсь с настройками WatchdogSec=30s Restart=on-failure StartLimitInterval=3min StartLimitBurst=4

Restart=on-failure вроде хорош, но все это предполагает exit code. Коего в оригинальном скрипте не завезли.

upd. хотя...

Aug 24 12:55:53 M1 systemd[1]: fan1.service: Main process exited, code=exited, status=1/FAILURE
Неужели настолько может не повезти )) По подробнее, где можно почитать ?

Поясню. Моя практика говорит, что обычно скрипт тянет на дно нвапи, который в свою очередь, тонет от аппаратного сбоя. В таком случае можно хоть опперезапускаться со скриптом. А на самом деле надо

. протокол

. попытка ресета нвапи (скорее всего, неудачная - он такой: "ой, а у тебя же тут процесс висит, не буду гпу сбрасывать")

. ресет компа

...

. протокол следующего отвала, триггер емейлового алерта, убрать сбоящую карточку из работы, ждать инженера автобус

Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

Ух ты, пропустил. У меня init.d для этого живет

 

init.d проверенный инструмент но я хотел попробовать что то новое.

 

А что пишет systemctl status fan1.service через пару часов? Не перезапускает скрипт по тайм-ауту без видимых причин?

 

 fan1.service - Fan Script

   Loaded: loaded (/lib/systemd/system/fan1.service; enabled; vendor preset: ena

   Active: active (running) since Чт 2017-08-24 20:44:22 +03; 11h ago

 Main PID: 1735 (fan2.sh)

   CGroup: /system.slice/fan1.service

           ├─ 1735 /bin/bash /opt/fan/fan2.sh

           └─30402 sleep 5

 

Restart=on-failure вроде хорош, но все это предполагает exit code. Коего в оригинальном скрипте не завезли. upd. хотя...

 

По подробнее пожалуйста немного не понял, видать не настолько в никсах разбираюсь, а хотелось бы !

 

Поясню. Моя практика говорит, что обычно скрипт тянет на дно нвапи, который в свою очередь, тонет от аппаратного сбоя. В таком случае можно хоть опперезапускаться со скриптом. А на самом деле надо . протокол . попытка ресета нвапи (скорее всего, неудачная - он такой: "ой, а у тебя же тут процесс висит, не буду гпу сбрасывать") . ресет компа ... . протокол следующего отвала, триггер емейлового алерта, убрать сбоящую карточку из работы, ждать инженера автобус

 

На сколько я понял systemd работает на уровне системы и скорее всего упадет вместе с системой !

Ссылка на комментарий
Поделиться на другие сайты

Restart=on-failure вроде хорош, но все это предполагает exit code. Коего в оригинальном скрипте не завезли.

upd. хотя...

И я если честно не понял, подскажите куда копать, чего не хватает, доделаю и выложу на гитхаб, раз не только мне одному оно нужно. Можно будет свои комитики вставлять)

 

Я просто ленивый по своей природе, запускаю через крон с переадресацией вывода в логфайл, и оно работает) Руки до сервиса не дошли, хоть и думал об этом) Понимаю что через сервис надежней, но вот есть как есть)

Изменено пользователем r9380
Ссылка на комментарий
Поделиться на другие сайты

Веселые башеры продолжают. Мой подход к вентиляторам:

#!/bin/bash

#1. считаем карты по пци: пытаемся контролировать их, даже если они поломались и не ждем таймаута от нвапи; контроль загруженного драйвера в другом месте
#2. фан контрол включен при загрузке, каждые DELAY секунд не нужен; контроль включения в другом месте
#3. баш и переменные: температура читается 1 раз
#4. формат ноюнитс: мало ли, что нвидии в голову взбредет при следующих обновлениях
#5. баш и многозадачность: каждое изменение температуры в отдельной сессии.
#6. контроль ошибок в другом месте

#sleep 30

export DISPLAY=:0

DELAY=10
MIN_TEMP=55
MAX_TEMP=70

CARDS_NUM=`lspci | grep 'VGA compatible controller: NVIDIA' -c`

echo "Found ${CARDS_NUM} GPU(s) : MIN ${MIN_TEMP}°C - ${MAX_TEMP}°C MAX : Delay ${DELAY}s"

while true
do
    echo "$(date +"%d/%m/%y %T")"
    for ((i=0; i<$CARDS_NUM; i++))
    do
	nvidia-smi -i $i --query-gpu=temperature.gpu --format=csv,noheader,nounits > ~/temp_temp
        GPU_TEMP=`cat ~/temp_temp`
        if [[ $GPU_TEMP < $MIN_TEMP ]]
        then
            FAN_SPEED=0
        elif [[ $GPU_TEMP > $MAX_TEMP ]]
        then
            FAN_SPEED=100
        else
            FAN_SPEED=$(( ($GPU_TEMP - $MIN_TEMP)*100/($MAX_TEMP - $MIN_TEMP) )) 
        fi
        screen -dmS FanControl$i nvidia-settings -a [fan:$i]/GPUTargetFanSpeed=$FAN_SPEED
        echo "GPU${i} ${GPU_TEMP}°C -> ${FAN_SPEED}%"
    done
sleep $DELAY
done

Тудуз: контроль температуры и крутилки надо все-таки принести сюда. Перейти на кейс, чтобы отрабатывать ошибки 0,100 и not available. Ловить ошибки установки скорости тоже надо бы здесь.

 

И, чтоб два раза не вставать, скринированный разгон с параметрами:

#!/bin/bash

NUM_CARDS="$(sudo lshw -c video | grep 'vendor: NVIDIA' -c)"
export DISPLAY=:0

if [ -z "$1" ]
        then
        FREQ_GPU=0
        else
        FREQ_GPU="$1"
fi
if [ -z "$2" ]
        then
        FREQ_MEM=0
        else
        FREQ_MEM="$2"
fi

for ((i=0; i<$NUM_CARDS;i++))
{
        screen -dmS Overclock$i nvidia-settings -a [gpu:$i]/GPUMemoryTransferRateOffset[3]=$FREQ_MEM -a [gpu:$i]/GPUGraphicsClockOffset[3]=$FREQ_GPU
}
Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

 

Веселые башеры продолжают. Мой подход к вентиляторам:

#!/bin/bash

#1. считаем карты по пци: пытаемся контролировать их, даже если они поломались и не ждем таймаута от нвапи; контроль загруженного драйвера в другом месте
#2. фан контрол включен при загрузке, каждые DELAY секунд не нужен; контроль включения в другом месте
#3. баш и переменные: температура читается 1 раз
#4. формат ноюнитс: мало ли, что нвидии в голову взбредет при следующих обновлениях
#5. баш и многозадачность: каждое изменение температуры в отдельной сессии.
#6. контроль ошибок в другом месте

#sleep 30

export DISPLAY=:0

DELAY=10
MIN_TEMP=55
MAX_TEMP=70

CARDS_NUM=`lspci | grep 'VGA compatible controller: NVIDIA' -c`

echo "Found ${CARDS_NUM} GPU(s) : MIN ${MIN_TEMP}°C - ${MAX_TEMP}°C MAX : Delay ${DELAY}s"

while true
do
    echo "$(date +"%d/%m/%y %T")"
    for ((i=0; i<$CARDS_NUM; i++))
    do
	nvidia-smi -i $i --query-gpu=temperature.gpu --format=csv,noheader,nounits > ~/temp_temp
        GPU_TEMP=`cat ~/temp_temp`
        if [[ $GPU_TEMP < $MIN_TEMP ]]
        then
            FAN_SPEED=0
        elif [[ $GPU_TEMP > $MAX_TEMP ]]
        then
            FAN_SPEED=100
        else
            FAN_SPEED=$(( ($GPU_TEMP - $MIN_TEMP)*100/($MAX_TEMP - $MIN_TEMP) )) 
        fi
        screen -dmS FanControl$i nvidia-settings -a [fan:$i]/GPUTargetFanSpeed=$FAN_SPEED > /dev/null
        echo "GPU${i} ${GPU_TEMP}°C -> ${FAN_SPEED}%"
    done
sleep $DELAY
done

Круто, контроли как реализованы ? через systemd ?

Ссылка на комментарий
Поделиться на другие сайты

 

 

подскажите куда копать, чего не хватает

Можно разбирать ошибки, а можно просто ловить эксит код.

#!/bin/bash
nvidia-settings -a [fan:0]/GPUTargetFanSpeed=0
echo "$?"

export DISPLAY=:0

nvidia-settings -a [fan:0]/GPUTargetFanSpeed=7777
echo "$?"
nvidia-settings -a [fan:777]/GPUTargetFanSpeed=0
echo "$?"
nvidia-settings -a [fan:0]/GPUTargetFanSpeed=0
echo "$?"
Ссылка на комментарий
Поделиться на другие сайты

 

#1. считаем карты по пци: пытаемся контролировать их, даже если они поломались и не ждем таймаута от нвапи; контроль загруженного драйвера в другом месте

#2. фан контрол включен при загрузке, каждые DELAY секунд не нужен; контроль включения в другом месте

#3. баш и переменные: температура читается 1 раз

#4. формат ноюнитс: мало ли, что нвидии в голову взбредет при следующих обновлениях

#5. баш и многозадачность: каждое изменение температуры в отдельной сессии.

#6. контроль ошибок в другом месте

#1 согласен, так будет лучше

#2 тут не понял DELAY=10 и sleep $DELAY же остались

#3 тут тоже не понял, у меня они раз и читаються, и зачем удалили присвоение переменной GPUFanControlState значения 1? Без нее же не взлетит у большинства.

#4 тут совсем не понял о чём вы)

#5 многопоточность - хорошо, но зачем использовать для этого screen? все же не стандартная утилита, да и относительно "тяжёлая", а это критично раз пошёл такой тонкий тюнинг) '&' в конце команды сделает тоже самое

#6 вижу что температура пишется в файл а потом из него читается, больше ничего что связано с "другим местом" не заметил, поясните подробней плз

Изменено пользователем r9380
Ссылка на комментарий
Поделиться на другие сайты

#2 тут не понял DELAY=10 и sleep $DELAY же остались

#3 тут тоже не понял, у меня они раз и читаються, и зачем удалили присвоение переменной GPUFanControlState значения 1? Без нее же не взлетит у большинства.

Ага, невнимательно прочел. Думал, что он тоже в цикле. У меня при загрузке вавермайзер и фанкотрол включаются.

 

 

#4 тут совсем не понял о чём вы)

--format=csv,noheader,nounits

 

 

#5 многопоточность - хорошо, но зачем использовать для этого screen? все же не стандартная утилита, да и относительно "тяжёлая", а это критично раз пошёл такой тонкий тюнинг) '&' в конце команды сделает тоже самое

Про & в конце вот 2 минуты назад узнал.) А про отличие SystemV от systemctl читал 2 дня назад. И у меня нет продакшен-версии - все пишется вот сейчас: был под рукой микроскоп скрин - забил им. Благодарю за подсказку.

 

 

ничего что связано с "другим местом" не заметил, поясните подробней плз

 

 

Круто, контроли как реализованы ? через systemd ?

Есть еще скрипт. Делает раз в DELAY 

nvidia-smi --query-gpu=index,power.draw,clocks.gr,clocks.mem,clocks.max.gr,clocks.max.mem,power.min_limit,power.max_limit,еще какая-то фигня 

Проверяет и пишет лог, нажимает ресеты и гремит в телеграм ждет, когда я его дорисую.

 

То есть в моей версии есть cut, и нет 

	nvidia-smi -i $i --query-gpu=temperature.gpu --format=csv,noheader,nounits > ~/temp_temp
        GPU_TEMP=`cat ~/temp_temp`

 

 

пишется в файл а потом из него читается

Читал, что переменные, заданные через команды, не хранят результат, а исполняются каждый раз при вызове переменной. Врут?

Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

Ага, невнимательно прочел. Думал, что он тоже в цикле. У меня при загрузке вавермайзер и фанкотрол включаются.

 

 

--format=csv,noheader,nounits

 

 

Про & в конце вот 2 минуты назад узнал.) А про отличие SystemV от systemctl читал 2 дня назад. И у меня нет продакшен-версии - все пишется вот сейчас: был под рукой микроскоп скрин - забил им. Благодарю за подсказку.

 

 

 

 

Есть еще скрипт. Делает раз в DELAY 

nvidia-smi --query-gpu=index,power.draw,clocks.gr,clocks.mem,clocks.max.gr,clocks.max.mem,power.min_limit,power.max_limit,еще какая-то фигня 

Проверяет и пишет лог, нажимает ресеты и гремит в телеграм ждет, когда я его дорисую.

 

То есть в моей версии есть cut, и нет 

	nvidia-smi -i $i --query-gpu=temperature.gpu --format=csv,noheader,nounits > ~/temp_temp
        GPU_TEMP=`cat ~/temp_temp`

Читал, что переменные, заданные через команды, не хранят результат, а исполняются каждый раз при вызове переменной. Врут?

Если не сложно после теста, выложите пошагово скрипты и сервисы в порядке реализации !

Ссылка на комментарий
Поделиться на другие сайты

Приветствую, комрады.

 

Хоть на ликунсе давно работаю, но nvidia мне не поддается

 

есть комп с 6 картами: 4 шт 1060 и 2 шт 1080ти (+ в проце)

загрузка по сети + ssh. дист - дебиан стретч (стейбл)

 

но никак не получается управлять вентиляторами через nvidia-settings. разгон тоже было бы клево, но вентиляторы важнее -- 1080 уж дюже жаркие (при лимите 160 днем греются до 72-73 градусов).

(за основу взял скрипты, которые пролетали здесь, только обернул их init.d скриптом)

 

Проблема с nvidia-settings. через ssh запустить вообще не удалось. даже с bumblebee.

Если выводить на встроенную видяху (добавил ее первой вручную), то иксы стартуют, могу залогиниться и в xterm что-то поделать. но nvidia-settings не доступны (хотя в nvidia-smi xorg запущен на каждой видяхи).

Если выводить на первую (1060) видяху, то монитор показывает, что сигнал есть, но экран черный экран.

при этом порядок видеокарт в lspci и nvidia-smi совпадает, а вот с cuda-devices -- нет. 

 

Как-то вот так:

eugene@farm01:~$ lspci | grep VGA
00:02.0 VGA compatible controller: Intel Corporation Xeon E3-1200 v3/4th Gen Core Processor Integrated Graphics Controller (rev 06)
01:00.0 VGA compatible controller: NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
02:00.0 VGA compatible controller: NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
03:00.0 VGA compatible controller: NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
04:00.0 VGA compatible controller: NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
05:00.0 VGA compatible controller: NVIDIA Corporation Device 1b06 (rev a1)
06:00.0 VGA compatible controller: NVIDIA Corporation Device 1b06 (rev a1)
Sat Aug 26 19:10:12 2017       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.66                 Driver Version: 375.66                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 106...  On   | 0000:01:00.0     Off |                  N/A |
| 54%   59C    P2    75W /  75W |   2253MiB /  6072MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 106...  On   | 0000:02:00.0     Off |                  N/A |
| 54%   58C    P2    73W /  75W |   2253MiB /  6072MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 106...  On   | 0000:03:00.0     Off |                  N/A |
| 54%   58C    P2    74W /  75W |   2253MiB /  6072MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX 106...  On   | 0000:04:00.0     Off |                  N/A |
| 54%   59C    P2    74W /  75W |   2253MiB /  6072MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   4  GeForce GTX 108...  On   | 0000:05:00.0     Off |                  N/A |
| 41%   69C    P2   161W / 160W |    670MiB / 11172MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   5  GeForce GTX 108...  On   | 0000:06:00.0     Off |                  N/A |
| 39%   66C    P2   157W / 160W |    670MiB / 11172MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0       363    G   /usr/lib/xorg/Xorg                               6MiB |
|    0      1039    C   /usr/bin/ethminer                             2243MiB |
|    1       363    G   /usr/lib/xorg/Xorg                               6MiB |
|    1      1039    C   /usr/bin/ethminer                             2243MiB |
|    2       363    G   /usr/lib/xorg/Xorg                               6MiB |
|    2      1039    C   /usr/bin/ethminer                             2243MiB |
|    3       363    G   /usr/lib/xorg/Xorg                               6MiB |
|    3      1039    C   /usr/bin/ethminer                             2243MiB |
|    4       363    G   /usr/lib/xorg/Xorg                               7MiB |
|    4       938    C   /usr/bin/miner                                 659MiB |
|    5       363    G   /usr/lib/xorg/Xorg                               7MiB |
|    5       938    C   /usr/bin/miner                                 659MiB |
+-----------------------------------------------------------------------------+
 
/usr/bin/miner ... --cuda_devices 0 5
/usr/bin/ethminer ... -U --cuda-devices 1 2 3 4

Вначале 1080 стояли первыми, но т.к. у них не было dvi первый экран делал первую 1060 (3 карту).

Когда тестировал регулировку куллеров, заметил, что у двух карт датчик температуры и управление кулером не совпадало. в итоге температура 1080 разгоняла кулер на 1060. та охлаждалась и замедляла кулер на 1080. меньше чем за минуту догнало до 82 градусов. когда заметил, сразу рубанул питание. сначала думал что это из-за перекидывания карт. Но после того, как последовательность cuda устройств не совпадает -- возможно номера экранов были и не причем.

 

а вот последний конфиг (при котором экран где должны быть иксы черный (пустой))

# nvidia-xconfig: X configuration file generated by nvidia-xconfig
# nvidia-xconfig:  version 375.26  (buildd@debian)  Fri Jan 13 02:38:29 UTC 2017

Section "ServerLayout"
    Identifier     "Layout0"
    Screen      0  "Screen0"
    Screen      1  "Screen1" RightOf "Screen0"
    Screen      2  "Screen2" RightOf "Screen1"
    Screen      3  "Screen3" RightOf "Screen2"
    Screen      4  "Screen4" RightOf "Screen3"
    Screen      5  "Screen5" RightOf "Screen4"
    InputDevice    "Keyboard0" "CoreKeyboard"
    InputDevice    "Mouse0" "CorePointer"
EndSection

Section "Files"
EndSection

Section "InputDevice"
    
    # generated from default
    Identifier     "Mouse0"
    Driver         "mouse"
    Option         "Protocol" "auto"
    Option         "Device" "/dev/psaux"
    Option         "Emulate3Buttons" "no"
    Option         "ZAxisMapping" "4 5"
EndSection

Section "InputDevice"
    
    # generated from default
    Identifier     "Keyboard0"
    Driver         "kbd"
EndSection

Section "Monitor"
    Identifier     "Monitor0"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection
    
Section "Monitor"
    Identifier     "Monitor1"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection
    
Section "Monitor"
    Identifier     "Monitor2"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection
    
Section "Monitor"
    Identifier     "Monitor3"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Monitor"
    Identifier     "Monitor4"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Monitor"
    Identifier     "Monitor5"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1060 6GB"
    BusID          "PCI:1:0:0"
EndSection
    
Section "Device"
    Identifier     "Device1"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1060 6GB"
    BusID          "PCI:2:0:0"
EndSection
    
Section "Device"
    Identifier     "Device2"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1060 6GB"
    BusID          "PCI:3:0:0"
EndSection
    
Section "Device"
    Identifier     "Device3"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1060 6GB"
    BusID          "PCI:4:0:0"
EndSection
    
Section "Device"
    Identifier     "Device4"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:5:0:0"
EndSection

Section "Device"
    Identifier     "Device5"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:6:0:0"
EndSection
    
Section "Screen"
    Identifier     "Screen0"
    Device         "Device0"
    Monitor        "Monitor0"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection
    
Section "Screen"
    Identifier     "Screen1"
    Device         "Device1"
    Monitor        "Monitor1"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection
    
Section "Screen"
    Identifier     "Screen2"
    Device         "Device2"
    Monitor        "Monitor2"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Section "Screen"
    Identifier     "Screen3"
    Device         "Device3"
    Monitor        "Monitor3"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Section "Screen"
    Identifier     "Screen4"
    Device         "Device4"
    Monitor        "Monitor4"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Section "Screen"
    Identifier     "Screen5"
    Device         "Device5"
    Monitor        "Monitor5"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "28"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Вроде бы простая задача. но уже почти неделю ее безуспешно ковыряю :(

Ссылка на комментарий
Поделиться на другие сайты

Поставь x11vnc настрой его, и рули через него. Моник по хорошему надо подключать к той карте которая стоит в первом полном слоте.

Ссылка на комментарий
Поделиться на другие сайты

По фан-контролу мысли следующие:

1. без вачдога запускать нельзя. оставил тестовую на ночь, утром увидел 98 градусов (все живы).

2. вачдог есть у нвоса. он мне не нравится: с одной завешенной картой скрипт, тыкающийся даже в квери, будет висеть сам.

2.cont. все обращения к нвапи, все сеты и геты, надо оборачивать в какой-то try..except, создающий отдельный тред и имеющий таймаут.

3. 0% оборотов ставить нельзя, см п.1

4. каждый GPUTargetFanSpeed=нанана взрывает процессорное время ксорга. устанавливать надо, только если есть изменение. у всех так, кстати? гляньте в топ, пожалуйста.  

Текущее решение: старт с 80%, с 60 градусов 100%. У старших товарищей 100% и никаких гвоздей.

 

@_eugene_, ксорг есть, драйвер стартует. Какой-то мелочи не хватает, вроде

export DISPLAY=:0
xhost + 

из-под юзера. Нвидиа-сеттингс что говорит?

Изменено пользователем UR_Quan
Ссылка на комментарий
Поделиться на другие сайты

Мои наблюдения.

1. Фан контрол - ф топку. К сожалению вешает карты. Вентили в ручную.

2. Watchdog nvOS имеет право на жизнь - прикрутил себе, сразу ребутит есл падает хоть одна карта. (К сожалению не силен в скриптах, поэтому пользуюсь готовыми с мин доработкой)

Изменено пользователем Skylion
Ссылка на комментарий
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
  • Similar Topics

    • Настройка Асиков в "Соло Режим"

      Доброго времени суток товарищи. Такое дело, майнингом занимаюсь давно но никогда не пытался майнить соло. Стало интересно, и тут проблема выскочила. Хочу воткнуть в соло ROCK MINER t1.  Управляется он "BE200 Jet Stratum Miner V 5.47" через Block Erupter.  Настройки в bitcoin.conf server=1 rpcuser=123 rpcpassword=123 rpcallowip=* rpcport=3131 daemon=1 gen=0   Настройки в вебморде асика         192.168.0.101 - локальный ип сервака запущенного "сервер кошелек" 3131 порт открытыйв локалке и "из

      в ASIC/FPGA майнеры

    • Настройка USB майнера

      Народ привет! Прошу тему не удалять.   Нашёл наконец-то на просторах интернета такой мини Асик.  Поиск по фото показал, что это модель Erupter какая-то. Здесь есть древние темы, но не рискнул там писать. Скачал драйвер CP210x_Universal_Windows_Driver, Винда определила майнер. Нашел старую версию cgminer-3-1-1-zeus-windows.   Но вот где взять пул для добычи биткоина, чтобы его прописать в батнике? В старых темах пулы все мёртвые и давно на видюхах толь

      в ASIC/FPGA майнеры

    • Установка и настройка YiiMP пулов. База знаний

      Предисловие. Первоначально тема называлась так: "Домашний YiiMP пул + кошелек для соло. Нужен совет". Но в связи с тем, что информации по настройке yiimp пулов в сети катастрофически мало, в топике стали обсуждаться гораздо более широкие задачи. Надеемся, что, в конечном итоге, эта тема станет хорошей базой знаний.       Прошу помочь советом в настройке связки yiimp + кошелек.   Тема соло мне всегда была интересна, но так как метод getwok на сегодняшний день пра

      в Программы для майнинга

    • Замена вентилятора на EVGA GeForce GTX 1070 FTW

      Доброго времени суток.   Не подскажете, что и как можно сделать с картой EVGA GeForce GTX 1070 FTW? Отвалился один вентилятор. Но карта работает. Как заменить его, вентилятор, можно? И можно ли? И где его достать. Ни одной темы по этим вопросам не могу найти. Ни на форумах, ни в интернете.       Подойдут ли эти вентиляторы для замены: 1. Вентилятор - этот в итоге заказал... 2. Вентилятор - этот скорее всего не подойдёт...

      в Видеокарты

    • Настройка полного узла Lightning Network на Windows

      Не могу найти свежие статьи по запуску полной ноды  LN с помощью Bitcoin core + Eclair на Windows.  Все статьи,  что выдает поиск 2018 - 2019 года.  Есть кто это делал?  

      в Биткоин

×
×
  • Создать...