Перейти к содержимому
nikodim

rigonline.ru | Мониторинг работы фермы

Рекомендуемые сообщения

Поддерживаете мое предложение по записи одного значения по карте в час (среднего).

Это поможет сократить размеры файлов в 20 раз.

Но опять же вопрос - на сколько актуальными будут эти значения?

Например, у пользователя каждый час на несколько минут поднимается температура карт.

По графику (по средней за час) - все будет ровно, а по факту скачкИ каждый час.

 

* Естественно при реализации функционала данные будут храниться лишь за несколько последних дней.

Если дополнить опцией автоотправки ботом в телеграфе значений температуры по определенной ферме (для желающих отловить повышение температуры определенной карты) - то в общем должно получиться информативно.

На часовых графиках видна остановка кулера видеокарты или рост температуры в помещении. А для отлова краткосрочного перегрева и последующего отвала определенной видеокарты - отправка значений автоматом (при включении такой опции в ЛК) ботом в телеграф. (Или значений, скажем, за час на емейл или телеграф, перед вычислением среднечасовой температуры)

Или отправка файла с данными работы ферм пользователю на емейл за, например, сутки для последующего анализа на локальной машине, но в этом случае нужны данные за каждую отправку данных, а не среднее значение за час.

Как еще один вариант графиков за час..... Кроме средней температуры выводить дополнительно значения максимальной и минимальной температуры за час.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

,

Лимит хранения - 30 дней.

На примере автора - за месяц файл будет весить 8 мб.

 

Итого 8 мб с юзера в месяц. 

Если 1000 юзеров - 8 Гб.

10 000 юзеров - 80 Гб.

 

Проблема действительно настолько актуальна на данном этапе?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Добрый день

Как я могу узнать:  какая тут ошибка?

  

post-61724-0-98797400-1501158620_thumb.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Добрый день

Как я могу узнать:  какая тут ошибка?

vcount=6 это для шести видеокарт

vcount=4 если у вас 4 видеокарты

в файле config

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

,

Лимит хранения - 30 дней.

На примере автора - за месяц файл будет весить 8 мб.

 

Итого 8 мб с юзера в месяц. 

Если 1000 юзеров - 8 Гб.

10 000 юзеров - 80 Гб.

 

Проблема действительно настолько актуальна на данном этапе?

 

Еще как актуальна. Особенно если вникнуть в то что я писал.

 

Система читает/записывает файл каждые 3 минуты.

И если файл большой, то ей становится очень накладно это делать.

 

При учете, что одна ферма в сутки делает 480 обращений.

И, допустим, среднее количество ферм - 3 штуки.

А так-же предположить что есть 1000 пользователей.

Получаем:

480 * 3 * 1000 = 1 440 000 - чтений/записей этих файлов в сутки.

А это 17 обращений в секунду, не считая работу крона, просмотр статистики, обращения из телеграм и прочего. В результате набурется все 30 обращений в секунду. И если в этих обращениях будет работа с тяжелыми файлами, то система просто не вывезет.

 

Так что проблема не в хранении файлов, а в регулярной работе с ними при постоянном их росте.

Да и пользователей, на данный момент, уже почти 2К. Соответственно это уже 50-60 обращений в секунду.

 

Именно поэтому вопрос звучит так: есть ли вообще надобность температурных графиков?

И если они прям необходимы, то второй вопрос: на какие жертвы можно пойти чтобы минимизировать нагрузку на сервер.

Добрый день

Как я могу узнать:  какая тут ошибка?

 

У вас отсутствуют 2 видеокарты))

 

tonerland совершенно прав - нужно в конфиге (config.ini) приложения изменить значение параметра отвечающего за количество видеокарт на ферме (vcount)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

vcount=6 это для шести видеокарт

vcount=4 если у вас 4 видеокарты

в файле config

я не менял, по умолчанию =1, и где 4 карты всё ок! и где 5 карт всё ок! изменил только пороги температуры. А с температурой у него пи****дец! 78 по ядру - это все 90 на WRM при 58% на вентиле :blink:

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

я не менял, по умолчанию =1, и где 4 карты всё ок! и где 5 карт всё ок! изменил только пороги температуры. А с температурой у него пи****дец! 78 по ядру - это все 90 на WRM при 58% на вентиле :blink:

 

Если оставите по умолчанию = 1, то не поймаете отвал видеокарт...

Потому что система сравнивает значение этого параметра и пришедшие данные по видикам. 

Соответственно если у вас 5 карт и одна отвалилась - на сервис данные придут по 4 картам, но это все равно будет больше чем в конфиге.

Соответственно ошибка не будет выявлена.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

 

 

Именно поэтому вопрос звучит так: есть ли вообще надобность температурных графиков? И если они прям необходимы, то второй вопрос: на какие жертвы можно пойти чтобы минимизировать нагрузку на сервер.

 

Да. Нужны. Без ущерба прочему функционалу.

Выход один - Postgres

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Доброго дня!

 

Подскажите пожалуйста, прога видит только зелёные карточки? amd не видит?(

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Доброго дня!

 

Подскажите пожалуйста, прога видит только зелёные карточки? amd не видит?(

 

У меня все карты видит.

И по отдельности красные и зеленые фермы и смешанные фермы.

 

Кидай мне скрин консоли приложения, лучше в вк (https://vk.com/rigonline).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Обновление,

 

- в личном кабинете добавил настройку "Расширенная статистика" в блоке "Публичная ссылка"

 

Если эту галочку отметить, то по публичной ссылке будет отображаться вся статистика в полном объеме, как в личном кабинете. Иначе, только аптайм и видеокарты.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Обновление:

 

- разработан функционал уведомлений при выходе видеокарт за температурные пределы (mint, maxt в файле config.ini)

 

Ферма №1 «RIG1». Температурный режим нарушен.

Ферма №1 «RIG1». Температурный режим восстановлен.

 

- разработан функционал уведомлений при отвале видеокарт (vcount в файле config.ini)

 

Ферма №1 «RIG1». Отвал видеокарт (1 шт. из 5).

Ферма №1 «RIG1». Все видеокарты восстановлены (5 шт.).

 

Рекомендации:

- настроить на всех фермах правильные температурные пределы

- настроить на всех фермах правильно количество видеокарт

 


После внесения изменений в config.ini - НЕ обязательно перезапускать батник.

Конфиг читается заново на каждой итерации цикла.

 


Для избежания ложных срабатываний, реализовано двойное подтверждение ошибки.


Т.е. уведомление уйдет только при получении второй ошибки сразу после первой.

Так-же как и с мониторингом найса.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
(изменено)

Благодарю Автора за отличный сервис.

 

Подскажите пожалуйста, по какой причине, в стстистике, на одной ферме не отображаерся график запусков/остановок/перезагрузок фермы?

На всех показывает, а на одной нет.

Изменено пользователем yazol

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Благодарю Автора за отличный сервис.

 

Подскажите пожалуйста, по какой причине, в стстистике, на одной ферме не отображаерся график запусков/остановок/перезагрузок фермы?

На всех показывает, а на одной нет.

 

Статистика по запускам/остановкам/перезагрузкам начала собираться с вечера прошлой пятницы.

Если все это время ферма работала стабильно и ни разу не перегружалась, то и статистики нет))

 

Можешь просто выключить мое приложение. Подождать 8 минут. Получишь уведомления что ферма остановлена. После чего запустить приложение. После этого статистика начнет записываться. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Да действительно ферма работает 12дней ...

Подожду может сама станет ))

 

По поводе графиков температуры.

Это была бы очень полезная штука. Только зачем вести статистику каждой карты?

Мне кажется графика минимальной и максимальной температуры фермы, было бы достаточно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Средняя температура фермы может быть 68 градусов, что в принципе нормально.

Но при этом 3 карты будут по 60, а две по 80. А это уже плохо.

Мне кажется средняя температура по больнице не очень хороший вариант))

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Не средний показатель, а минимум и максимум. Мин 60 макс 80, тогда сразу видно

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Не средний показатель, а минимум и максимум. Мин 60 макс 80, тогда сразу видно

 

Хммм... есть над чем подумать... спасибо за идею))

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пользователи, которые очень хотели графики по температурам карт, есть что обсудить.

Пока есть предложение писать статистику не каждые 3 минуты, а допустим, раз в час.

Час для полной слишком редко, хотя и гораздо лучше чем ничего. Некоторые моменты не поймаем. Если минут до 15 уменьшить интервал и воспользоваться интересным предложением хранить только максимум и минимум, то в принципе норм.

Хотя с максимумом и минимумом свои заморочки могут выплыть. Если номер карты с мгновенным граничным значением меняется за интервал, что делать? Считать максимум за период каждой отдельной карты, а потом смотреть максимум из максимумов? Но так надо хранить много промежуточных данных и производить много вычислений. Или можно всегда брать максимум температур всего рига и не париться? В принципе может второй вариант даже полезнее, так что стоит подумать над этой возможностью.

 

Но, как мне кажется, проблема будет не в дисковом пространстве и обработке базы, а в ширине канала, который может не справиться с потоком данных, если многие будут графики использовать. Хотя, если хранить в json, то естественно все ресурсы сервака только на парсинг и будут уходить (если графики не клиент напрямую по данным json рисовать будет). Но внезапно хранить можно не в json. Плюс бинарный формат позволить хранить не 18 байт на тик, а 3 байта (условно два байта на время и один на температуру)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Час для полной слишком редко, хотя и гораздо лучше чем ничего. Некоторые моменты не поймаем. Если минут до 15 уменьшить интервал и воспользоваться интересным предложением хранить только максимум и минимум, то в принципе норм.

Хотя с максимумом и минимумом свои заморочки могут выплыть. Если номер карты с мгновенным граничным значением меняется за интервал, что делать? Считать максимум за период каждой отдельной карты, а потом смотреть максимум из максимумов? Но так надо хранить много промежуточных данных и производить много вычислений. Или можно всегда брать максимум температур всего рига и не париться? В принципе может второй вариант даже полезнее, так что стоит подумать над этой возможностью.

 

Но, как мне кажется, проблема будет не в дисковом пространстве и обработке базы, а в ширине канала, который может не справиться с потоком данных, если многие будут графики использовать. Хотя, если хранить в json, то естественно все ресурсы сервака только на парсинг и будут уходить (если графики не клиент напрямую по данным json рисовать будет). Но внезапно хранить можно не в json. Плюс бинарный формат позволить хранить не 18 байт на тик, а 3 байта (условно два байта на время и один на температуру)

 

Данные храню в json.

И графики рисовать будут браузеры клиентов при помощи какого-нить плагина.

Тут надо понять как минимизировать сами файлы json без потери информативности.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

За температуру просто адски спасибо. Нет, просто мегаадовоспасибо! доберусь до цивизалации - отправлю еще поддержку.

Вопрос - давеча в статистке один риг загорелся желтым, развернул - одна из видях просела gpu, но уведомление молчало. Остальные карты работе впоряде. Это можно как то вывести в телеграмм ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

За температуру просто адски спасибо. Нет, просто мегаадовоспасибо! доберусь до цивизалации - отправлю еще поддержку.

Вопрос - давеча в статистке один риг загорелся желтым, развернул - одна из видях просела gpu, но уведомление молчало. Остальные карты работе впоряде. Это можно как то вывести в телеграмм ?

 

Что значит "загорелся желтым"?)

 

По загрузке гпу уведомлений не делаю, потому что ОХМ часто нулевую загрузку возвращает, поэтому в карточках бывают знаки "?".

С температурой вроде проблем нет - всегда есть данные.

Да и если карта отвалилась, то явно будет остывать и тут ее спалит выход за температурный диапазон.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Полезные мелочи))

 

post-40565-0-72127500-1501230334_thumb.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пока делаю резиновую верстку - отключил отображение графиков на экранах шириной меньше 730 пикселей.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Охота андройд виджет на весь экран. отображать теже показатели что на сайте, дабы не заходить постоянно в браузер))

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


×