ローカルLLM(openai/gpt-oss-20b 等)を動かすための認証設定手順です。
Hugging Faceでローカルモデルをダウンロードするためには、Hugging Faceアカウントで「Read(読み取り)」権限を持つトークンを発行する必要があります。
設定ページへアクセス Hugging Faceにログインし、右上のアイコンから [Settings] を選択します。
トークン管理画面を開く 左サイドバーの [Access Tokens] をクリックし、[Create new token] ボタンを押します。
Read (モデルのダウンロードのみに使用するため)local-gpu-server)hf_ から始まる文字列をコピーし、安全な場所に保管してください。[!WARNING] 取り扱い注意 このトークンはパスワードと同じです。GitHubの公開リポジトリ等に誤ってアップロードしないよう厳重に管理してください。
Llama 3やGemmaなど、一部のモデルはトークンがあるだけではダウンロードできません。モデルのページで利用規約に同意する必要があります。
meta-llama/Meta-Llama-3-8B)にアクセスします。[!TIP]
openai/gpt-oss-20bは通常オープンですが、新しいモデルを試す際は必ずこの「Gate認証」を確認する癖をつけてください。
発行したトークンをLinux環境(vLLMを実行するサーバー)に設定します。
現在のターミナルセッションのみ有効な設定です。
# 下記の hf_xxxxx を自分のトークンに書き換えて実行
export HUGGINGFACE_HUB_TOKEN=hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx