sukebei ダウンロード伸びランキング基盤

0結論サマリ

先に要点だけ。詳細は各セクションへ。

サイトは NyaaV2系（オープンソース nyaa） インスタンス。完全なサーバサイドHTML + RSSで、JS不要・スクレイピング容易。
人気指標の核は Completed（= downloads = 完了ダウンロードの累計）。一覧・RSS・詳細すべてに出る。
最重要サイトは「現在の累計値」しか持たず、履歴・時系列が一切無い。だから「伸び」は自前の定期スナップショットの差分でしか算出できない → これが取得層／分析層の分離が必須となる根拠。
データソースは HTML 一覧に一本化（RSSは不採用）。再観測にはカテゴリ別の深いページネーション（最大100p）が必要だが、それはHTMLでしか機能しない（RSSは深掘り不可・実測）。HTMLにRSSと同じ全項目が入るため、RSSを併用する固有メリットは無くパーサが二重になるだけ。
対象は4カテゴリ（Doujinshi / Games / Manga / Real Life）。各カテゴリを新着順 + seeder順の2軸で観測し、巡回ページ数とクロール頻度をカテゴリごとに設定（crawl_config）。初期設定で ≈1,840 req/日（§5）。
robots.txt は Crawl-delay: 5 / Disallow: /download。一覧・RSS・view は許可、/download は不要（magnetが一覧に含まれる）。マナー遵守は容易。

2サイト構造の網羅観測

実トラフィックを取得して検証した、URL設計・一覧・RSS・ソート・ページネーション・詳細。

2.1 URL設計 / クエリパラメータ

ベース https://sukebei.nyaa.si/。すべて GET パラメータで制御でき、RSSも同じパラメータを共有する。

param	役割	値
`q`	検索キーワード	任意文字列
`c`	カテゴリ	`0_0`All / `1_0`Art(`1_1`Anime,`1_2`Doujinshi,`1_3`Games,`1_4`Manga,`1_5`Pictures) / `2_0`Real Life(`2_1`Photobooks,`2_2`Videos)
`f`	フィルタ	`0`なし / `1`No remakes / `2`Trusted only
`s`	ソートキー	`id`(日付) / `seeders` / `leechers` / `downloads` / `size` / `comments`
`o`	ソート順	`asc` / `desc`
`p`	ページ	1〜（75件/ページ）
`page=rss`	RSS出力に切替	上記と併用可

2.2 データソースの比較 — RSS を主力に

RSS はソート無効・深掘り不可で新着しか返せない。数日ぶんを遡る再観測には深掘りが必須で、それは HTML のみ可能。HTML に全項目が入るため 本システムは HTML 一本に統一し RSS は不採用（§5）。

2.3 一覧テーブルの列 / RSS フィールド

HTML 一覧テーブルの列（75件/ページ）

Category（アイコン+リンク /?c=2_2）
Name（/view/{ID} + title属性）
Comments 数
Link（.torrent + magnet:?xt=urn:btih:{infohash}）
Size（例 4.6 GiB）
Date（data-timestamp = UTC epoch）
Seeders / Leechers
Completed（= downloads）= 人気指標の核

RSS `<item>` の nyaa: 名前空間

<item>
  <guid>…/view/4624184</guid>   // view ID
  <pubDate>… -0000</pubDate>
  <nyaa:downloads>0</…>     // 人気指標
  <nyaa:seeders>1</…>
  <nyaa:leechers>7</…>
  <nyaa:infoHash>9bb4…</…> // 安定ID
  <nyaa:categoryId>2_2</…>
  <nyaa:size>4.6 GiB</…>
</item>

2.4 ソート実測 / ページネーション / 詳細ページ

項目	観測結果
HTMLソート	`?s=downloads&o=desc` 等が完全に機能（トップ=363,062DL を実測）
RSSソート	無効（常に新着順を返す。実測確認）
HTML深掘り	機能する（p=100 で約8.3日前まで遡れる実測）。再観測の主力はこちら（§5）
RSS深掘り	不可（p=40/80 が同一の最新内容を返し、深いページに遡れない。実測確認）→ RSSはごく新着の発見にのみ使う
ページネーション	`?p=N`、75件/ページ。カテゴリ別に最大100pまで深掘り可能（サイト上限）。本システムは各カテゴリ `p1..100` を巡回（§5）
「昨日の一覧」	専用の日付レンジフィルタは無い。新着順で UTC タイムスタンプを辿り、対象日を過ぎたら停止。日付の意味づけ(JST/UTC)は分析層で決める
詳細 `/view/ID`	Submitter / 説明文 / ファイル一覧 / コメント等の静的メタを取得可。1リクエスト/件とコスト高、数値スナップショット目的では不要

コンポーネント	役割	Cloudflare機能
collector 取得層	定期クロール→生データ保存	Worker + Cron Triggers
analyzer 分析層	生データ→velocity/ランキング	Worker + Cron Triggers
API + UI	ランキング配信・閲覧	Worker (JSON) + Pages
観測DB	observations / torrents / rankings	D1（= SQLite）
生原本	RSS/HTML をそのまま保管	R2

5クロール戦略 — 4カテゴリ × 2軸 × カテゴリ別設定

対象は Doujinshi / Games / Manga / Real Life の4カテゴリ。新着順とseeder順の2軸で観測し、巡回ページ数とクロール頻度をカテゴリごとに設定する。

実測で判明した前提（設計の土台）

カテゴリ別なら新着で 最大100ページ（≈7,500件）まで深掘り可能。100pが遡る時間幅はカテゴリで桁違い（実測: Real Life ≈8日 / Doujinshi ≈207日 / Manga ≈2.5年 / Games ≈4.5年）。よってカテゴリごとに最適な深さ・頻度が異なる＝個別設定が必須。Real Life親(c=2_0)は子(Videos/Photobooks)を束ねることも確認。seeder順ソートも正常動作（実測トップ 728 seed）。

5.1 2軸クロール（新着順 × seeder順）

現在人気が再燃すれば捕捉需要中(seeders)＝DLの伸びと別軸の人気指標実測 p1 トップ: 728 seed / 2,770 DL × 4カテゴリ × 4カテゴリ頻度・ページ数は crawl_config でカテゴリ別に設定 observations へ追記（サイクル毎に重複排除）同時に生HTML原本を R2 へ

新着順=最近性軸、seeder順=現在人気軸。両軸を各カテゴリ pages ページずつ巡回し observations に追記。深さ・頻度は crawl_config でカテゴリ別に可変。

5.2 カテゴリ別クロール設定（`crawl_config`）

頻度（interval）と巡回ページ数（pages）をカテゴリごとに設定。下表は実測アップロード速度から導いた初期値（編集可能）。新着の巡回深さは「直近の活動量 + 余裕」を満たすように設定している。

カテゴリ	`c`	速度(実測)	pages	interval	軸
Real Life	`2_0`	≈940/日	100	3時間	新着 + seeder
Doujinshi	`1_2`	≈36/日	20	6時間	新着 + seeder
Manga	`1_4`	≈8/日	15	12時間	新着 + seeder
Games	`1_3`	≈4.6/日	10	24時間	新着 + seeder

※ pages はサイト上限の100まで設定可。Real Lifeは100p≈8日でちょうど velocity 窓に一致。低頻度カテゴリは浅め＋低頻度に抑え、無駄な再取得を避ける。値はすべて運用中に変更可能（再デプロイ不要）。

5.3 スケジューラ（カテゴリ別頻度の実現）

単一の Cron Trigger を最小粒度（例: 1時間ごと）で起動。collector は crawl_config を読み、各カテゴリについて now ≥ 前回実行 + interval なら「実行対象」と判定し、対象カテゴリのみを各軸 p1..pages で巡回する。前回実行時刻は crawl_runs で管理。これにより1つのCronでカテゴリごとに異なる頻度を実現する。

性能 — 初期設定での負荷

カテゴリ	1回のreq	回/日	req/日
Real Life	200	8	1,600
Doujinshi	40	4	160
Manga	30	2	60
Games	20	1	20
合計			≈1,840/日

最大の単一サイクルは Real Life の 200 req × 5s ≈ 約17分。Crawl-delay 5s 厳守でも全カテゴリ余裕。/download は叩かない。

ストレージ → D1ホット + R2コールド（推奨）

初期設定での観測量 ≈ 9万件/日（Real Lifeが大半）→ 年間 約3,000万行（数GB）。D1単独でも数年もつが、原則どおり D1 = ホット窓（直近14〜30日）／ R2 = 全履歴アーカイブ（不削除）に階層化し、分析層は両方を読む。pages/intervalを上げた場合に備えた標準構成。

5.4 Cloudflare上の実行方式

Durable Object + Alarm によるカーソル型クローラを推奨。DOが「現在の (カテゴリ, 軸, ページ)」を状態として持ち、1ページ取得 → 5秒後に自分を再起動 → 次へを繰り返す。crawl-delay 5sが自然に厳守され、単一Worker実行の時間上限に縛られず、中断しても途中再開できる。（代替: Cloudflare Queues に (cat,sort,page) ジョブを投入し consumer を max_concurrency:1 で消化。）

6D1 スキーマ（取得層）

observations は UPDATE/DELETE 禁止の追記専用。これが「生データ・不削除」の核。

-- 観測事実（追記専用・不変）
CREATE TABLE observations (
  id          INTEGER PRIMARY KEY AUTOINCREMENT,
  observed_at INTEGER NOT NULL,   -- クロール時刻 (UTC epoch)
  nyaa_id     INTEGER NOT NULL,   -- /view/{ID}
  info_hash   TEXT    NOT NULL,   -- コンテンツ安定ID
  downloads   INTEGER NOT NULL,   -- Completed（人気指標の母数）
  seeders     INTEGER NOT NULL,
  leechers    INTEGER NOT NULL,
  comments    INTEGER NOT NULL,
  size_bytes  INTEGER,
  category_id TEXT,
  trusted     INTEGER,            -- 0/1
  remake      INTEGER,
  source      TEXT NOT NULL       -- 'newest' | 'seeders'（取得した軸）
);
CREATE INDEX idx_obs_nyaa_time ON observations(nyaa_id, observed_at);
CREATE INDEX idx_obs_time      ON observations(observed_at);

-- 寸法表（変化しにくいメタの最新値・UPSERT）
CREATE TABLE torrents (
  nyaa_id INTEGER PRIMARY KEY, info_hash TEXT, title TEXT,
  category_id TEXT, pub_date INTEGER, submitter TEXT,
  first_seen_at INTEGER, last_seen_at INTEGER
);

-- カテゴリ別クロール設定（運用中に編集可能・§5.2）
CREATE TABLE crawl_config (
  category_id  TEXT PRIMARY KEY,   -- '2_0','1_2','1_4','1_3'
  label        TEXT NOT NULL,
  pages        INTEGER NOT NULL,   -- 各軸で巡回する最大ページ数(1..100)
  interval_min INTEGER NOT NULL,   -- クロール間隔（分）
  sorts        TEXT NOT NULL DEFAULT 'newest,seeders',
  enabled      INTEGER NOT NULL DEFAULT 1
);
INSERT INTO crawl_config VALUES
 ('2_0','Real Life',100, 180,'newest,seeders',1),
 ('1_2','Doujinshi', 20, 360,'newest,seeders',1),
 ('1_4','Manga',     15, 720,'newest,seeders',1),
 ('1_3','Games',     10,1440,'newest,seeders',1);

-- 分析層の出力（いつでも DROP→再構築）
CREATE TABLE rankings (
  ranking_key TEXT, rank INTEGER, nyaa_id INTEGER, score REAL,
  computed_at INTEGER, window_from INTEGER, window_to INTEGER,
  PRIMARY KEY (ranking_key, computed_at, rank)
);

容量試算: 初期設定で ≈9万件/日 → 年間約3,000万行（数GB）。D1単独でも数年もつが、原則どおり D1=ホット窓（直近14〜30日）／ R2=全履歴アーカイブ（Parquet・不削除）に階層化し、分析層は両方を読む。生HTML原本も raw/{cat}/{sort}/{YYYY}/{MM}/{DD}/{run_id}-p{page}.html で R2 保管。

7分析層 — 差し替え自由な「意味づけ」

取得層には触れず observations から派生計算。定義変更＝クエリ差し替えのみ、過去遡及も可能。

ランキング	定義例
急上昇（直近24h）	直近24hの `velocity` 降順
立ち上がり加速	`acceleration`（velocityの増加）降順 = 新作の伸び初速
需要先行	`leechers` 瞬間値 / seeders比（今まさにDL中）
カテゴリ別	上記を `category_id` で層別

重複排除: info_hash で torrent単位。タイトル正規化で content単位（後付け可）。
「昨日の一覧」: observed_at / pub_date に UTC/JST境界を当てて抽出（生データに日付があるので自由に切れる）。
定義を変えても生データは無傷なので、過去に遡って再計算できる。

sukebei.nyaa.si
ダウンロードの伸びから人気をランキング化する基盤

0結論サマリ

1設計の中核 — 取得層 / 分析層の分離

2サイト構造の網羅観測

2.1 URL設計 / クエリパラメータ

2.2 データソースの比較 — RSS を主力に

2.3 一覧テーブルの列 / RSS フィールド

HTML 一覧テーブルの列（75件/ページ）

RSS `<item>` の nyaa: 名前空間

2.4 ソート実測 / ページネーション / 詳細ページ

3「伸び」をどう算出するか

だから二層分離が必須になる

4Cloudflare 構成

5クロール戦略 — 4カテゴリ × 2軸 × カテゴリ別設定

実測で判明した前提（設計の土台）

5.1 2軸クロール（新着順 × seeder順）

5.2 カテゴリ別クロール設定（`crawl_config`）

5.3 スケジューラ（カテゴリ別頻度の実現）

性能 — 初期設定での負荷

ストレージ → D1ホット + R2コールド（推奨）

5.4 Cloudflare上の実行方式

6D1 スキーマ（取得層）

7分析層 — 差し替え自由な「意味づけ」

8未決事項 / 次アクション

0結論サマリ

1設計の中核 — 取得層 / 分析層の分離

2サイト構造の網羅観測

2.1 URL設計 / クエリパラメータ

2.2 データソースの比較 — RSS を主力に

2.3 一覧テーブルの列 / RSS フィールド

HTML 一覧テーブルの列（75件/ページ）

RSS <item> の nyaa: 名前空間

2.4 ソート実測 / ページネーション / 詳細ページ

3「伸び」をどう算出するか

だから二層分離が必須になる

4Cloudflare 構成

5クロール戦略 — 4カテゴリ × 2軸 × カテゴリ別設定

実測で判明した前提（設計の土台）

5.1 2軸クロール（新着順 × seeder順）

5.2 カテゴリ別クロール設定（crawl_config）

5.3 スケジューラ（カテゴリ別頻度の実現）

性能 — 初期設定での負荷

ストレージ → D1ホット + R2コールド（推奨）

5.4 Cloudflare上の実行方式

6D1 スキーマ（取得層）

7分析層 — 差し替え自由な「意味づけ」

8未決事項 / 次アクション

RSS `<item>` の nyaa: 名前空間

5.2 カテゴリ別クロール設定（`crawl_config`）