バルク実行の設計 — earningsSchedule を起点にした並列処理
全社×全Qの決算データを順次取得すると数日かかる。rate limit と並列度のトレードオフを解決した earningsSchedule 起点のバルク設計と、実運用でわかった効果・落とし穴を整理する。
カテゴリ
スクレイピング・XBRL・スケジュール実行
8 件の記事
全社×全Qの決算データを順次取得すると数日かかる。rate limit と並列度のトレードオフを解決した earningsSchedule 起点のバルク設計と、実運用でわかった効果・落とし穴を整理する。
収集ロジックと利用ロジックを分離することは、最初から設計に組み込むべき原則であり、スプレッドシートという単純なインターフェースを介した疎結合設計で実現できる。
macOS の launchd で Claude Code を定期実行し、Notion Tasks DB の承認フローと組み合わせることで「AI が定期的に動く」仕組みをどう構築したか、設計と落とし穴を公開する。
macOS の launchd で毎朝5時に TDnet を自動取得し、決算短信 PDF をパースしてスプレッドシートに蓄積するまでの設計と、運用でわかった落とし穴を公開する。
金融データ収集基盤 medallion でのフォールバック設計を公開。XBRL 優先・PDF 補完・テキスト最終手段の3層構造と、信頼性メタデータをデータ側に持たせる設計の考え方を解説する。
BigQuery を立てるほどでもない中規模の時系列財務データを GWS スプレッドシートで扱う設計思想。master + 年度別8タブ構成の採用理由と、蓄積・参照・落とし穴を公開する。
上場企業の決算データを構造化するには、銘柄ごとに異なる XBRL タクソノミと会計基準の差異を吸収する仕組みが必要だ。tse-ed-t タクソノミ準拠のパーサ設計と IFRS/JGAAP の統一スキーマ、ファイルパスからのメタデータ抽出規則を解説する。
数千銘柄の IR ページはそれぞれ構造が異なる。共通スクリプト+銘柄別 YAML で「どこを見るか」を外に出し、コードを改変せずに銘柄追加・仕様変更を吸収する設計とその実践を解説する。