3時間のポッドキャスト/動画から15分でハイライトを抽出。


Claude Codeにスキルを作成し、リンクを貼るだけでOK — 小宇宙、YouTube、B站すべて対応し、中国語と英語も両方使える。
3つのAIモデルがそれぞれ役割を分担:
• Claudeは全体のフローを調整
• Whisperは音声を文字に変換
• Geminiは5万字の長文を処理し、構造化された要約を出力
最も面白いのは、3つのプラットフォームの音声取得方法が全く異なること。小宇宙は最も簡単で、ページのソースコードに直接音声リンクが隠されている。YouTubeには反爬機能があり、少し工夫が必要。B站は最も手間がかかる — 通常の方法はすべて封鎖されており、最終的には底層のAPIを直接呼び出して音声を取得した。
実際に試した3つの動画(図参照)は、117分+181分+114分、すべて正常に動作。最長の181分の動画は、5万字以上の文字起こしを実現。
以前は3時間のポッドキャストは聴くだけか聴かないかの選択肢しかなかったが、今は第3の選択肢が増えた:ハイライトを先に見て、必要なら元の動画に戻って聴くこともできる。
原文表示
post-image
post-image
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン