DeepSeekがデータ不正利用か　OpenAIとMicrosoft調査

たとえその疑いが事実であったとしても、これまでOpenAIやAnthropicなどが出来なかったコンパクトな計算資源で高品質なLLMの学習を成立させたのは事実で、その観点でこれまで出来なかったことを実現させています。出来るならOpenAIが自分でやって圧倒的な価格競争力を実現して競合を引き離していればよいわけですし。

蒸留の禁止については例えば著作権などを根拠とした判例があるわけではなさそうで、利用規約でそのように主張しているに過ぎません。プロプライエタリなソフトウェアのリバースエンジニアリングだって、ほとんどの規約で禁止されているのにあちこちで内緒でやっていたりするので、（仮に実際にやっていたとしても）DeepSeekがことさらに倫理にもとるようには思いません。もちろん、そのような行為を応援するわけではありませんが。。。

興味深いのは実際上どうやって防ぐかで、API経由の推論である以上、当然に普通のユーザーが機械的かつ大量にクエリーを投げることになります。蒸留用のデータセットを作ることを目的とした使用を検出するってどうやってやるんだろう。。。

少し語弊があるかなと思います。

> コンパクトな計算資源で高品質なLLMの学習を成立させた

これですが、本来は学習データを用意するために、膨大なGPUを使います。学習データのフィルタリングやらなんやら...

そのデータをまんまGPTのをパクってきているので、そのぶんGPUを使わないのは当たり前の話なんですよね。

またモデルの試行(チューニング)にもかなりのGPUを食うわけですが、これもGPTで既に洗礼されているものをパクってるので、そりゃGPUを使わないわけです。

なので、揚げ足っぽかったらすいませんが...

実現した、というのは少し違和感があり、当然の結果だと思っています。

(編集済み)

異なる視点の指摘をありがとうございます。学習データセットの整備は人的にも資源的にも軽いタスクではない点について、おっしゃっていることはよく分かります。

DeepSeekの原論文は読んでいないのですが、解説記事を見る限りでは、計算量の削減に新規性のあるアイデアを採用しているように見えます。たとえば、R1の元になったR1-Zeroの強化学習でルールベースで計算可能な報酬評価を採用したり、それを可能にするために正しい出力が一意に決まるコーパス（数学の解法ではないかと推測されているとのこと）を用意したり、といった部分です。

今後のLLMの研究に、上記のようなアイデアが下敷きとして採用されていくかどうかで、｢単に既存LLMの出力を利用して楽しただけ｣なのか、｢低コストなLLMの開発手法に真に有用な貢献をしたのか｣が分かるかもしれませんね。私は後者だといいなと思っています。

(編集済み)