オプティスクライブ性能検証とモデル比較
フォートトークアプリ Ver0.99.036 搭載の『オプティスクライブ』は、AIと視覚モデルによりPDFの内容を高精度でMarkdown形式に変換する最新OCR機能です。文書作業の効率化と情報共有の迅速化を支援します。
検証対象PDFについて
苫米地博士の論文『MONA-LISA: Multimodal Ontological Neural Architecture for Linguistic Interactions and Scalable Adaptations』(1991年)を用いて検証を実施しました。このPDFは画像スキャン形式で文字情報がなく、OCRの難易度が高いものです。
元論文PDFはこちら
また、苫米地博士の論文『MONA-LISA』は原文が英語のため、日本語の会話形式で音声化したファイルもご用意いたしました。博士の先進的な研究を、より身近に感じていただければ幸いです。
お使いのブラウザは動画再生に対応していません。
検証に使用したAIモデル
Gemini 2.0 Flash
Gemini 2.0 Flash Thinking Exp
OpenAI GPT 4.5
OpenAI o1
Claude 3.5 sonnet
Claude 3.7 sonnet
精度比較結果
以下のモデルが特に高精度で、Markdownへの変換に優れていました。
Gemini 2.0 Flash
OpenAI GPT 4.5
OpenAI o1
モデル料金比較
モデル名
入力料金 (100万トークン)
出力料金 (100万トークン)
総合料金 (入力:出力=1:3)
Gemini 2.0 Flash
$0.10
$0.40
$0.325(基準)
OpenAI o1
$15.00(150倍)
$60.00(150倍)
$48.75(約150倍)
OpenAI GPT 4.5
$75.00(750倍)
$150.00(375倍)
$131.25(約404倍)
Gemini 2.0 Flashは圧倒的なコストパフォーマンスを実現しています。