オプティスクライブ

オプティスクライブ性能検証とモデル比較

フォートトークアプリ Ver0.99.036 搭載の『オプティスクライブ』は、AIと視覚モデルによりPDFの内容を高精度でMarkdown形式に変換する最新OCR機能です。文書作業の効率化と情報共有の迅速化を支援します。

検証対象PDFについて

苫米地博士の論文『MONA-LISA: Multimodal Ontological Neural Architecture for Linguistic Interactions and Scalable Adaptations』(1991年)を用いて検証を実施しました。このPDFは画像スキャン形式で文字情報がなく、OCRの難易度が高いものです。
元論文PDFはこちら

また、苫米地博士の論文『MONA-LISA』は原文が英語のため、日本語の会話形式で音声化したファイルもご用意いたしました。博士の先進的な研究を、より身近に感じていただければ幸いです。

検証に使用したAIモデル

精度比較結果

以下のモデルが特に高精度で、Markdownへの変換に優れていました。

モデル料金比較

モデル名 入力料金
(100万トークン)
出力料金
(100万トークン)
総合料金
(入力:出力=1:3)
Gemini 2.0 Flash $0.10 $0.40 $0.325(基準)
OpenAI o1 $15.00(150倍) $60.00(150倍) $48.75(約150倍)
OpenAI GPT 4.5 $75.00(750倍) $150.00(375倍) $131.25(約404倍)
Gemini 2.0 Flashは圧倒的なコストパフォーマンスを実現しています。

オプティスクライブ出力結果(PDF)