Simon WillisonがHTMLテーブル抽出ツールを公開 Wikipedia連携も

Simon Willison (サイモン・ウィリソン)は2026年6月29日(現地時間)、自身のブログ「Simon Willison's Weblog」にて、ブラウザからペーストされたHTMLテーブルを含むリッチテキストを複数形式に変換する新ツール「HTML table extractor」を公開したと発表した。このツールは、検出されたテーブルをHTML、Markdown、CSV、TSV、JSONのいずれかの形式でエクスポートする機能を備えている。

このHTML table extractorツールは、ペーストされたHTML、リッチテキスト、またはプレーンテキスト内のテーブルを自動的に検出し、プレビュー表示する。ユーザーはこれらのテーブルをHTML、Markdown、CSV、TSV、JSONとして出力できる。

Willisonは以前公開したRich text to markdown toolについても、テーブル対応とUIの全体的な改善のために再構築したと述べている。

また、Wikipediaが提供するオープンなCORS APIを利用し、任意のページのレンダリング済みHTMLコンテンツを取得する機能も追加された。これにより、Codex (コーデックス) を用いてWikipediaページを検索し、そのページ内のテーブルを自動的にインポート・表示する機能が実装された。試用例として、WikipediaのList of cities and towns in the San Francisco Bay Areaページ全体を選択し、ツールに直接ペーストして利用できる。

参考: Simon Willison’s Weblog (アーカイブ) — 2026年6月30日 08:38 (JST)